Elasticsearch权威指南：处理变音符号的规范化技术-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00536/article/details/148524425

Elasticsearch权威指南：处理变音符号的规范化技术

变音符号处理的必要性

在文本搜索和分析中，变音符号（如´, ^, ¨等）的处理是一个常见挑战。英语中变音符号通常用于强调单词（如rôle, déjà, däis），但在其他语言中（如西班牙语、法语等），变音符号可能具有区分词义的重要功能。

ASCII折叠过滤器

Elasticsearch提供了asciifolding字符过滤器，专门用于处理变音符号问题。这个过滤器不仅能去除变音符号，还能将Unicode字符转换为ASCII表示：

ß → ss
æ → ae
ł → l
⁇ → ??
❷ → 2

基本配置示例

PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "folding": {
          "tokenizer": "standard",
          "filter": ["lowercase", "asciifolding"]
        }
      }
    }
  }
}

使用这个分析器处理"My œsophagus caused a débâcle"会得到词元：my, oesophagus, caused, a, debacle。

语义保留的挑战

简单去除所有变音符号可能导致语义丢失。以西班牙语为例：

esta：形容词"this"的阴性形式
ésta：esta的古代用法
está：动词"estar"(to be)的第三人称形式

类似地：

sé：动词"saber"(to know)的第一人称形式
se：第三人称反身代词

双重索引策略

为解决语义保留问题，推荐采用双重索引策略：

保留原文形式（使用standard分析器）
同时存储去除变音符号的形式（使用folding分析器）

映射配置示例

PUT /my_index/_mapping/my_type
{
  "properties": {
    "title": {
      "type": "string",
      "analyzer": "standard",
      "fields": {
        "folded": {
          "type": "string",
          "analyzer": "folding"
        }
      }
    }
  }
}

查询策略

使用multi_match查询结合两个字段：

GET /my_index/_search
{
  "query": {
    "multi_match": {
      "type": "most_fields",
      "query": "esta loca",
      "fields": ["title", "title.folded"]
    }
  }
}

这种策略的优势在于：