Elasticsearch 分析器结构

本文深入探讨Elasticsearch分析器的内部结构,包括字符过滤器、分词器及符号过滤器的功能与作用,揭示如何通过这些组件创建自定义分析器以适应不同语言和文本类型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分析器结构


分析器由三个构造块构成:字符过滤器、分词器、符号过滤器。
内置分析器将这三个构造块预包装进分析器中以适应不同语言与类型的文本。Elasticsearch公开了独立构造块用于将其组合定义新的分析器。

1 字符过滤器

字符过滤器以字符流形式接收原始文本,并且可以通过添加、移除或改变字符的方式转化字符流。

分析器可以包含零个或多个字符过滤器,这些过滤器可以被按序应用。

2 分词器

分词器接收字符流,将其切分为单独的符号(通常为单词),输出符号流。
分词器还负责记录每个术语的顺序或位置,以及术语表示的原始单词的开始与结束字符

分析器必须包含正好一个分词器。

3 符号过滤器

符号过滤器接收符号流,并且可以添加、删除、改变符号。
例如,stop过滤器从符号流中移除类似the的通用单词(停止单词)。

符号过滤器不能改变每个符号的位置与字符偏移量。
分析器可能有零个或多个字符过滤器,这些过滤器按序应用。


翻译源:Elasticsearch 6.4 文档

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值