Elasticsearch 模糊查询与智能搜索推荐：源码目录与核心流程行级解析

最新推荐文章于 2025-07-30 01:21:55 发布

北漂老男人

最新推荐文章于 2025-07-30 01:21:55 发布

阅读量1.8k

点赞数 61

CC 4.0 BY-SA版权

分类专栏： Elasticsearch 文章标签： elasticsearch 大数据架构学习方法全文检索搜索引擎

本文链接：https://blog.csdn.net/weixin_39863120/article/details/149269617

Elasticsearch 专栏收录该内容

34 篇文章

订阅专栏

Elasticsearch 模糊查询与智能搜索推荐：源码目录与核心流程行级解析

一、前言

在现代搜索系统中，模糊查询和智能推荐已成为提升用户体验的关键功能。Elasticsearch（简称 ES）提供了丰富的查询手段，如 prefix（前缀）、wildcard（通配符）、regexp（正则）、fuzzy（模糊）、match_phrase_prefix（短语前缀）等。理解这些查询在底层的实现机制与源码结构，有助于我们进行性能优化和功能扩展。

二、源码目录结构总览

Elasticsearch 的查询相关源码主要集中在 Lucene 查询转换和 ES 查询解析两个层面。以下是核心源码目录：

elasticsearch/
│
├── server/
│   └── src/main/java/org/elasticsearch/index/query/
│         ├── PrefixQueryBuilder.java      // prefix 查询解析
│         ├── WildcardQueryBuilder.java    // wildcard 查询解析
│         ├── RegexpQueryBuilder.java      // regexp 查询解析
│         ├── FuzzyQueryBuilder.java       // fuzzy 查询解析
│         ├── MatchPhrasePrefixQueryBuilder.java // match_phrase_prefix 查询
│         └── ...（其它查询相关）
│
├── server/
│   └── src/main/java/org/elasticsearch/search/
│         ├── SearchService.java           // 查询流程主控
│         └── ...
│
├── lucene/                                // Lucene 查询实现
│   └── core/src/java/org/apache/lucene/search/
│         ├── PrefixQuery.java
│         ├── WildcardQuery.java
│         ├── RegexpQuery.java
│         ├── FuzzyQuery.java
│         └── ...

三、主流程核心源码与行级解析

以 prefix 查询为例，其他类型查询流程类似。

1. 查询解析与构建

PrefixQueryBuilder.java

public class PrefixQueryBuilder extends AbstractQueryBuilder<PrefixQueryBuilder> {
    private final String fieldName;
    private final String value;

    @Override
    protected Query doToQuery(SearchExecutionContext context) {
        // 1. 字段映射查找
        MappedFieldType fieldType = context.getFieldType(fieldName);
        if (fieldType != null) {
            // 2. 构造 Lucene 的 PrefixQuery
            return fieldType.prefixQuery(value, context);
        }
        // 3. 字段不存在，返回空查询
        return new MatchNoDocsQuery();
    }
}

注释说明：

1️⃣ 获取当前字段的映射类型（决定分词、类型等）
2️⃣ 调用映射类型的 prefixQuery，最终生成 Lucene 的 PrefixQuery
3️⃣ 字段不存在时返回空结果

2. 字段类型适配

TextFieldType.java

@Override
public Query prefixQuery(String value, SearchExecutionContext context) {
    // 1. 字段未分词，直接构建前缀查询
    if (isKeywordField()) {
        return new PrefixQuery(new Term(name(), indexedValueForSearch(value)));
    }
    // 2. 分词字段，抛异常（不建议前缀查分词字段）
    throw new QueryShardException(context, "Prefix queries are not allowed on analyzed fields");
}

注释说明：

只对未分词（keyword）字段做前缀查询，分词字段需用 NGram 等方案

3. Lucene 查询执行

PrefixQuery.java

public class PrefixQuery extends AutomatonQuery {
    // 1. 构造时传入前缀
    public PrefixQuery(Term prefix) {
        super(prefix.field(), toAutomaton(prefix.bytes()));
    }

    // 2. 转为自动机，遍历所有前缀匹配的 term
    private static Automaton toAutomaton(BytesRef prefix) {
        Automaton automaton = Automata.makeString(prefix.utf8ToString());
        return Operations.concatenate(automaton, Automata.makeAnyString());
    }
}

注释说明：

构造自动机，实现所有以 prefix 开头的 term 匹配
Lucene 查询时利用倒排索引的有序性，快速定位和批量扫描

4. 查询主流程串联

SearchService.java（部分伪代码）

public SearchPhaseResult executeQueryPhase(SearchContext context) {
    // 1. 解析用户查询DSL
    QueryBuilder queryBuilder = context.getQueryShardContext().parseQuery();
    // 2. 转换为 Lucene Query
    Query luceneQuery = queryBuilder.toQuery(context.getQueryShardContext());
    // 3. 执行 Lucene 查询
    TopDocs topDocs = context.searcher().search(luceneQuery, ...);
    // 4. 封装并返回
    return new SearchPhaseResult(topDocs);
}