Nominatim项目中的Tokenizer组件深度解析-CSDN博客

Nominatim项目中的Tokenizer组件深度解析

在Nominatim地理编码系统中，Tokenizer（分词器）是一个核心组件，负责分析和处理OSM对象名称以及用户查询。它通过不同的标准化策略，将原始文本转换为可搜索的标记（token），为后续的地理编码搜索提供基础支持。

Nominatim的搜索机制围绕搜索标记展开。每个标记代表查询中可能包含的字符串片段，并附带类型信息（如名称、门牌号、邮编等）。这种设计使得搜索索引不需要直接处理原始字符串，而是通过标记ID进行关联。

工作流程分为两个主要阶段：

导入过程涉及Python和PL/pgSQL两部分协作：

Python部分：
- 索引器准备OSM对象数据
- 调用分词器分析对象名称
- 生成标记ID列表并存入token_info JSONB字段
PL/pgSQL部分：
- 通过触发器处理placex表更新
- 调用分词器的SQL函数从token_info提取信息
- 将标记ID写入相应的搜索表

token_info字段是Python和PL/pgSQL之间的通信桥梁，通常处理完成后会被清空，但分词器也可以选择永久存储某些信息。

查询时，Nominatim会构建多种查询"解释"（interpretations），每个解释对应一种可能的标记组合。系统会按匹配可能性排序尝试这些解释，第一个返回结果的解释即为最终选择。

自定义Tokenizer需要实现两个核心文件：

其中<名称>只能包含小写字母、数字和下划线。此外，还需要在lib-sql/tokenizer中提供必要的SQL函数。

Tokenizer可以定义自己的配置项，所有配置必须以NOMINATIM_TOKENIZER_为前缀。配置分为两种类型：

必须实现一个工厂函数：

def create(dsn: str, data_dir: Path) -> AbstractTokenizer

返回继承自AbstractTokenizer的分词器实例。

作为所有分词器的基类，需要实现以下关键方法：

负责实际的分析工作，主要方法包括：

Tokenizer需要提供一系列SQL函数来处理token_info字段，主要包括：

标记获取函数：
- token_get_name_search_tokens()：获取名称搜索标记
- token_get_name_match_tokens()：获取名称匹配标记
- token_get_housenumber_search_tokens()：获取门牌号标记
地址处理函数：
- token_matches_street()：检查街道匹配
- token_matches_place()：检查地点匹配
- token_get_address_keys()：获取地址键列表
数据处理函数：
- token_strip_info()：清理token_info字段