数字图书馆中的数学索引与搜索
1 引言
数学公式检索问题是构建数字数学图书馆(DML)的核心。此前虽有诸多解决该问题的尝试,但在更广泛的数学界,这些方法既未得到广泛应用,也未令人满意。目前,图书馆系统或谷歌学术对于数学公式搜索格式尚未达成广泛共识。
W3C 的 MathML 标准已成为软件工具间数学信息交换的标准。不过,作者们通常不直接编写 MathML,而是倾向于使用如 LATEX 或 AMS - LATEX 等 TEX 风格的紧凑符号。因此,数学搜索系统的设计者面临的任务是将数据转换为统一格式,并允许 DML 用户在查询时使用他们偏好的符号。
在将现有 DML 集成到更大项目(如 EuDML)的过程中,未解决的数学搜索问题愈发明显——没有数学搜索支持的 DML 就像是自相矛盾的存在。鉴于此,我们设计并实现了新的强大解决方案,用于检索数学公式。
2 数学搜索方法
过去已经有大量关于在数字图书馆和网络上搜索数学公式的研究,并且设计了几种数学搜索引擎(MSE),下面简要介绍几种:
- MathDex :它是由 Robert Miner 领导的 NSF 资助项目的成果。它将数学编码为文本标记,使用 Apache Lucene 进行文本搜索。通过与搜索词的相似度,搜索算法生成排名结果,匹配呈现 MathML 的 n - 元组。不过,该算法存在一些缺点,例如无法考虑多种基本数学等价关系,且对变量名赋予了过高的权重。
- EgoMath :由 Josef Mišutka 开发,是全文网络搜索核心引擎 Egothor 的扩展。它使用呈现 MathML 进