基于图的手写历史文档关键词识别的交叉评估

立即解锁

发布时间: 2025-08-23 02:14:23 阅读量: 5 订阅数: 10

基于图的模式识别与多媒体社交网络分析

### 基于图的手写历史文档关键词识别的交叉评估 #### 1. 引言手写历史文档在笔迹（如规模或风格）上往往存在很大差异，还常受到墨水渗透、褪色等问题的影响，因此自动全文转录通常不可行。关键词识别（KWS）作为一种更灵活、容错性更强的替代方法被提出，它能检索文档中任意查询词的实例。在基于图的KWS中，查询图通常与代表文档单词的图进行匹配，通过排序图的相异度来得出检索索引。不同的图基KWS方法基于不同的笔迹表示，节点常用来表示笔迹中的特征点（关键点），边则表示笔迹笔画。此外，还采用了不同的图相异度，如二分图编辑距离（BP）和豪斯多夫编辑距离（HED），并提出了集成方法来组合不同的图表示。目前KWS研究中，通常为每个文档单独优化参数，但图书馆中往往有数千份不同的手写历史文档，为每份文档单独优化KWS系统既繁琐又耗时。因此，本文对基于图的KWS系统的通用性进行评估，通过对四份手写历史文档（乔治·华盛顿（GW）、帕西法尔（PAR）、阿尔弗曼会议记录（AK）和植物学（BOT））进行交叉评估实验，研究该系统的性能和局限性，并提出新的集成方法，以便在无需事先优化的情况下对未知文档进行KWS。 #### 2. 基于图的关键词识别 ##### 2.1 图像预处理 - **GW和PAR文档**： 1. 使用高斯差分滤波处理一般噪声。 2. 通过全局阈值法对文档图像进行二值化处理。 3. 利用投影轮廓将文档图像自动分割成单个单词图像，必要时手动修正。 4. 估计文本行x轴与下基线之间的角度，用于旋转单个单词图像以进行去倾斜。 5. 通过细化对预处理后的单词图像进行骨架化处理。 - **AK和BOT文档**：直接从ICFHR2016基准数据库获取分割后的单词图像，仅进行二值化处理，并增加一个图像预处理步骤，去除这两份手稿上的小连通分量。将预处理和骨架化后的单词图像记为S。 ##### 2.2 手写图图g定义为四元组g = (V, E, μ, ν)，其中V和E是有限的节点和边集，μ : V →LV和ν : E →LE分别是节点和边的标记函数。本文中的手写图，节点表示笔迹中的特征点（关键点），边表示关键点之间的笔画，节点用二维数值标记，边不标记（LV = R2，LE = ∅）。提取图的步骤如下： 1. 在单词图像S中识别端点和连接点，将选定的关键点作为节点添加到图中，并标记其(x, y)坐标。 2. 沿骨架以等距间隔D添加中间点作为节点。 3. 对于图像S中由前景像素链直接连接的每对节点，在图中插入无向边(u, v)。 4. 为减少缩放变化，使用z分数对节点标签μ(v)的(x, y)坐标进行归一化，即： - $\hat{x} = \frac{x - \mu_x}{\sigma_x}$ - $\hat{y} = \frac{y - \mu_y}{\sigma_y}$ 其中，$(\mu_x, \mu_y)$和$(\sigma_x, \sigma_y)$分别表示当前图中所有(x, y)坐标的均值和标准差。 ##### 2.3 图匹配实际的关键词识别基于查询图q与文档图集合G中所有图g的成对匹配，本文使用豪斯多夫编辑距离（HED）。HED是图编辑距离的二次时间下界，通过节点的删除（u →ϵ）、插入（ϵ →v）和替换（u →v）以及边的相应编辑操作，测量将一个图g1转换为另一个图g2所需的最小成本变形。 HED的计算公式为： $HED(g_1, g_2) = \sum_{u\in V_1} \min_{v\in V_2\cup\{\epsilon\}} f(u, v) + \sum_{v\in V_2} \min_{u\in V_1\cup\{\epsilon\}} f(u, v)$ 其中，f(u, v)是一个考虑节点编辑成本c(u →v)和所有与u和v相邻边的边编辑成本c(q →r)的成本函数。成本模型基于节点删除/插入的常数成本$\tau_v \in R^+$和边删除/插入的常数成本$\tau_e \in R^+$。对于节点替换，使用以下加权欧几里得距离： $\sqrt{\alpha (\sigma_x(x_i - x_j))^2 + (1 - \alpha) (\sigma_y(y_i - y_j))^2}$ 其中，$\alpha \in [0, 1]$是一个参数，用于权衡节点x和y坐标的重要性，$\sigma_x$和$\sigma_y$表示当前查询图q中所有节点坐标的标准差。边替换免费（因为边未标记），还使用加权因子$\beta \in [0, 1]$来权衡整体节点