基于图的手写历史文档关键词识别的交叉评估
立即解锁
发布时间: 2025-08-23 02:14:23 阅读量: 5 订阅数: 10 


基于图的模式识别与多媒体社交网络分析
### 基于图的手写历史文档关键词识别的交叉评估
#### 1. 引言
手写历史文档在笔迹(如规模或风格)上往往存在很大差异,还常受到墨水渗透、褪色等问题的影响,因此自动全文转录通常不可行。关键词识别(KWS)作为一种更灵活、容错性更强的替代方法被提出,它能检索文档中任意查询词的实例。
在基于图的KWS中,查询图通常与代表文档单词的图进行匹配,通过排序图的相异度来得出检索索引。不同的图基KWS方法基于不同的笔迹表示,节点常用来表示笔迹中的特征点(关键点),边则表示笔迹笔画。此外,还采用了不同的图相异度,如二分图编辑距离(BP)和豪斯多夫编辑距离(HED),并提出了集成方法来组合不同的图表示。
目前KWS研究中,通常为每个文档单独优化参数,但图书馆中往往有数千份不同的手写历史文档,为每份文档单独优化KWS系统既繁琐又耗时。因此,本文对基于图的KWS系统的通用性进行评估,通过对四份手写历史文档(乔治·华盛顿(GW)、帕西法尔(PAR)、阿尔弗曼会议记录(AK)和植物学(BOT))进行交叉评估实验,研究该系统的性能和局限性,并提出新的集成方法,以便在无需事先优化的情况下对未知文档进行KWS。
#### 2. 基于图的关键词识别
##### 2.1 图像预处理
- **GW和PAR文档**:
1. 使用高斯差分滤波处理一般噪声。
2. 通过全局阈值法对文档图像进行二值化处理。
3. 利用投影轮廓将文档图像自动分割成单个单词图像,必要时手动修正。
4. 估计文本行x轴与下基线之间的角度,用于旋转单个单词图像以进行去倾斜。
5. 通过细化对预处理后的单词图像进行骨架化处理。
- **AK和BOT文档**:直接从ICFHR2016基准数据库获取分割后的单词图像,仅进行二值化处理,并增加一个图像预处理步骤,去除这两份手稿上的小连通分量。
将预处理和骨架化后的单词图像记为S。
##### 2.2 手写图
图g定义为四元组g = (V, E, μ, ν),其中V和E是有限的节点和边集,μ : V →LV和ν : E →LE分别是节点和边的标记函数。本文中的手写图,节点表示笔迹中的特征点(关键点),边表示关键点之间的笔画,节点用二维数值标记,边不标记(LV = R2,LE = ∅)。提取图的步骤如下:
1. 在单词图像S中识别端点和连接点,将选定的关键点作为节点添加到图中,并标记其(x, y)坐标。
2. 沿骨架以等距间隔D添加中间点作为节点。
3. 对于图像S中由前景像素链直接连接的每对节点,在图中插入无向边(u, v)。
4. 为减少缩放变化,使用z分数对节点标签μ(v)的(x, y)坐标进行归一化,即:
- $\hat{x} = \frac{x - \mu_x}{\sigma_x}$
- $\hat{y} = \frac{y - \mu_y}{\sigma_y}$
其中,$(\mu_x, \mu_y)$和$(\sigma_x, \sigma_y)$分别表示当前图中所有(x, y)坐标的均值和标准差。
##### 2.3 图匹配
实际的关键词识别基于查询图q与文档图集合G中所有图g的成对匹配,本文使用豪斯多夫编辑距离(HED)。HED是图编辑距离的二次时间下界,通过节点的删除(u →ϵ)、插入(ϵ →v)和替换(u →v)以及边的相应编辑操作,测量将一个图g1转换为另一个图g2所需的最小成本变形。
HED的计算公式为:
$HED(g_1, g_2) = \sum_{u\in V_1} \min_{v\in V_2\cup\{\epsilon\}} f(u, v) + \sum_{v\in V_2} \min_{u\in V_1\cup\{\epsilon\}} f(u, v)$
其中,f(u, v)是一个考虑节点编辑成本c(u →v)和所有与u和v相邻边的边编辑成本c(q →r)的成本函数。
成本模型基于节点删除/插入的常数成本$\tau_v \in R^+$和边删除/插入的常数成本$\tau_e \in R^+$。对于节点替换,使用以下加权欧几里得距离:
$\sqrt{\alpha (\sigma_x(x_i - x_j))^2 + (1 - \alpha) (\sigma_y(y_i - y_j))^2}$
其中,$\alpha \in [0, 1]$是一个参数,用于权衡节点x和y坐标的重要性,$\sigma_x$和$\sigma_y$表示当前查询图q中所有节点坐标的标准差。边替换免费(因为边未标记),还使用加权因子$\beta \in [0, 1]$来权衡整体节点
0
0
复制全文