信息质量活动与对象识别技术解析
立即解锁
发布时间: 2025-08-23 00:01:04 阅读量: 2 订阅数: 9 

# 信息质量活动与对象识别技术解析
## 1. 信息质量活动中的异常值识别
### 1.1 分布异常值
分布异常值是指处于低密度区域的点,由于这些点相对孤立,所以被视为“可能的”异常值。其基本思想是异常值可能与其他数据点距离较远。具体操作是,对于值集中的每个点 \(x\),计算 \(F[d](x)\) 的值,它表示值集中与 \(x\) 的距离大于等于 \(d\) 的点的比例。\(F[p, d]\) 异常值集是满足 \(F[d](x) > p\) 的点 \(x\) 的集合,其中 \(p\) 是一个阈值。需要注意的是,异常值可能会聚集在一起,例如某些字段存在默认值或截断值的情况,此时需要调整阈值 \(p\) 来考虑这些字段。
### 1.2 时间序列异常值
时间序列异常值分析方法会考虑时间序列的相关特性,比如时间上接近的数据往往具有高度相关性,以及数据中可能存在的周期性模式,如信用卡支付可能在一周的某些时段出现高峰。具体技术步骤如下:
1. 使用空间划分策略,将按序列测量的属性组(如 <信用卡号, 消费金额>)划分为多个部分。
2. 划分后的每个类别代表数据点在某个时间的状态。
3. 将给定的时间序列建模为状态轨迹,并确定状态之间的转移概率。
4. 根据转移的可能性对转移进行排序,异常值对应于可能性较低的转移。
### 1.3 异常值判断
识别出异常值后,需要判断它们是异常但合法的行为,还是数据错误。在时间序列方法中,会考虑两种不同的偏差度量:
- **相对偏差**:表示数据点相对于其他数据点随时间的移动情况。例如,数据点可能代表客户的信用卡购买历史,有些客户购买速度较快,而有些客户则保持初始的购买速度。相对偏差较为稳健,因为状态变化需要属性发生显著变化。
- **内部偏差**:衡量数据点相对于其自身预期行为的动态变化。它对微小变化敏感,更适合分析长期变化,因此更适合区分稀有数据和错误。真正的变化通常会在一段时间内持续存在,而错误则会不可预测地出现和消失。例如,某一时刻的收入下降更可能是数据问题(如数据缺失),而不是下降趋势。错误中的模式可以揭示系统性原因,如特定缺失区间的数据问题。
## 2. 对象识别概述
### 2.1 对象识别的重要性
对象识别是一项非常重要且被广泛研究的信息质量活动。在电子政务等应用场景中,不同机构负责与企业相关的行政程序,如在各自的国家登记处存储企业信息、授权特定活动和提供服务(如征税)。同一组企业在不同机构的表示可能存在差异,但实际上代表的是同一个企业。对象识别就是要确定同一数据源或不同数据源中的数据是否代表现实世界中的同一个对象。
### 2.2 历史视角
“记录链接”这一术语最早被提及。随着计算机应用在行政活动、人口研究、健康实验和流行病学分析等领域的广泛应用,信息往往来自不同来源的合并。在 20 世纪 50 年代和 60 年代,信息以文件、记录和字段的形式表示,数据库管理系统采用了各种结构化数据表示模型,如层次和网络数据模型。到了 80 年代,关系模型被广泛应用于现代数据库管理系统。早期从经验程序向形式化方法的转变源于遗传学家霍华德·纽科姆,他引入了字符串中值的出现频率和匹配与不匹配记录的决策规则。后来,费勒吉和桑特提供了成熟的记录链接形式理论,此后许多实验和理论改进都源于他们的工作,记录链接也应用到了行政和普查等领域。近年来,新的技术将链接活动从文件扩展到更复杂的结构,同时地理信息系统也出现了叠加不同来源和格式地图与图像的需求。
### 2.3 对象识别的数据类型
处理对象识别问题的技术严格依赖于用于表示对象的信息类型。主要区分三种数据类型:
|数据类型|描述|示例|
| ---- | ---- | ---- |
|简单结构化数据|对应于文件对或关系表对|两个关系表,每个表包含人员的姓名、年龄等信息|
|复杂结构化数据|逻辑相关的文件组或关系表组|数据仓库中通过外键约束关联的一组关系,用于表示维度对象|
|半结构化信息|如 XML 标记文档对|两个 XML 文档,描述国家的相关信
0
0
复制全文
相关推荐









