信息质量活动与对象识别技术解析

# 信息质量活动与对象识别技术解析 ## 1. 信息质量活动中的异常值识别 ### 1.1 分布异常值分布异常值是指处于低密度区域的点，由于这些点相对孤立，所以被视为“可能的”异常值。其基本思想是异常值可能与其他数据点距离较远。具体操作是，对于值集中的每个点 \(x\)，计算 \(F[d](x)\) 的值，它表示值集中与 \(x\) 的距离大于等于 \(d\) 的点的比例。\(F[p, d]\) 异常值集是满足 \(F[d](x) > p\) 的点 \(x\) 的集合，其中 \(p\) 是一个阈值。需要注意的是，异常值可能会聚集在一起，例如某些字段存在默认值或截断值的情况，此时需要调整阈值 \(p\) 来考虑这些字段。 ### 1.2 时间序列异常值时间序列异常值分析方法会考虑时间序列的相关特性，比如时间上接近的数据往往具有高度相关性，以及数据中可能存在的周期性模式，如信用卡支付可能在一周的某些时段出现高峰。具体技术步骤如下： 1. 使用空间划分策略，将按序列测量的属性组（如 <信用卡号, 消费金额>）划分为多个部分。 2. 划分后的每个类别代表数据点在某个时间的状态。 3. 将给定的时间序列建模为状态轨迹，并确定状态之间的转移概率。 4. 根据转移的可能性对转移进行排序，异常值对应于可能性较低的转移。 ### 1.3 异常值判断识别出异常值后，需要判断它们是异常但合法的行为，还是数据错误。在时间序列方法中，会考虑两种不同的偏差度量： - **相对偏差**：表示数据点相对于其他数据点随时间的移动情况。例如，数据点可能代表客户的信用卡购买历史，有些客户购买速度较快，而有些客户则保持初始的购买速度。相对偏差较为稳健，因为状态变化需要属性发生显著变化。 - **内部偏差**：衡量数据点相对于其自身预期行为的动态变化。它对微小变化敏感，更适合分析长期变化，因此更适合区分稀有数据和错误。真正的变化通常会在一段时间内持续存在，而错误则会不可预测地出现和消失。例如，某一时刻的收入下降更可能是数据问题（如数据缺失），而不是下降趋势。错误中的模式可以揭示系统性原因，如特定缺失区间的数据问题。 ## 2. 对象识别概述 ### 2.1 对象识别的重要性对象识别是一项非常重要且被广泛研究的信息质量活动。在电子政务等应用场景中，不同机构负责与企业相关的行政程序，如在各自的国家登记处存储企业信息、授权特定活动和提供服务（如征税）。同一组企业在不同机构的表示可能存在差异，但实际上代表的是同一个企业。对象识别就是要确定同一数据源或不同数据源中的数据是否代表现实世界中的同一个对象。 ### 2.2 历史视角 “记录链接”这一术语最早被提及。随着计算机应用在行政活动、人口研究、健康实验和流行病学分析等领域的广泛应用，信息往往来自不同来源的合并。在 20 世纪 50 年代和 60 年代，信息以文件、记录和字段的形式表示，数据库管理系统采用了各种结构化数据表示模型，如层次和网络数据模型。到了 80 年代，关系模型被广泛应用于现代数据库管理系统。早期从经验程序向形式化方法的转变源于遗传学家霍华德·纽科姆，他引入了字符串中值的出现频率和匹配与不匹配记录的决策规则。后来，费勒吉和桑特提供了成熟的记录链接形式理论，此后许多实验和理论改进都源于他们的工作，记录链接也应用到了行政和普查等领域。近年来，新的技术将链接活动从文件扩展到更复杂的结构，同时地理信息系统也出现了叠加不同来源和格式地图与图像的需求。 ### 2.3 对象识别的数据类型处理对象识别问题的技术严格依赖于用于表示对象的信息类型。主要区分三种数据类型： |数据类型|描述|示例| | ---- | ---- | ---- | |简单结构化数据|对应于文件对或关系表对|两个关系表，每个表包含人员的姓名、年龄等信息| |复杂结构化数据|逻辑相关的文件组或关系表组|数据仓库中通过外键约束关联的一组关系，用于表示维度对象| |半结构化信息|如 XML 标记文档对|两个 XML 文档，描述国家的相关信

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

信息质量活动与对象识别技术解析

相关推荐

专栏目录

信息质量活动与对象识别技术解析

相关推荐

汽车自动驾驶中的目标识别技术解析

图像识别领域所涉及的基本技术解析

射频识别技术基础ppt.zip

pdca与质量控制技术解析及8d报告.pptx

质量控制技术解析.doc

pdca与质量控制技术解析及8d报告(PPT 69页).pptx

matlab 模板匹配对象识别

MATLAB水果图片分类与识别技术解析

MATLAB水果图像识别技术解析与代码实现

C#实现摄像头二维码识别技术解析

通俗易懂的机器学习——梯度上升主成分分析数学原理推导及解释

电力电子学中三相MMC整流器模型及控制策略解析

专栏目录

最新推荐

【数据驱动EEG分析在MATLAB中的实现】：EEGbdfreader的角色与应用

【ERP系统完美对接】：KEPServerEX与企业资源规划的集成指南

【MCP23017集成实战】：现有系统中模块集成的最佳策略

【AGV调度系统的云集成奥秘】：云技术如何革新调度系统

【Flash存储器的数据安全】：STM32中的加密与防篡改技术，安全至上

【硬件连接秘籍】：STM32F103C8T6与ATT7022E的高级接线教程

微服务架构设计原则与实践：如何构建可扩展的现代应用

MATLAB遗传算法的高级应用：复杂系统优化

【CHI 660e扩展模块应用】：释放更多实验可能性的秘诀

OPCUA-TEST与机器学习：智能化测试流程的未来方向！