信息质量活动:准确性、完整性与错误处理
立即解锁
发布时间: 2025-08-23 00:01:04 阅读量: 2 订阅数: 9 

### 信息质量活动:准确性、完整性与错误处理
在信息处理过程中,确保信息的质量至关重要。本文将围绕信息质量的准确性、完整性以及错误定位与纠正展开讨论,介绍相关的概念、公式和方法。
#### 1. 相关符号与概念
在探讨信息质量的各项指标之前,先明确一些常用的符号及其含义:
| 符号 | 含义 |
| ---- | ---- |
| r | 输入关系 |
| r1, r2, .., rn | n 个输入关系的集合 |
| s | 输出关系 |
| \| r \| | 关系 r 的大小 |
| acc | 准确性 |
| inacc | 不准确性 |
| cov | 覆盖率 |
| compl | 完整性 |
#### 2. 信息质量的准确性
不同学者对准确性进行了研究,并给出了相关的计算公式。
- **Wang 的研究**:Wang 针对选择和投影运算符给出了一些结果。在假设输出关系大小 \| s \| 已知的情况下,基于误差均匀分布的假设,可得出公式 acc(s) = acc(r)。对于最坏和最好情况,也有相应的公式,例如最坏情况下,若 \| r \| ≤ \| s \|,则 acc(s) = 0。
- **Parssian 的研究**:Parssian 的研究成果更为丰富,因为他为输入关系定义了更多的维度。
- **笛卡尔积运算**:对于两个关系 r1 和 r2 进行笛卡尔积运算,有 acc(s) = acc(r1) × acc(r2) 和 inacc(s) = acc(r1)×inacc(r2) + acc(r2)×inacc(r1) + inacc(r1)×inacc(r2)。
- **选择运算**:选择运算根据条件的结构分为四种不同情况,这里介绍两种。
- 当条件是对标识符属性应用不等式时,由于误差均匀分布的假设,s 的准确性、不准确性、错成员性和完整性值与 r 相同。
- 当条件是对非标识符属性 A 应用等式时,元组是否被选中取决于其在 A 属性上的值是否准确。此时,准确性公式为 acc(s) = acc(r) × \| r \| / \| s \| × P(t ∈ s),其中 P(t ∈ s) 是准确/不准确/错成员元组在与条件中出现或不出现的非标识符属性相关的 r 的部分中的概率。
#### 3. 信息质量的完整性
Naumann 和 Scannapieco 在完整性方面做出了重要贡献。
- **Naumann 的方法**:在 Naumann 的方法中,关系 r1 的完整性、覆盖率和密度之间存在函数关系,即 compl(r1) = cov(r1) × density(r1)。他还针对两个关系 r1 和 r2 的二元运算符,在不同假设下对覆盖率等维度的组合函数进行了刻画。例如在连接合并操作中,不同假设下的结果不同,对应的覆盖率计算公式也不同。
| 假设/运算符 | r1 和 r2 不相交 | 量化重叠(= x) | r1 包含于 r2 |
| ---- | ---- | ---- | ---- |
| 连接合并 | 0 | \|x\| / \|ur\| | cov(r1) |
| 左外连接合并 | cov(r1) | cov(r1) | cov(r1) |
| 全外连接合并 | cov(r1) + cov(r2) | cov(r1) + cov(r2) - \|x\| / \|ur\| | cov(r1) |
- **Scannapieco 的方法**:Scannapieco 考虑了开放世界假设下的两种情况,对并集运算符的完整性进行评估。
- **相同参考关系**:当 ref(r1) = ref(r2) = ref(s) 时,若没有关于关系的额外知识,只能给出完整性的上界 compl(r) ≤ max (compl(r1), compl(r2))。在此不等式背后,又可细分为三种情况:
- 不相交:若 r1 ∩ r2 = 0,则 compl(s) = compl(r1) + compl(r2)。
- 非量化部分重叠:若 r1 ∩ r
0
0
复制全文
相关推荐










