通过变更重要性提升网络存档质量
立即解锁
发布时间: 2025-08-23 00:46:13 阅读量: 6 订阅数: 17 


计算机科学讲义:数据库与专家系统应用
### 通过变更重要性提升网络存档质量
在当今数字化时代,网络存档的质量至关重要。本文将介绍如何通过考虑变更的重要性来提升网络存档的质量,包括相关定义、质量度量以及基于模式的网络爬虫策略等内容。
#### 1. 基本定义
- **查询结果**:用户查询 $Q(t_q, AS_i)$ 的结果 $R(Q(t_q, AS_i))$ 是 $S_i$ 中每个页面最接近时间 $t_q$ 的 $N_i$ 个版本 $P_j^i[t]$ 的集合。用数学公式表示为:
$R(Q(t_q, AS_i)) = \{P_j^i[t] \in AS_i|\neg\exists P_j^i[t'] \in AS_i : |t' - t_q| < |t - t_q|\}; j = \{1, .., N_i\}$
- **版本重要性**:页面 $P_j^i$ 在时间 $t$ 捕获的版本 $P_j^i[t]$ 的重要性 $\omega(P_j^i[t])$ 是其对应变更的重要性 $\omega_j^i[t']$ 与页面重要性 $\omega(P_j^i)$ 的乘积。即:
$\omega(P_j^i[t]) = \omega_j^i[t'] * \omega(P_j^i)$
其中,$t'$ 是 $P_j^i[t]$ 在 $t$ 之前的最后一次变更时间。
#### 2. 质量度量
为了评估网络存档的质量,我们定义了两个质量度量指标:完整性和连贯性。
##### 2.1 完整性
完整性衡量了存档中捕获的变更重要性占网站上发生的变更总重要性的比例。
- **完整存档**:如果存档包含构成存档的所有网站上出现的所有页面版本 $\tilde{P}_j^i[t]$,则该存档是完整的。数学表达式为:
$\forall\tilde{P}_j^i[t], \exists P_j^i[t'] \in AS_i, t' \geq t : P_j^i[t'] = \tilde{P}_j^i[t]$
- **存档页面完整性**:存档页面 $P_j^i$ 的完整性是已捕获版本的权重之和除以实际网站上出现的版本(由变更创建)的总权重。假设 $m$ 是在时间 $t_k$ 捕获的版本 $P_j^i[t_k]$ 的数量,$p$ 是在时间 $\tau_k$ 网站上创建的版本 $\tilde{P}_j^i[\tau_k]$ 的数量,则存档页面 $P_j^i$ 的完整性为:
$Completeness(P_j^i) = \frac{\sum_{k = 1}^{m} \omega(P_j^i[t_k])}{\sum_{k = 1}^{p} \omega(\tilde{P}_j^i[\tau_k])}$
其中,版本的权重 $\omega(P_j^i[t_k])$ 等于最后一次变更的重要性 $\omega_j^i[t']$,版本的权重 $\omega(\tilde{P}_j^i[\tau_k])$ 等于最后一次变更的重要性 $\omega_j^i[\tau']$,$\omega_j^i[t']$ 和 $\omega_j^i[\tau']$ 分别表示在捕获版本 $P_j^i[t_k]$ 和 $\tilde{P}_j^i[\tau_k]$ 之前在 $t'$ 和 $\tau'$ 发生的变更的重要性。
- **存档网站完整性**:存档网站 $AS_i$ 的完整性是 $S_i$ 的 $N_i$ 个页面的完整性之和(按其重要性加权)除以所有页面的总重要性。计算公式为:
$Completeness(AS_i) = \frac{\sum_{j = 1}^{N_i} Completeness(P_j^i) * \omega(P_j^i)}{\sum_{j = 1}^{N_i} \omega(P_j^i)}$
- **存档完整性**:存档 $AS$ 的整体完整性是所有存档网站的平均完整性。即:
$Completeness(AS) = \frac{\sum_{i = 1}^{\kappa} Completeness(AS_i)}{\kappa}$
下面通过一个例子来说明存档网站完整性的计算。假设有一个网站 $S_i$ 由两个页面 $P_1^i$ 和 $P_2^i$ 组成。页面 $P_1^i$ 在时间 $t_1$ 和 $t_2$ 分别捕获了两个版本 $P_1^i[t_1]$ 和 $P_1^i[t_2]$,在时间 $\tau_1, \tau_2, \tau_3$ 和 $\tau_4$ 发生的四次变更的重要性分别为 $0.1, 0.6, 0.5, 0.2$。页面 $P_2^i$ 在 $t_1'$ 有一次捕获 $P_2^i[t_1']$,在 $\tau_1'$ 和 $\tau_2'$ 发生的两次变更的重要性分别为 $0.12$ 和 $0.45$。假设每个页面的重要性都等于 $1$,则:
$Completeness(P_1^i) = \frac{\omega(P_1^i[t_1]) + \omega(P_1^i[t_2])}{\sum_{k = 1}^{4} \omega(P_1^i[\tau_k])} = \frac{0.6 + 0.5}{0.1 + 0.6 + 0.5 + 0.2} = 0.78$
$Completeness(P_2^i) = \frac{\omega(P_2^i[t_1'])}{\omega(P_2^i[\tau_1']) + \omega(P_2^i[\tau_2'])} = \frac{0.12}{0.12 + 0.45} = 0.21$
存档网站 $AS_i$ 的整体完整性为:
$Completeness(AS_i) = \frac{Completeness(P_1^i) * \omega(P_1^i) + Completeness(P_2^i) * \omega(P_2^i)}{\omega(P_1^i) + \omega(P_2^i)} = \frac{0.78 * 1 + 0.21 * 1}{2} = 0.49$
##### 2.2 连贯性
一组存档页面版本被认为是连贯的,如果它反映了网站在至少一个时间点的状态(或快照)。我们对连贯性的定义受到了 Spaniol 等人的启发。
- **连贯版本**:$R(Q(t_q, AS_i))$ 的 $N_i$ 个版本是连贯的,如果存在一个时间点(或区间),使得所有版本的不变性区间 $[\mu_j, \mu_j^*]$ 有非空交集。即:
$\forall P_j^i[t] \in R(Q(t_q, AS_i)), \exists t_{coherence} : t_{coherence} \in \bigcap_{j = 1}^{N_i} [\mu_j, \mu_j^*] \neq \emptyset$
其中,$\mu_j$ 和 $\mu_j^*$ 分别是版本 $P_j^i[t]$ 捕获后的前一次和后一
0
0
复制全文
相关推荐










