微博流中事件相关数据的收集方法与实验分析
立即解锁
发布时间: 2025-08-23 00:43:54 阅读量: 4 订阅数: 13 


数据库与专家系统应用进展
### 微博流中事件相关数据的收集方法与实验分析
#### 1. 方法概述
规则提取问题的定义如下:
- **输入**:一组代表需要监控事件 $E$ 的规则 $R_0$。
- **输出**:在事件生命周期内,能够以高精度和高召回率收集与事件 $E$ 相关推文的动态规则集 $R$。
每次处理输入推文流中的 $N$ 条推文(称为一批)。若存在规则 $r \in R$ 使得 $\{r\} \subseteq \{t\}$,则称推文 $t$ 与事件 $E$ 相关,其中 $\{r\}$ 是规则 $r$ 中的关键词集合,$\{t\}$ 是推文 $t$ 中的关键词集合。
采用两步法:
1. **识别候选规则集 $CR$**:
- **提取高频词和哈希标签**:从第 $i$ 批中基于规则集 $R_i$ 过滤出的推文 $T_{R_i}$ 中,提取高频词 $W_i$ 和哈希标签 $H_i$。对于给定的分数阈值 $f$,考虑关键词 $K_{R_i} = \{W_i \cup H_i|f\}$,即该批次中前 $f$ 比例的关键词。
- **基于频率划分关键词**:将关键词集按频率降序排序,使用经典的 CUSUM 算法检测频率分布曲线上的变化点,将两个变化点之间频率对应的关键词放入同一个桶中。
- **构建共现图**:对于每个关键词桶,构建图 $G(V, E)$,若两个关键词 $A$ 和 $B$ 的共现分数 $\frac{|T_A \cap T_B|}{|T_A \cup T_B|} \geq \gamma$($\gamma$ 是用户指定的阈值),则它们之间有一条边。识别图中所有大小大于 1 且频率高于阈值 $th = \frac{2fN\gamma}{1 + \gamma}$ 的团,团中的关键词成为候选规则。若大小为 1 且频率大于 $2th$ 的团是哈希标签,它也是一条规则。
2. **确定最终规则**:若候选规则 $r \in CR$ 满足 $\frac{benefit_r}{cost_r} \geq \alpha$,则将其添加为最终规则。其中,$benefit_r$ 是基于规则 $r$ 收集的推文中,包含 $K_{R_i}$ 中哈希标签和单词的新推文数量,$cost_r$ 是添加规则 $r$ 后,$K_{R_i}$ 中哈希标签/单词频率的增加量与不在 $K_{R_i}$ 中的哈希标签频率增加量的差值。
以下是规则提取的流程 mermaid 图:
```mermaid
graph LR
A[输入规则集 $R_0$ 和推文流] --> B[处理第 $i$ 批推文]
B --> C[提取 $W_i$ 和 $H_i$]
C --> D[确定 $K_{R_i}$]
D --> E[划分关键词到桶]
E --> F[构建共现图]
F --> G[识别候选规则 $CR$]
G --> H[计算 $benefit_r$ 和 $cost_r$]
H --> I{是否 $\frac{benefit_r}{cost_r} \geq \alpha$}
I -- 是 --> J[添加规则 $r$ 到最终规则集]
I -- 否 --> K[不添加规则 $r$]
J --> L[更新规则集用于下一批推文]
K --> L
```
#### 2. 关键词和推文质量评估
- **关键词质量**:给定第 $i$ 批的 $N$ 条推文、关键词 $k$ 和规则集 $R_i$,关键词 $k$ 在 $R_i$ 下的质量定义为 $Q(k|R_i) = \frac{|T(k|R_i)|}{|T_k|}$,其中 $T_k$ 是第 $i$ 批中包含关键词 $k$ 的推文集合,$T(k|R_i)$ 是 $T_{R_i}$ 中包含关键词 $k$ 的推文集合。
- **推文质量**:给定第 $i$ 批的 $N$ 条推文、推文 $t$ 和规则集 $R_i$,推文 $t$ 在规则集 $R_i$ 下的质量定义为 $Q(t|R_i) = \frac{\sum_{k \in K_{R_i} \cap k \in t} Q(k|R_i)}{|\{k \in K_{R_i} \cap k \in t\}|}$。
#### 3. 基线系统
选择一个接近目标的系统作为基线。该基线系统将 Twitter 语料按固定时间长度划分为批次,计算每个单词的爆发分数 $b(w|T_i) = \frac{P(w|T_i)}{P(w)}$,其中 $P(w|T_i
0
0
复制全文
相关推荐








