微博流中事件相关数据的收集方法与实验分析

立即解锁

发布时间: 2025-08-23 00:43:54 阅读量: 4 订阅数: 13

数据库与专家系统应用进展

### 微博流中事件相关数据的收集方法与实验分析 #### 1. 方法概述规则提取问题的定义如下： - **输入**：一组代表需要监控事件 $E$ 的规则 $R_0$。 - **输出**：在事件生命周期内，能够以高精度和高召回率收集与事件 $E$ 相关推文的动态规则集 $R$。每次处理输入推文流中的 $N$ 条推文（称为一批）。若存在规则 $r \in R$ 使得 $\{r\} \subseteq \{t\}$，则称推文 $t$ 与事件 $E$ 相关，其中 $\{r\}$ 是规则 $r$ 中的关键词集合，$\{t\}$ 是推文 $t$ 中的关键词集合。采用两步法： 1. **识别候选规则集 $CR$**： - **提取高频词和哈希标签**：从第 $i$ 批中基于规则集 $R_i$ 过滤出的推文 $T_{R_i}$ 中，提取高频词 $W_i$ 和哈希标签 $H_i$。对于给定的分数阈值 $f$，考虑关键词 $K_{R_i} = \{W_i \cup H_i|f\}$，即该批次中前 $f$ 比例的关键词。 - **基于频率划分关键词**：将关键词集按频率降序排序，使用经典的 CUSUM 算法检测频率分布曲线上的变化点，将两个变化点之间频率对应的关键词放入同一个桶中。 - **构建共现图**：对于每个关键词桶，构建图 $G(V, E)$，若两个关键词 $A$ 和 $B$ 的共现分数 $\frac{|T_A \cap T_B|}{|T_A \cup T_B|} \geq \gamma$（$\gamma$ 是用户指定的阈值），则它们之间有一条边。识别图中所有大小大于 1 且频率高于阈值 $th = \frac{2fN\gamma}{1 + \gamma}$ 的团，团中的关键词成为候选规则。若大小为 1 且频率大于 $2th$ 的团是哈希标签，它也是一条规则。 2. **确定最终规则**：若候选规则 $r \in CR$ 满足 $\frac{benefit_r}{cost_r} \geq \alpha$，则将其添加为最终规则。其中，$benefit_r$ 是基于规则 $r$ 收集的推文中，包含 $K_{R_i}$ 中哈希标签和单词的新推文数量，$cost_r$ 是添加规则 $r$ 后，$K_{R_i}$ 中哈希标签/单词频率的增加量与不在 $K_{R_i}$ 中的哈希标签频率增加量的差值。以下是规则提取的流程 mermaid 图： ```mermaid graph LR A[输入规则集 $R_0$ 和推文流] --> B[处理第 $i$ 批推文] B --> C[提取 $W_i$ 和 $H_i$] C --> D[确定 $K_{R_i}$] D --> E[划分关键词到桶] E --> F[构建共现图] F --> G[识别候选规则 $CR$] G --> H[计算 $benefit_r$ 和 $cost_r$] H --> I{是否 $\frac{benefit_r}{cost_r} \geq \alpha$} I -- 是 --> J[添加规则 $r$ 到最终规则集] I -- 否 --> K[不添加规则 $r$] J --> L[更新规则集用于下一批推文] K --> L ``` #### 2. 关键词和推文质量评估 - **关键词质量**：给定第 $i$ 批的 $N$ 条推文、关键词 $k$ 和规则集 $R_i$，关键词 $k$ 在 $R_i$ 下的质量定义为 $Q(k|R_i) = \frac{|T(k|R_i)|}{|T_k|}$，其中 $T_k$ 是第 $i$ 批中包含关键词 $k$ 的推文集合，$T(k|R_i)$ 是 $T_{R_i}$ 中包含关键词 $k$ 的推文集合。 - **推文质量**：给定第 $i$ 批的 $N$ 条推文、推文 $t$ 和规则集 $R_i$，推文 $t$ 在规则集 $R_i$ 下的质量定义为 $Q(t|R_i) = \frac{\sum_{k \in K_{R_i} \cap k \in t} Q(k|R_i)}{|\{k \in K_{R_i} \cap k \in t\}|}$。 #### 3. 基线系统选择一个接近目标的系统作为基线。该基线系统将 Twitter 语料按固定时间长度划分为批次，计算每个单词的爆发分数 $b(w|T_i) = \frac{P(w|T_i)}{P(w)}$，其中 $P(w|T_i

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

微博流中事件相关数据的收集方法与实验分析

相关推荐

专栏目录

微博流中事件相关数据的收集方法与实验分析

相关推荐

大数据云端实验室项目实战-微博舆情大数据分析

基于数据挖掘的微博人气用户特征分析与研究.pdf

数仓项目（模拟新浪微博大数据分析）

基于S7-200 PLC与组态王的六层电梯控制系统设计与实战经验

8+1绩效量化技术.doc

高阶温度补偿带隙基准的Cadence电路设计文档（含超低温漂、带隙基准及高电源抑制比等特性） - 温度补偿

基于三菱PLC的PID温度控制设计：精准调控加热炉与加热器温度系统 PID控制

混凝土真空吸水泵安全操作规程技术交底.doc

网络安全涵盖物理到身份认证的全链条防护体系：构建全方位网络安全系统

基于NLMS算法的语音回声消除系统：实现与应用 - 自适应滤波器

关于xcode编译链接三方库问题--build system tpye

【后台管理系统】基于图床链接的图标资源管理方案：简化操作与多端同步应用

专栏目录

最新推荐

区块链集成供应链与医疗数据管理系统的优化研究

从近似程度推导近似秩下界

元宇宙与AR/VR在特殊教育中的应用及安全隐私问题

使用GameKit创建多人游戏

利用GeoGebra增强现实技术学习抛物面知识

量子物理相关资源与概念解析

探索人体与科技融合的前沿：从可穿戴设备到脑机接口

人工智能与混合现实技术在灾害预防中的应用与挑战

黎曼zeta函数与高斯乘性混沌

由于提供的内容仅为“以下”，没有具体的英文内容可供翻译和缩写创作博客，请你提供第38章的英文具体内容，以便我按照要求完成博客创作。