机器学习在事件推荐与推特垃圾信息检测中的应用
立即解锁
发布时间: 2025-08-31 00:43:27 阅读量: 11 订阅数: 23 AIGC 

### 机器学习在事件推荐与推特垃圾信息检测中的应用
#### 事件推荐系统
在当今社会,事件频繁发生,人们很容易错过一些重要的活动。而且,了解事件的类别和收集相关信息往往是一件繁琐的事情。为了解决这些问题,一个能够处理事件相关任务的平台应运而生。
##### 系统设计与实现
- **数据库设计**:用户表和登录凭证表的主键是用户名,事件表则以事件 ID 作为主键。维护路由会按照管理员设定的时间间隔运行。当事件被判定为旧事件时,会从事件表转移到过去事件表。
- **机器学习模型训练**:将事件表的内容导出到 Excel 表格中,用于训练机器学习模型。该模型会随着数据库的更新而自动更新,确保始终保持最新状态。
- **前端应用**:平台的前端应用采用 Flutter 开发。
##### 推荐引擎与用户反馈
- **推荐引擎**:系统使用了两种推荐引擎,推荐引擎 1 额外采用了余弦相似度矩阵,而推荐引擎 2 则没有。
- **用户反馈**:通过饼图和柱状图可以清晰地看到用户对平台的评价。大多数用户更关注数据的安全性,并且推荐引擎 1 获得了更多的积极反馈。
以下是相关的数学公式:
- 余弦相似度的数学公式:$\vec{a} \cdot \vec{b} = \sum_{i=1}^{n} a_ib_i = a_1b_1 + a_2b_2 + \cdots + a_nb_n$,其中 $\vec{a}$ 和 $\vec{b}$ 是两个向量。
- kNN 算法:对于给定的查询实例 $x_t$,$y_t = \arg \max_{c \in \{c_1,c_2,\cdots,c_m\}} \sum_{x_i \in N(x_t,k)} E(y_i, c)$
下面是系统的工作流程 mermaid 图:
```mermaid
graph LR
A[事件表] --> B[Excel 表格]
B --> C[机器学习模型训练]
C --> D[模型更新]
D --> E[推荐引擎]
E --> F[前端应用]
G[旧事件] --> H[过去事件表]
```
#### 推特垃圾信息检测
随着推特用户的迅速增长,垃圾信息也日益增多。垃圾推文可能包括广告、恶意软件、金融诈骗等,严重影响了合法用户的体验。因此,检测推特垃圾信息变得至关重要。
##### 研究背景与目标
- **用户增长**:自 2019 年第四季度到 2021 年第一季度,推特用户数量从 1.52 亿增长到 1.99 亿。
- **垃圾信息问题**:垃圾推文会干扰合法用户的意见,需要通过分析相关特征来检测垃圾信息。
##### 特征类别与分类器
- **特征类别**:研究采用了四种特征类别,分别是文本特征(T)、用户资料特征(P)、URL 特征(U)和其他杂项特征(M),并测试了 T、TP、TPU 和 TPUM 等不同的特征组合。
- **分类器**:使用了四种机器学习分类器,分别是随机森林(RF)、决策树(DT)、支持向量机(SVM)和朴素贝叶斯(NB)。
以下是不同研究的对比表格:
| 研究人员 | 特征使用 | 分类器 | 准确率 |
| --- | --- | --- | --- |
| Alghamdi 等 | 用户资料和 URL 特征 | 未评估 | 未提及 |
| Gharge 和 Chavan | 语言特征 | 支持向量机 | 93% |
| Al - Zoubi 等 | 用户资料和推文信息特征 | J48 分类器 | 未提及 |
| Kamble 和 Sangve | URL 特征 | 随机森林 | 未提及 |
| Karaka¸slı 等 | 用户资料和内容特征 | SVM、KNN | 82.9%、87.6% |
| Reddy 和 Reddy | 用户资料和内容混合特征 | DT 和 NB | 较高 |
0
0
复制全文
相关推荐









