高质量社交媒体内容分类器:基于决策树的众包方法
立即解锁
发布时间: 2025-08-30 02:02:27 阅读量: 4 订阅数: 16 AIGC 

# 高质量社交媒体内容分类器:基于决策树的众包方法
## 1. 引言
随着社交媒体的广泛使用,它已成为政治、社会问题、体育和品牌情感等社会辩论的重要平台。准确分类社交媒体情感仍是一项重要的计算挑战,因为社交媒体帖子给文本分类带来了诸多难题。本文提出将引导式决策树引入众包平台设计,以提取更多数据特征、降低任务认知复杂度并提高标注文本语料库的质量。
### 1.1 社交媒体分类的重要性
数据科学家和隐私研究人员致力于开发社交媒体内容的自动化分类器。人们越来越多地使用社交媒体表达对政治、社会不公、企业、体育团队等广泛问题的看法,这些观点从支持到反对各不相同。数据科学家可通过自动化分类器了解公众对某些品牌或社会问题的情绪,隐私研究人员则可借此识别在线讨论中的特定个体。然而,开发衡量支持和反对态度的自动化分类器面临诸多复杂因素,如文本篇幅短、存在讽刺、幽默、政治倾向和表情符号等。
### 1.2 Twitter数据的特点与挑战
Twitter是一个允许用户发布和互动280字符消息(推文)的在线新闻和社交网络服务。截至2017年第二季度,它拥有3.28亿月活跃用户,是世界第八大最受欢迎的社交网络。Twitter丰富的数据能反映公众对话题的看法,其API方便查询和解析数据。但使用监督学习方法开发Twitter数据的文本分类器需要高质量的训练数据集,现有的现成分类器可能不适合特定应用,且在不同数据集上的表现可能不同。此外,在情绪化的网络风暴中,人类对推文分类的一致性因个人偏见和情感、立场、幽默、讽刺等因素而难以达成。
### 1.3 研究方法与目标
本文提出一种为网络风暴定制的高质量、黄金标准训练语料库的开发方法,利用众包和引导式决策树帮助人们系统地标注推文。通过与现成分类器和无决策树的众包解决方案对比,证明基于决策树的众包方法能提高训练语料库的质量和特征空间,从而有助于开发有效的自动化分类器。
## 2. 背景
### 2.1 网络风暴的定义与特点
网络风暴是指个人、团体或机构突然在网上受到大量负面关注的事件,通常是对近期行为的突然负面反应,且事先没有讨论。本研究聚焦于在线抗议和社会辩论,这些事件往往发展迅速,对公众对问题的看法有重要影响。
### 2.2 #CancelColbert网络风暴案例
2014年围绕喜剧演员斯蒂芬·科尔伯特(Stephen Colbert)及其节目《科尔伯特报告》(The Colbert Report)爆发了一场网络风暴。相关推文冒犯了许多亚裔美国人,活动家苏伊·朴(Suey Park)发起了#CancelColbert运动。该话题在Twitter上流行了一段时间,且存在支持科尔伯特喜剧风格的回应,凸显了检测特定话题标签下情感的重要性。
### 2.3 数据来源与现成分类器
本文使用的数据来自Lambda等人提供的80个网络风暴语料库,其中#CancelColbert风暴样本包含10.1MB数据和15,591条独特推文,随机选取了200条用于亚马逊机械土耳其人(AMT)实验和与现成分类器性能比较。现有的Twitter数据情感分类器包括AFINN(基于
0
0
复制全文
相关推荐










