高质量社交媒体内容分类器：基于决策树的众包方法

# 高质量社交媒体内容分类器：基于决策树的众包方法 ## 1. 引言随着社交媒体的广泛使用，它已成为政治、社会问题、体育和品牌情感等社会辩论的重要平台。准确分类社交媒体情感仍是一项重要的计算挑战，因为社交媒体帖子给文本分类带来了诸多难题。本文提出将引导式决策树引入众包平台设计，以提取更多数据特征、降低任务认知复杂度并提高标注文本语料库的质量。 ### 1.1 社交媒体分类的重要性数据科学家和隐私研究人员致力于开发社交媒体内容的自动化分类器。人们越来越多地使用社交媒体表达对政治、社会不公、企业、体育团队等广泛问题的看法，这些观点从支持到反对各不相同。数据科学家可通过自动化分类器了解公众对某些品牌或社会问题的情绪，隐私研究人员则可借此识别在线讨论中的特定个体。然而，开发衡量支持和反对态度的自动化分类器面临诸多复杂因素，如文本篇幅短、存在讽刺、幽默、政治倾向和表情符号等。 ### 1.2 Twitter数据的特点与挑战 Twitter是一个允许用户发布和互动280字符消息（推文）的在线新闻和社交网络服务。截至2017年第二季度，它拥有3.28亿月活跃用户，是世界第八大最受欢迎的社交网络。Twitter丰富的数据能反映公众对话题的看法，其API方便查询和解析数据。但使用监督学习方法开发Twitter数据的文本分类器需要高质量的训练数据集，现有的现成分类器可能不适合特定应用，且在不同数据集上的表现可能不同。此外，在情绪化的网络风暴中，人类对推文分类的一致性因个人偏见和情感、立场、幽默、讽刺等因素而难以达成。 ### 1.3 研究方法与目标本文提出一种为网络风暴定制的高质量、黄金标准训练语料库的开发方法，利用众包和引导式决策树帮助人们系统地标注推文。通过与现成分类器和无决策树的众包解决方案对比，证明基于决策树的众包方法能提高训练语料库的质量和特征空间，从而有助于开发有效的自动化分类器。 ## 2. 背景 ### 2.1 网络风暴的定义与特点网络风暴是指个人、团体或机构突然在网上受到大量负面关注的事件，通常是对近期行为的突然负面反应，且事先没有讨论。本研究聚焦于在线抗议和社会辩论，这些事件往往发展迅速，对公众对问题的看法有重要影响。 ### 2.2 #CancelColbert网络风暴案例 2014年围绕喜剧演员斯蒂芬·科尔伯特（Stephen Colbert）及其节目《科尔伯特报告》（The Colbert Report）爆发了一场网络风暴。相关推文冒犯了许多亚裔美国人，活动家苏伊·朴（Suey Park）发起了#CancelColbert运动。该话题在Twitter上流行了一段时间，且存在支持科尔伯特喜剧风格的回应，凸显了检测特定话题标签下情感的重要性。 ### 2.3 数据来源与现成分类器本文使用的数据来自Lambda等人提供的80个网络风暴语料库，其中#CancelColbert风暴样本包含10.1MB数据和15,591条独特推文，随机选取了200条用于亚马逊机械土耳其人（AMT）实验和与现成分类器性能比较。现有的Twitter数据情感分类器包括AFINN（基于

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

高质量社交媒体内容分类器：基于决策树的众包方法

相关推荐

专栏目录

高质量社交媒体内容分类器：基于决策树的众包方法

相关推荐

社交媒体与众包：应用与分析概览

pybossa_tools:基于 PyBossa 的众包工具

多媒体领域中基于观众众包的在线视频转码系统CrowdTranscoding研究与应用

JavaScript实现C4.5决策树算法指南

社交媒体内容优质分类器与制造业可行性预测

社交媒体的可信度评估：Twitter与问答系统解析

OpinionBlocks：基于群体智慧的交互式文本分析系统

从达尔文进化到群体计算与众包游戏

众包释义中恶意工作者的自动检测

点云分析与测量精要：CloudCompare精确度量方法（测量达人）

IDEA以多端口启动同一个服务项目

netty-resolver-dns-4.1.121.Final.jar中文-英文对照文档.zip

专栏目录

最新推荐

OpenVX：跨平台高效编程的秘诀

语音情感识别：预加重滤波器与清音影响分析

言语节奏与大脑定时模式：探索神经机制与应用

具有多重时滞和不确定参数的CRDNNs的无源性与同步性研究

自适应复杂网络结构中的同步现象解析

SSH连接与操作全解析

计算机视觉中的概率图模型：不完整数据下的贝叶斯网络学习

HNPU-V1：自适应DNN训练处理器的技术解析与性能评估

网络数据上的无监督机器学习

利用大数据进行高效机器学习