基于意见挖掘和半监督技术的评论垃圾检测
1. 背景与问题提出
随着互联网的日益普及,在线营销愈发流行,大量产品和服务可在线获取,产品和服务的评论对客户和企业都至关重要。然而,受利益或推广驱动,欺诈者会撰写虚假评论,即评论垃圾。这些虚假评论阻碍了客户和企业对产品得出真实结论,严重影响电子商务业务。
虚假评论通常有两个目的:一是推广目标对象(正面虚假评论或正面垃圾评论),二是损害其他目标的声誉(负面虚假评论或负面垃圾评论)。评论垃圾一般分为三类:
- 不实意见:欺诈者为推广目标撰写正面虚假意见称为过度垃圾评论;为损害目标声誉撰写负面虚假意见称为诋毁垃圾评论。
- 仅针对品牌的评论:欺诈者只谈论产品的品牌,而非产品本身。
- 非评论内容:欺诈者撰写与产品完全无关的内容,如广告或无关意见。
非评论内容可手动轻松识别,因此后续主要考虑不实意见和仅针对品牌的评论。
2. 相关工作
过去在垃圾检测领域(如电子邮件垃圾、网页垃圾、短信垃圾)已有很多研究。
- 电子邮件垃圾:若发送者直接或间接向用户发送与用户无关的非请求电子邮件,则为电子邮件垃圾。相关研究展示了如何高精度检测钓鱼邮件,以及如何结合多个电子邮件过滤器以提供反垃圾屏障。
- 网页垃圾:指欺骗搜索引擎以提高特定网站排名的行为。有研究提供了基于图的网页垃圾检测方法,并提出了 WITCH 算法,该算法优于许多现有技术。
- 短信垃圾:若有人通过通信媒体(如手机)发送非请求消息,则为短信垃圾。有研究使用各种内容特征来检测短信垃圾。
意见垃圾检测最早于 2008 年由 Jindal 和 Liu 提出,他们将评论垃圾分为三类