27、基于意见挖掘和半监督技术的评论垃圾检测

基于意见挖掘和半监督技术的评论垃圾检测

1. 背景与问题提出

随着互联网的日益普及,在线营销愈发流行,大量产品和服务可在线获取,产品和服务的评论对客户和企业都至关重要。然而,受利益或推广驱动,欺诈者会撰写虚假评论,即评论垃圾。这些虚假评论阻碍了客户和企业对产品得出真实结论,严重影响电子商务业务。

虚假评论通常有两个目的:一是推广目标对象(正面虚假评论或正面垃圾评论),二是损害其他目标的声誉(负面虚假评论或负面垃圾评论)。评论垃圾一般分为三类:
- 不实意见:欺诈者为推广目标撰写正面虚假意见称为过度垃圾评论;为损害目标声誉撰写负面虚假意见称为诋毁垃圾评论。
- 仅针对品牌的评论:欺诈者只谈论产品的品牌,而非产品本身。
- 非评论内容:欺诈者撰写与产品完全无关的内容,如广告或无关意见。

非评论内容可手动轻松识别,因此后续主要考虑不实意见和仅针对品牌的评论。

2. 相关工作

过去在垃圾检测领域(如电子邮件垃圾、网页垃圾、短信垃圾)已有很多研究。
- 电子邮件垃圾:若发送者直接或间接向用户发送与用户无关的非请求电子邮件,则为电子邮件垃圾。相关研究展示了如何高精度检测钓鱼邮件,以及如何结合多个电子邮件过滤器以提供反垃圾屏障。
- 网页垃圾:指欺骗搜索引擎以提高特定网站排名的行为。有研究提供了基于图的网页垃圾检测方法,并提出了 WITCH 算法,该算法优于许多现有技术。
- 短信垃圾:若有人通过通信媒体(如手机)发送非请求消息,则为短信垃圾。有研究使用各种内容特征来检测短信垃圾。

意见垃圾检测最早于 2008 年由 Jindal 和 Liu 提出,他们将评论垃圾分为三类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值