微博舆情分析系统

1
新浪微博舆情分析系统
 
摘要
 
  随着互联网的迅速发展,互联网上信息也在飞速增加。 如何在广泛信息中总体把握舆情,
是一个很重要的问题。本系统实现了基于新浪微博的舆情分析,提供了相关话题获得、关注
度曲线绘制、情感取向分析等功能;并对“复旦”关键词进行了跨越一年的舆情分析的实验。 
 
关键词
 
  中文信息处理;  舆情分析;  情感分析
 
1.  引言
 
随着 Web2.0 时代的到来,所有的互联网用户都在产生着大量的信息。依靠人工去阅读
所有信息显得不大现实。而对于舆情分析又是无论对于一个企业实体还是政府部门都是一个
很重要的课题。然而舆情分析有着很多的困难,主要是:
 
 ·大量信息:根据中国互联网络信息中心(CNNIC)发布的《第 27 次中国互联网络发
展状况报告》显示,中国网民人数在 2010 年达到 4.57 亿。这些网民不仅访问着信息,更在
Web2.0 时代创造着大量信息。而新浪微博作为中国最大的微博,在 2010年 7 月总微博数超
过 9000 万,每天产生微博超 300 万,平均每秒有 40 条。
 
 ·自然语言:大量的信息要求我们必须要使用计算机来协助分析舆论。然而,应用计算
机处理的最大困难在于,这些自然语言难以被计算机所理解。对于中文来说,问题变得进一
步复杂,这主要是因为中文信息的处理有这样几个问题:不像英语那样可以按照空格分词;
字或词有丰富的内容,不同的解释;同一个词既有褒义又有贬义;在微博上的贬义倾向通常
以反讽的特点出现。
 
计算机通过技术和设备的提升可以解决大量信息的问题。自然语言的问题需要我们提供
更好的算法来改善。在中文信息处理方面,已经有两届 COAE中文倾向性分析评测。评测内
容包括情感词识别分类、情感句分类、主客观分析、主题对象抽取等。此外值得一提的是,
武汉大学的沈阳教授较为成功的开发了 ROST 系统,该系统能够分析聊天记录以及各大新闻
网站的新闻,并提供舆情分析。
 
本文的结构如下:第 2节提出了系统设计的主要框架;第3 节分析了关注度和话题获取
的几个方法; 第 4 节分析了情感取向分析的几个算法;第 5 节粗略的介绍了系统的主要实现;
第 6 节针对“复旦”关键词进行了实验;最后总结了本文,并提出若干不足和修改方法。 2
 
 
2.  系统设计
 
本系统主要通过微博数据的爬取来实现话题识别和情感分析两个任务。
 
简要方法就如下:
第一步  输入关键词,开始时间,结束时间。
第二步  枚举每一天
第三步  获得该天微博条目
第四步  该天关注度为微博数量
第五步  计算该天微博情感取向为每条微博情感取向加和
第六步  重复第二到第五步
第七步  计算所有微博的话题
 
 
 
 
图 1  微博舆情分析流程图
 
 
获得微博条目
关注度  =  微博数量
情感取向  =  Σ 每条微博情感取向
获得话题
输入关键词、开始、结束时间
结束
开始
结束
枚举每一天
Yes
No 3
3.  关注度和话题获取
3.1 关注度获得
 
关注度获得很简单,直接获取某天得到的微博数目即可。
 
3.2 文本聚类
 
话题获取的一个很自然的想法是利用文本聚类的方法,将所有微博聚成若干类。每
一类的中心就是所关注的话题。
 
文本聚类一个比较重要的概念是 TF/IDF。TF即“文本词汇频率” (Term Frequency) 。
其值为某条微博内的某个词语除以微博词语总数。 IDF 即“逆文本频率”(Inverse Document
Frequ
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值