目录
摘 要 I
Abstract II
1.绪论 1
1.1 研究目的和意义 1
1.2 财经新闻综述 1
1.3 关于Python爬虫 2
1.4 文本挖掘概述 2
1.5本系统架构 3
2. 数据榨取与分析 6
2.1 网页源代码分析 6
2.2 数据清洗与过滤并规则化 8
2.3 中文分词 9
2.4 股票板块 12
2.5 评价 14
2.6 股市预测 17
2.7 数据可视化 19
3. 股市行情验证与反馈 21
3.1 对未来七天的预测 21
3.2 七天后的实际情况 24
3.3 分析预测准确度 27
4. 结论 28
4.1 本文本挖掘系统的科学性与实用性总结 28
4.2 本文本挖掘系统得出的结论 28
4.3 不足与展望 29
参考文献: 30
致谢 31
1.3.3 选用Python写爬虫的理由
选用Python写爬虫的原因是:
A.Python可读性强
B.Python容易学
C.Python的爬虫库多
1.4 文本挖掘概述
1.4.1 数据挖掘简介
“数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法发现、挖掘出隐藏的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。”[4]
1.4.2 文本挖掘
“文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。”正如伯克利大学的Sims在其blog上所言:“文本挖掘是通过计算机,自动地从不同的文本源中榨取出那些新的信息出来。把榨取出来的信息与新现象和假设联系起来,以探索出传统研究手段所研究不到的盲点,是文本挖掘的要点所在。”
世界上文本挖掘技术已取得了一定的发展。由于中文区别于英文的语法特殊性,想要挖掘出财经新闻的关键字还是一项比较复杂的工程,难点在于对中文的分词,以及词语性质的分类。