数据结构选择与文本分析:Python 实践
1. 词频分析练习
1.1 练习 13 - 1
编写一个程序,读取文件,将每行拆分为单词,去除单词中的空白和标点符号,并将它们转换为小写。可以使用 string
模块中的 whitespace
和 punctuation
字符串,以及 strip
、 replace
和 translate
等字符串方法。示例代码如下:
import string
# 假设这里有读取文件和处理的代码逻辑
1.2 练习 13 - 2
从 Project Gutenberg 下载喜欢的无版权书籍的纯文本格式文件。修改上一个程序,跳过文件开头的头部信息,处理剩余的单词。统计书中单词的总数和每个单词的使用次数,并打印出书中不同单词的数量。可以比较不同作者、不同时代的书籍,看看哪位作者的词汇量最丰富。
1.3 练习 13 - 3
修改上一个程序,打印出书中使用频率最高的 20 个单词。
1.4 练习 13 - 4
修改之前的程序,读取一个单词列表,然后打印出书中不在该单词列表中的所有单词。分析这些单词中有多少是拼写错误,多少是应该在单词列表中的常用词,多少是真正生僻的词。