
文本挖掘
潔~
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【无标题】英文文本词性识别
from textblob import TextBlob import pandas as pd #报错Resource averaged_perceptron_tagger not found. Please use the NLTK Downloade的解决方法 import nltk nltk.download('averaged_perceptron_tagger') #读入数据 Idea=pd.read_csv(r"E:\1.csv",encoding="utf-8") i=len(Ide.原创 2022-03-04 14:27:45 · 479 阅读 · 0 评论 -
英文文本相似性计算
本文使用python的gensim通过tf-idf计算文本相似性。 相似度计算部分参考:https://www.jianshu.com/p/edf666d3995f 1)导入相关包 import jieba.posseg as pseg import codecs from gensim import corpora, models, similarities import pandas as pd import re import string from nltk.corpus import stopwo原创 2021-06-07 18:46:27 · 1313 阅读 · 0 评论 -
python文本可读性
可读性计算方法参考: https://python.ctolib.com/cdimascio-py-readability-metrics.html 可读性计算方法有 The Flesch Reading Ease formula Flesch-Kincaid Grade Level The Fog Scale (Gunning FOG Formula) The SMOG Index Automated Readability Index The Coleman-Liau Index Linsear Wri原创 2020-08-02 16:05:14 · 3930 阅读 · 10 评论 -
python信息熵的计算
信息熵:信息熵越大,信息越多,与以前的消息相比,措辞越独特,信息熵越高 参考: 信息熵求解部分:https://www.jianshu.com/p/468e2af86d59 导入包 import numpy as np import pandas as pd import nltk import re import string from nltk.corpus import stopwords from nltk.tokenize import word_tokenize from nltk.stem.p原创 2020-08-02 15:25:05 · 4295 阅读 · 2 评论