文本挖掘与推荐系统技术详解
1. 词性标注与词干提取
1.1 感知机词性标注器
感知机词性标注器(Perceptron Tagger)是自然语言处理中常用的工具,用于为文本中的每个单词标注词性。以下是使用感知机词性标注器的示例代码:
from nltk.tag.perceptron import PerceptronTagger
PT = PerceptronTagger()
print (PT.tag('This is a sample English sentence'.split()))
输出结果:
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('sample', 'JJ'), ('English', 'JJ'), ('sentence', 'NN')]
若想了解特定词性标签的含义,可以使用 nltk.help.upenn_tagset
函数,例如:
nltk.help.upenn_tagset('NNP')
输出结果:
NNP: noun, proper, singular
1.2 词干提取
词干提取是将单