3.3 词干提取和词形还原
在文本处理过程中,词干提取和词形还原是常见的技术,用于将单词转化为它们的基本形式。这有助于减少词汇表的大小,并将相关单词归纳为同一个词根,从而提高模型的泛化能力。
3.3.1 词干提取
词干提取是一种将单词转化为其词干(或原始形式)的过程。词干是单词的核心部分,去除了任何词缀、后缀和屈折变化。词干提取通常使用规则和启发式算法来识别和删除单词的词缀,以得到词干。
示例代码(Python,使用NLTK库):
from nltk.stem import PorterStemmer
def stem_text(text):
stemmer = PorterStemmer()