自然语言处理中的文本预处理与分析技术
1. 正则表达式分词
在自然语言处理(NLP)中,分词是一项基础任务。可以使用正则表达式来实现分词。以下是使用 nltk
库中的 regexp_tokenize
函数进行分词的示例代码:
# Import the RegEx tokenizer
from nltk import regexp_tokenize as rx_tok
rx_pattern1 = '\w+'
rx_tok(stwtr[4],rx_pattern1)
上述代码使用正则表达式 \w+
过滤出仅包含字母数字字符的单词,不包含标点符号。若想同时检测和过滤包含字母数字字符和标点符号的单词,可以使用另一个正则表达式:
# Create Rx pattern2 and perform the RX tokenize again
rx_pattern2 = '\w+|[!,\-,]'
rx_tok(stwtr[4],rx_pattern2)
2. 词干提取(Stemming)
2.1 什么是词干提取
词干提取通常是从单词中去除前缀或后缀,如 -er
、 -ion
、 -ization
等,以提取单词的基本或词根形式。例如, computers </