python自然语言处理实战学习笔记2
第三章 中文分词技术
1、在处理中文文本时,需要进行分词处理,将句子转化为此的表达。这个切词处理过程就是中文分词,它通过计算机自动识别出句子的词,在词间加入边界标记符,分割出各个词汇。
中文自动分词被提出以来,主要归纳为“规则分词”,“统计分词”,“混合分词(规则+统计)”这三个主要流派。
2、规则分词——基于规则的分词是一种机械分词方法,主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。
- 按照匹配切分的方式,主要有正向最大匹配法、逆向最大匹配法以及双向最大匹配法三种方法。
# -*- coding:utf-8 -*-
class MM(object):
def __init__(self):
self.window_size = 3
def cut (self,text):
result = []
index = 0
text_length = len (text)
dic = ["研究","研究生","生命","命","的","起源"]
while text_length > index:
for size in range (self.window_size+index,index,-1): #4,0,-1
piece = text[index:size]
if piece