
jieba
妹妹爱技术
热爱最新的技术,并对之孜孜不倦!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
结巴分词与ltp分词算法的比较:对于新词的识别ltp分词方法远高于结巴分词
from pyltp import Segmentor import jieba model_path = "E:/ltp3_4/cws.model" content = "我毕业于清华大学,我朋友的名字叫戴掵莉,我哥们的名字叫付先军;阿尔艾斯是我的村庄名字" seg = Segmentor() seg.load(model_path) # 加载语言模型 用于分词 words = seg.s...原创 2019-01-28 15:10:30 · 2082 阅读 · 0 评论 -
ltp简介
ltp对于未登录词、新词的识别率高于结巴分词(针对pyltp3.4和jieba0.39版本),原因就在于其背后的算法是基于CRF的。原创 2019-01-28 15:16:27 · 913 阅读 · 0 评论