最近在学习NLP(自然语言处理),于是先看了看都有神马包可以使用,查了一遍网上说是NLTK包,下载了然后才想到我是要学中文的自然语言处理,于是就想看看专门处理中文的包有哪些。
又是一番搜索,我找到了网络大神们目前比较推崇的结巴分词(jieba),下载下来试了一下,感觉分词功能不错,于是写篇文章记录一下。
我用的是centos7的虚拟机,已经安装了anaconda3(后文会解释安装centos7虚拟系统的曲折经历),下载结巴分词有如下几种方式:
1、全自动安装:
easy_install jieba
或者