
python
文章平均质量分 72
infiniteWei
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【jieba】 jieba 库中 cut_for_search 方法的实现详解
cut_for_search 该函数的作用是对输入的sentence进行更细致的分词,主要用于搜索引擎。HMM=True是用于控制是否使用**隐马尔可夫模型(HMM)**来处理未登录词(即词典中没有的词)。在标准分词结果的基础上,对长度较大的词进一步生成 2-gram 和 3-gram 子词,并检查这些子词是否存在于词典中。存在的话,就将这些子词作为额外的分词结果输出。这种处理方式可以在搜索引擎中提高短词和子词的匹配率,进而提高召回率。这也是搜索引擎分词通常比普通分词更细致的原因。原创 2024-11-21 10:23:18 · 890 阅读 · 0 评论 -
Python :自然语言处理工具 NLTK
Python :自然语言处理工具 NLTK NLTK 是一个高效的Python 构建的开源项目,用来处理自然语言数据,分类、标记化、词干化、解析和语义推理 官网 github NLTK实现的简单例子 给文本分词 import nltk sentence = "At eight o'clock on Thursday morning. Steve Jobs in U.S.A" tokens = nl...原创 2019-01-24 22:14:23 · 406 阅读 · 0 评论 -
Python3 多线程
Python3 多线程 多线程类似于同时执行多个不同的程序,其优点如下: 使用线程可以把占据长时间的程序中的任务放到后台去处理。 用户界面可以更加吸引人,这样比如用户点击了一个按钮去触发某些事件的处理,可以弹出一个进度条来显示处理的进度 程序的运行速度可能加快 在一些等待的任务实现上,如用户输入、文件读写和网络收发数据等,线程就比较又用了。这种情况下我们可以释放一些珍贵的资源,如内存占用等等。 ...转载 2019-01-15 14:52:29 · 214 阅读 · 0 评论 -
Python3 Json 数据解析
Python3 Json 数据解析 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式。它基于ECMAScript的一个子集。 Python3 中可以使用json模块来对JSON数据进行编码,它包含了两个函数: json.dumps():对数据进行编码。 json.loads():对数据进行解码 在json的编解码过程中,python的原始类型与json...转载 2019-01-15 15:58:53 · 1964 阅读 · 0 评论 -
Python3 正则表达式
Python3 正则表达式 正则表达式是一个特殊的字符序列,它能帮助逆方便的检查一个字符串与某种模式匹配。 re模块使Python 语言拥有全部的正则表达式功能。 compile函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。 re模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串作为它们的第一个参数。 re.match...转载 2019-01-15 20:27:36 · 316 阅读 · 0 评论 -
用于Python扩展包的非官方Windows二进制文件
Unofficial Windows Binaries for Python Extension Packages用于Python扩展包的非官方Windows二进制文件[https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted]用于解决如下问题:解决方案 用于Python扩展包的非官方Windows二进制文件[https://www.lfd.uci.e...原创 2019-03-10 10:08:36 · 285 阅读 · 0 评论