
NLP
文章平均质量分 70
Steven灬
不知不为过,不学就是错!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python3安装pyhanlp最佳解决方法
Hanlp是一款中文自然语言处理工具。Hanlp支持多种自然语言处理任务,包括分词、词性标注、命名实体识别、依存句法分析、情感分析、文本分类等。高准确率:Hanlp采用了基于神经网络的分词方法,有效提高了分词的准确率和速度。广泛覆盖:Hanlp支持多种自然语言处理任务,包括分词、词性标注、命名实体识别、依存句法分析、情感分析、文本分类等,能够满足大部分的自然语言处理需求。多语种支持:Hanlp支持多种语言的处理,如中文、英文、日文等,可应用于多语言环境下的自然语言处理任务。原创 2023-05-24 19:29:18 · 4053 阅读 · 1 评论 -
过拟合与欠拟合
过拟合(overfitting)与欠拟合(underfitting):场景描述:在模型评估与调整的过程中,往往会遇到“过拟合”或“欠拟合”的情况。如何有效地识别“过拟合”和“欠拟合”现象,并有针对性进行模型调整,是不断改进机器学习模型的关键。特别是在实际项目中,采用多种方法、从多个角度降低“过拟合”和“欠拟合”的风险是应当具备的基础知识。在模型的评估过程中,过拟合和欠拟合具体是指什么现...原创 2019-08-20 10:04:17 · 500 阅读 · 0 评论 -
文本自动摘要之Pointer-Generator Networks训练步骤
这程序是ACL 2017 paper *[Get To The Point: Summarization with Pointer-Generator Networks](https://arxiv.org/abs/1704.04368)*Github链接:https://github.com/abisee/pointer-generator第一步:准备训练数据*********...原创 2019-12-02 19:05:57 · 1528 阅读 · 3 评论 -
基于Gensim实现word2vec词向量增量训练
为什么要增量训练:相信大家遇到像我一样的问题,当训练完一个word2vec词向量模型之后,又新来了一批语料,怎么实现在不改变原有模型的基础上,将新来的一批语料中新产生的词语训练成向量添加进去呢?由于原来的训练完的模型是经过几个小时甚至更长的时间才训练好的,不想重新进行训练,浪费时间,这时候增量训练就可以发挥其作用,下面将介绍增量训练的实现过程:具体代码实现如下:#!/usr/bi...原创 2019-08-06 08:39:31 · 4109 阅读 · 0 评论 -
基于中文维基百科的词向量构建及可视化
你将使用Gensim和维基百科获得你的第一批中文词向量,并且感受词向量训练的基本过程。词向量原理详解请参考:词向量技术原理及应用详解(一)词向量技术原理及应用详解(二)词向量技术原理及应用详解(三)词向量训练实践请参考:词向量技术原理及应用详解(四)运行环境:IDE:Pycharm2019python版本:3.6.3电脑配置:window7,i7,16G...原创 2019-07-30 17:07:52 · 9011 阅读 · 4 评论 -
NLP文本相似度(word2vec)的原理及实现
word2vec的原理及实现方式、训练优化方式前文已做详细介绍,这里不再累赘。这里主要记录NLP文本相似度(word2vec)怎样实现的及实现结果。怎样实现:在问答系统(KBQA)中输入一个query,比如query为“贪污公款被捕后要还钱吗”?是怎么匹配到知识库中的最相近的一条问题并返回相对应的答案呢?利用word2vec进行句子相似度计算,是先将输入query,进行分词,把目标句子的各...原创 2019-04-20 13:59:11 · 13939 阅读 · 8 评论 -
向量化算法Doc2vec/str2vec/para2vec原理详解
前面介绍过了word2vec的原理以及生成词向量神经网络模型的常见方法,word2vec基于分布假说理论可以很好的提取词语的语义信息,因此,利用word2vec技术计算词语间的相似度有非常好的效果。同样word2vec技术也用于计算句子或者其他长文本间的相似度,其一般做法是对文本进行分词后,提取其关键词,用词向量表示这些关键词,接着对关键词向量相加求平均或者将其拼接,最后利用词向量计算文本间的相似...原创 2019-04-20 21:41:25 · 3921 阅读 · 0 评论 -
NLTK、Sklearn以及Gensim的区别
NLTK,SKLEARN,GENSIM的区别NLTK专门收集和分类非结构化文本。如果您需要,例如一个POS标记器,lematizer,依赖分析器等,你会在那里找到它们,有时候在其他地方找不到它们。它提供了一系列广泛的工具,主要用于学术研究。但是:大多数情况下它并没有得到很好的优化 ——涉及NLTK库通常意味着接受巨大的性能损失。如果你进行文本收集或预处理,一开始是可以的使用的 ,直到找到一些更...原创 2019-04-20 17:04:10 · 3623 阅读 · 1 评论 -
词向量技术原理及应用详解(五)——关键词提取
利用word2vec提取关键词:说到提取关键词,一般会想到TF-IDF和TextRank,大家是否想过,Word2Vec还可以用来提取关键词?而且,用Word2Vec提取关键词,已经初步含有了语义上的理解,而不仅仅是简单的统计了,而且还是无监督的!很显然,我们希望通过提取的关键词能够尽可能快地获取文章的大意。也就是说,我们可以由关键词来猜到文本的大意,用数学来表示,那就是条件概率$$p(s...原创 2019-03-27 16:24:54 · 1915 阅读 · 0 评论 -
word2vec学习路线图
word2vec学习路线图如下:来源:微信公众号:AI壹号堂转载 2019-03-24 16:25:10 · 282 阅读 · 0 评论 -
词向量技术原理及应用详解(二)
当前文本向量化主流算法是word2vec词向量技术,从之前的基于统计的方法,到基于神经网络的方法,掌握word2vec词向量算法是学习文本向量化的好方式。下面是Tomas MIkolov的三篇有关word embedding的文章: 1、Efficient Estimation of Word Representation in Vector Space, 2013...原创 2019-03-24 16:15:09 · 2095 阅读 · 0 评论 -
词向量技术原理及应用详解(一)
文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。在自然语言处理研究领域,文本向量化是文本表示的一种重要方式。顾名思义,文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论中文还是英文,词语都是表达文本处理的最基本单元。当前阶段,对文本向量化都是通过词向量化实现的。当然也有将文章或者句子作为文本处理的基本单元,像doc2vec和str2vec技术。...原创 2019-03-24 16:15:29 · 6197 阅读 · 0 评论 -
预训练词向量百度云下载 [Word2Vec, Glove, FastText]
https://blog.csdn.net/LeYOUNGER/article/details/79343404转载 2019-03-26 16:21:18 · 4595 阅读 · 0 评论 -
词向量技术原理及应用详解(四)——词向量训练
前文理论介绍完毕,接下来进入实战环节。实践中向量化应用的场景常有不同,但向量文本化的训练和使用方式大同小异。在这里我将采用两种方法:gensim库以及tensorflow来完成词向量实战训练。一、word2vec之gensim工具包实现1、gensim工具包中详细参数:在gensim中,word2vec相关的API都在包gensim.models.word2vec中。和算法有关的参...原创 2019-03-24 21:22:58 · 3045 阅读 · 1 评论 -
词向量技术原理及应用详解(三)
为了更高效地获取词向量,有研究者在NNLM和C&W模型的基础上保留其核心部分,得到了CBOW(Continuous Bag of word,连续词袋模型)和skip gram模型(跳字模型)。下面介绍word2vec词向量的实现方式CBOW模型和skip gram模型,及训练优化方式负采样和层序softmax。word2vec包含两种结构,一种是skip-gram结构,一种是cbow...原创 2019-03-24 20:11:19 · 5845 阅读 · 3 评论