NLP自然语言处理：文本表示总结 - 上篇word embedding（基于降维、基于聚类、CBOW 、Skip-gram、 NNLM 、TF-ID、GloVe ）

陈宸-研究僧

于 2019-08-30 14:40:25 发布

阅读量4.1k

点赞数 9

CC 4.0 BY-SA版权

分类专栏： NLP自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35883464/article/details/100042899

本文详细总结了NLP中文本表示方法，包括离散表示（one-hot、词袋模型与TF-IDF）和分布式表示（矩阵降维、聚类、NNLM、CBOW、Skip-Gram及GloVe）。重点介绍了词袋模型的优缺点、TF-IDF的改进、word2vec的CBOW和Skip-Gram模型，以及GloVe的特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文本表示分类（基于表示方法）

离散表示
- one-hot表示
- 词袋模型与TF-ID
分布式表示
- 基于矩阵的表示方法
  - 降维的方法
  - 聚类的方法
- 基于神经网络的表示方法
  - NNLM
  - CBOW
  - Skip-gram
  - GloVe
  - ELMo
  - GPT
  - BERT

目录

一、文本离散表示

1.1 文本离散表示：one-hot

1.2 文本离散表示：词袋模型与TF-IDF

1.2.1 词袋模型（bag of words）

1.2.2 对词袋模型的改进：TF-IDF

二、文本分布式表示

2.1 基于矩阵

2.1.1 基于矩阵的SVD降维

2.1.1 基于矩阵的聚类方法

2.2 基于神经网络的表示方法

2.2.1 神经网络语言模型（NNLM）

2.2.2 word2vec：CBOW（连续词袋模型）

2.2.2 CBOW：层次Softmax和负例采样

2.2.3 Word2Vec: Skip-Gram模型

2.2.3 word2vec（CBOW和Skip-Gram）存在的问题

本博客总结到2014年GloVe，全部都是对于word embedding的总结，近写年的文本表示总结会在下篇呈现。

下篇：https://blog.csdn.net/qq_35883464/article/details/100173045

一、文本离散表示

1.1 文本离散表示：one-hot

单独讲one-hot挺简单的，我就把One-Hot Encoder独热编码、Label Encoder标签编码、Binary Encoder二进制编码，合起来写了一篇博客：https://blog.csdn.net/qq_35883464/article/details/90573416

1.2 文本离散表示：词袋模型与TF-IDF

1.2.1 词袋模型（bag of words）

这个很简单就少用些笔墨

词袋模型是一种非常经典的文本表示。顾名思义，它就是将字符串视为一个 “装满字符（词）的袋子” ，袋子里的 词语是随便摆放的。而两个词袋子的相似程度就以它们重合的词及其相关分布进行判断。

词袋模型的优点

简单，方便，快速
在语料充足的前提下，对于简单的自然语言处理任务效果不错。如文本分类。

词袋子模型的缺点

其准确率往往比较低。凡是出现在文本中的词一视同仁，不能体现不同词在一句话中的不同的重要性。
无法关注词语之间的顺序关系，这是词袋子模型最大的缺点。如“武松打老虎”跟“老虎打武松”在词袋子模型中是认为一样的。

1.2.2 对词袋模型的改进：TF-IDF

不仅考虑词语是否出现，还考虑其出现的次数或者频率（TF）

“的”这个次占了词频的很大的比重，而它对确定文本信息几乎没什么用。所以我们应该忽略掉这些词，取消掉它们的影响。一种方法是维护一个停用词表。但这种方式太粗暴。

改进方式：一个词预测主题的能力越强（与主题的关联程度），权重越大，反之，权重越小。

在网页中看到“原子能”这个词，或多或少能够了解网页的主题，而看到“应用”一词，则对主题基本上还是一无所知。因此，“原子能”的权重应该比应用大。

容易发现，如果一个关键词只在很少的网页出现，通过它就容易锁定搜索目标，它的权重也就应该比较大。反正，如果一个词在大量的网页中出现，看到它仍然不清楚要找什么内容，因此它的权重应该小。

统计逆文档频率（IDF）

不仅考虑这个词在当下文本的出现的概率，还考虑出现该词语的文档占总文档出现的频率（DF）。

其基本假设是如果一个词语在不同的文档中反复出现，那么它对于识别该文本并不重要。如高频词“我们”、“那么”之类。

严格来说，逆文档频率的公式为-log(出现该词语的文档占总文档出现的频率)

这里具体不做TF-IDF的公式讲解。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。