什么是词嵌入？一文搞懂词嵌入是干什么的！看这一篇就够了！

原创于 2025-07-01 11:16:59 发布 · 1.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#剪枝 #transformer #算法 #机器学习 #人工智能 #大模型

词嵌入已经成为处理自然语言（如语音或文本）任务的人工智能工具中最常用的工具之一，也是其取得惊人成就的主要驱动力。

在本文中，我们将揭示其背后的魔法，了解它们是什么，为什么它们在自然语言处理 NLP 领域中成为标准，它们是如何构建的，并探索一些最常用的词嵌入算法。

所有内容都将以简单直观的方式 进行解释，避免复杂的数学概念，力求使文章内容尽可能易于理解。

准备好了吗？让我们从了解词嵌入是什么开始。

1、什么是词嵌入？

计算机将所有信息都转化为数字。 更具体地说，是二进制位（0 和 1）。那么，当计算机内的软件（例如机器学习算法）需要处理一个单词时会发生什么呢？很简单，这个单词需要以计算机唯一能理解的方式呈现：数字。

在 NLP 中，最简单的方法是创建一个包含大量单词的词汇表 （例如 100,000 个单词），并为词汇表中的每个单词分配一个数字。

词汇表中的第一个单词（例如 apple）将是数字 0。第二个单词（banana）将是数字 1，依此类推，直到倒数第二个单词（king）是 99,998，最后一个单词（queen）是 99,999。

然后，我们将每个单词表示为长度为 100,000 的向量，其中每个元素都是零，除了一个元素，它对应于单词关联的数字的索引。

上述示例的向量表示。

前几段中一些示例的向量表示。

这称为单词的独热编码。

独热编码存在各种效率和上下文相关的问题，我们马上就会看到。

词嵌入只是另一种通过向量表示单词的方式，它通过某种方式抽象出每个单词的上下文或高层含义，从而成功解决了使用独热编码带来的许多问题。

这里的关键点是，词嵌入是表示单词的向量，使得意思相似的单词具有相似的向量。

2、为什么要使用词嵌入？

考虑前面的例子，但我们的词汇表中只有三个单词：apple、banana 和 king。这些单词的独热编码向量表示如下。

简单词汇表的独热向量表示

如果我们将这些单词向量绘制在三维空间中，我们会得到如下图所示的表示，其中每个轴代表我们拥有的一个维度，图标代表每个单词向量的末端位置。

我们独热编码单词向量在三维空间中的表示。

如图所示，任何向量（图标的位置）到所有其他向量的距离都相同：两个大小为 1 的步长在不同方向上。如果我们将问题扩展到 100,000 维，步数会增加，但所有单词向量之间的距离保持不变。

理想情况下，我们希望意思相似或代表相似项目的单词向量彼此接近，并远离那些意思完全不同的单词：我们希望 apple 接近 banana，但远离 king。

此外，独热编码非常低效。如果你仔细想想，它们是巨大的空向量，只有一个元素的值不为零。它们非常稀疏，会极大地减慢我们的计算速度。

总结：独热编码不考虑单词的上下文或含义，所有单词向量之间的距离相同，且效率低下。

词嵌入通过将词汇表中的每个单词表示为一个固定大小的向量（例如 150、300、500 维）来解决这些问题，这个向量称为嵌入，是在训练过程中学习到的。

这些向量是以这样一种方式创建的，即出现在相似上下文中或具有相似含义的单词彼此接近，并且它们不像从独热编码中得到的向量那样稀疏。

如果我们有一个二维词嵌入表示的前 4 个单词，并将其绘制在二维网格上，它看起来会像下图。

示例单词的二维词嵌入表示

从上图中可以清楚地看到，单词 apple 和 banana 的词嵌入表示比单词 king 和 queen 更接近，而后者也适用相反的情况：使用词嵌入时，意思相似的单词彼此接近。

这一事实还允许我们做一些非常酷的事情。我们可以对词嵌入作运算，使用单词的表示从已知单词转换到另一个单词。

下图显示了如果我们从单词 king 的词嵌入中减去单词 royal 的词嵌入，我们会到达接近单词 man 的嵌入位置。类似地，如果我们从单词 queen 的嵌入中减去 royal 的嵌入，我们会到达接近单词 woman 的嵌入位置。很酷，对吧？

使用 king、queen、man、woman 演示词嵌入的运算。

最后， 如下图所示，词嵌入向量通常具有较小的尺寸（示例中为 2，但大多数情况下为 150、200、300 或 500 维），并且不稀疏，因此与独热向量相比，使用它们进行计算效率要高得多。

3、词嵌入是如何构建的？

正如你可能已经猜到的那样，与机器学习生态系统中的许多元素一样，词嵌入是通过学习构建的，即从数据中学习。

有许多算法可以学习词嵌入，我们马上就会看到它们，但总体目标是构建一个矩阵 E，它可以将表示单词的独热向量转换为该单词的固定大小的嵌入向量。

让我们看一个非常高层次的例子，说明这可以如何实现。

考虑句子 I love drinking apple smoothies。如果我移除单词 apple，我们得到以下不完整的句子：I love drinking __ smoothies。如果我给你这个不完整的句子，并让你猜测缺失的单词，你可能会说 banana、strawberry 或 apple，它们的含义相似，通常出现在相似的上下文中。

学习词嵌入的主要方法之一与此类似：算法通过猜测大量文本句子中的缺失单词，学习出现在相似上下文中的单词的相似词嵌入。

嵌入矩阵 E （将独热嵌入转换为词嵌入向量的矩阵） 通过训练类似于语言模型的东西来计算 （语言模型尝试预测句子中的缺失单词），使用人工神经网络来预测这个缺失单词，类似于计算网络的权重和偏差的方式。

在实践中，你可以避免训练自己的词嵌入，因为有从各种语料库中构建的公开词嵌入，可以节省你的时间和精力。

最后，让我们简要看看一些最流行的词嵌入算法。

4、最流行的词嵌入有哪些？

最常用的词嵌入算法是 Word2Vec 和 GloVe。让我们看看它们是如何工作的。

Word2Vec： 它是一组相关模型，通过使用两层浅层人工神经网络生成词嵌入，这些网络尝试使用单词的上下文预测单词（连续词袋模型，CBOW），或使用一个单词预测上下文（跳字模型，skip-gram）。这就是前一节中描述的过程。

CBOW 和 Skipgram Word2Vec 模型。在 CBOW 中，我们尝试使用上下文预测单词 apple，而在 Skip-gram 模型中，我们尝试预测单词 apple 的上下文。

GloVe： Global Vectors 的缩写。该算法通过使用单词之间的共现矩阵来计算词嵌入。该矩阵通过读取大量句子语料库并为找到的每个唯一单词创建一列和一行来构建。对于每个单词，它记录该单词与其他单词在特定窗口大小内出现在同一句子中的次数，因此它也可以衡量两个单词在句子中的接近程度。

句子 'I love drinking apple smoothies' 的共现矩阵，窗口大小为 2 句子 ‘I love drinking apple smoothies’ 的共现矩阵，窗口大小为 2

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】