不了解 Transformer 原理，就很难掌握 LLM 精髓

原创已于 2024-11-23 12:47:37 修改 · 498 阅读

·

15

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2024-11-23 12:45:26 首次发布

大家好，我是渔夫。

近两年，大模型真是热火朝天，能力也非常出色，那你真的了解过 AI 大模型都有哪些重要组成部分吗。

现代，著名的大型语言模型（LLMs）大多建立在 transformer 架构之上的。在几年前，大多数语言模型（LMs）依赖于卷积或循环神经网络，然而，transformer的出现彻底改变了语言模型的性能。

transformer 的核心优势在于它们能够并行处理文本，这样就提高语言任务的效率，其最主要的两个组成部是 注意力机制和编码器-解码器结构。

Transformer 架构

transformer 的核心是两个基本原则，使用自注意力机制和编码器-解码器结构。

注意力机制（Attention）

为了更好理解 Attention 机制，先简单了解 Embedding，它负责把单词转换成向量的方法，这样相似的单词在向量空间中也会比较接近。可阅读这篇文章

但也出现了明显问题，就是相同的单词在不同的上下文中可能具有不同的含义。譬如，“minute” 单词，可以表示时间单位，也可以指小东西。

那么，注意力机制是通过允许模型关注输入文本的特定部分来帮助解决这个问题，这对于理解任何语言任务的上下文至关重要。

也就是允许模型为输入数据的不同部分分配不同程度的重要性。例如，在处理句子时，模型可以更多地关注对理解句子整体含义至关重要的关键字。

Self-attention 是一种注意力机制，它使 Importing 序列的每个部分都能够与其他部分交互并受其影响。在处理文本时，transformer 模型中的自我注意机制使其能够一致地分析整个单词序列。

工作机制：

每个词都会和句子中的其他词建立联系
计算词与词之间的注意力权重
根据权重确定词的重要程度

编码器-解码器

编码器-解码器结构是 transformer 架构的基础元素，在这些模型如何处理和生成语言方面起着关键作用。这种双组件结构有效地使模型能够将输入文本处理成有意义的输出，这对于从翻译到文本生成的各种语言任务至关重要。

编码器（Encoder）

编码器，你可以理解为一个翻译官，它把我们说的话（输入文本）变成一系列的点（向量），这些点代表了我们说话的各个部分。

编码器有很多层，每层都有两个重要的部分：自注意力层和前馈神经网络。

自注意力层让每个词都和其他词交流，这样它们就能更好地理解彼此的意思，前馈神经网络则进一步处理这些信息，找出文本中的模式。经过这些层的处理，文本变得越来越抽象，但包含的上下文信息越来越丰富，随后编码器会把处理过的文本（上下文向量）传给解码器。

解码器（Decoder）

解码器，就是把编码器传来的信息变成我们能听懂的话（输出文本），也有很多层，包括掩蔽自注意力层、编码器注意力层和前馈神经网络。

其中，掩蔽自注意力层确保解码器在生成文本时，只关注已经说过的话，这样就不会提前知道接下来要说什么。

编码器注意力层帮助解码器理解编码器传来的上下文信息，这样生成的文本就能和输入的文本意思一致，然后，前馈神经网络则进一步优化解码器生成的每个词。

这些个很多层，和组件组合在一起，在 transformer 架构中协同工作，为输入文本生成上下文感知输出。

👆🏻点击上方卡片进入发消息回复“w”，可加我个人微信关注渔夫，一起洞察AI背后的底层逻辑，挖掘小而美的AI商业模式

我是渔夫，是一名程序员，正在 All in AI，正努力探索小而美的AI商业模式、包括AI副业、个人IP、分享技术、非科班转码经验等相关文章，欢迎关注，和渔夫一起成长。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。