Transformer中解码器decoder的详细讲解（图文解释）

最新推荐文章于 2025-07-10 08:42:33 发布

showswoller

最新推荐文章于 2025-07-10 08:42:33 发布

阅读量9.2k

点赞数 93

CC 4.0 BY-SA版权

分类专栏： Transformer 文章标签： transformer 深度学习人工智能 chatgpt nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiebaoshayebuhui/article/details/129852444

假设我们想把英语句子i am good翻译成法语句子 Je Vais bein，首先将原句送入编码器，使编码器学习原句，并计算特征值，在上一篇博客中已经讲解了编码器是如何计算原句的特征值的，然后我们把从编码器求得的特征值送入解码器，解码器将特征值作为输入，并生成目标据，流程如下

在编码器部分，我们了解到可以叠加N个解码器，同理，解码器也可以有N个叠加在一起，编码器将原句的所有特征值作为输入传给所有解码器，而非只给第一个解码器，因此一个解码器将有两个输入，一个是来自前一个解码器的输出，另一个是编码器输出的特征值

接下来我们学习解码器是如何生成目标句子的，当t=1时（t表示时间步）解码器开始工作，生成目标为句子中的第一个词，当t=2时，解码器使用当前的输入和在上一步生成的单词，来预测句子中的下一个单词，以此类推，在每一步中解码器都将上一步生成的单词与输入的词结合起来，并预测下一个单词

一个解码器模块及其所有的组件如下图所示

从上图中可以看到，解码器内部有三个子层，分别是

1：带掩码的多头注意力层

2：多头注意力层

3：前馈网络层

与编码器模块相似，解码器模块也有多头注意力层和前馈网络层，但多了带掩码的多头注意力层，下面对它们一一进行讲解

一、带掩码的多头注意力层

以英法翻译任务为例，假设训练数据集样

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

showswoller 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。