Transformer

本文探讨了自注意力层如何使模型在序列处理中捕捉到不同位置的依赖关系,实现并行计算,提高效率。通过多个Head学习不同的关系,增加了模型的表达能力。同时,为了解决顺序信息丢失的问题,引入了位置编码来恢复序列顺序敏感性。总结了自注意力在现代深度学习模型中的核心作用及其优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里写目录标题

一级目录

二级目录

三级目录

引用:
https://www.bilibili.com/video/BV1h4411g7Pz/?spm_id_from=333.788.videocard.18

我们如何将输出的b1能够看到a1,a2,a3,a4,…所有的sequence呢?self-attention layer可以做到这一点。

首先通过q,k计算出a1与所有aj的相似度权重α1,j ,这样在训练的过程中,b1与谁相似、或者说想与谁的关系增强一点,就可以通过反向传播更新W矩阵,继而调整α1,j的大小。

比如b1只想要与a1有关系,那就把α1,1— α1,4权重调整成 1-0-0-0(softmax),这样就可以了!
在这里插入图片描述
我们可以看出,在求解b1的过程中可以并行,也可以并行的求解b1,b2,b3,b4! 这就大大提高了计算效率!

b1内部计算并行:
在这里插入图片描述
bi之间计算并行:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可能不同的Head学习到的关系不一样,所以用多个Head一起学习一下!
在这里插入图片描述
经过上面的变换我们发现,“天涯若比邻”这种现象,也就是说sequence之间的顺序信息丢掉了,所以为了添加位置信息,我们需要人为的加上位置编码!

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值