Transformer

最新推荐文章于 2025-08-22 09:54:53 发布

THU Monster

最新推荐文章于 2025-08-22 09:54:53 发布

阅读量464

点赞数

CC 4.0 BY-SA版权

文章标签：深度学习 pytorch 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_49117441/article/details/123315370

本文探讨了自注意力层如何使模型在序列处理中捕捉到不同位置的依赖关系，实现并行计算，提高效率。通过多个Head学习不同的关系，增加了模型的表达能力。同时，为了解决顺序信息丢失的问题，引入了位置编码来恢复序列顺序敏感性。总结了自注意力在现代深度学习模型中的核心作用及其优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里写目录标题

一级目录
- 二级目录
- - 三级目录

一级目录

二级目录

三级目录

引用：
https://www.bilibili.com/video/BV1h4411g7Pz/?spm_id_from=333.788.videocard.18

我们如何将输出的b1能够看到a1,a2,a3,a4,…所有的sequence呢？self-attention layer可以做到这一点。

首先通过q,k计算出a1与所有aj的相似度权重α1,j ,这样在训练的过程中，b1与谁相似、或者说想与谁的关系增强一点，就可以通过反向传播更新W矩阵，继而调整α1,j的大小。

比如b1只想要与a1有关系，那就把α1,1— α1,4权重调整成 1-0-0-0（softmax），这样就可以了!
在这里插入图片描述
我们可以看出，在求解b1的过程中可以并行，也可以并行的求解b1,b2,b3,b4! 这就大大提高了计算效率！

b1内部计算并行：
在这里插入图片描述
bi之间计算并行：

可能不同的Head学习到的关系不一样，所以用多个Head一起学习一下！

经过上面的变换我们发现，“天涯若比邻”这种现象，也就是说sequence之间的顺序信息丢掉了，所以为了添加位置信息，我们需要人为的加上位置编码！

在这里插入图片描述

博客等级

码龄5年

24
原创

141
点赞

307
收藏

100
粉丝

关注

私信

热门文章

分类专栏

dataset

上一篇：: Pytorch 学习笔记-自定义激活函数

下一篇：: pdb 断点调试学习

最新评论

Pytorch 学习笔记-自定义激活函数
qq_39036547: 可以,pytorch有自动求导机制，当你对loss调用backward时候，反向传播会从尾到头依次求出每个参数的梯度
Pytorch 学习笔记-自定义激活函数
xiaobingbuhuitou: 请教一下这边继承nn.Module 然后只实现forward()行么？
MAE 代码实战详解
wxcican: 博主，您好？请问您是否跑过MAE的源代码main_pretrain.py呢？在运行的过程中是否遇到过中断问题（Signals.SIGKILL: 9）呢？会是我设置num_workers>0导致的吗？我现在正在改用num_workers=0跑，暂时未中断
【RepVGG重参数化-Yolov5】
幼稚园的扛把子～: 请问有Conv_C3模块的代码吗
【RepVGG重参数化-Yolov5】
weixin_44128680: #detect.py #Load model model = DetectMultiBackend(weights, device=device, dnn=dnn, data=data) for i in model.model.modules(): if type(i) is C3: i._switch_to_deploy() else: pass 请问yolov5推理的时候只用加这里的代码吗

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。