LLM残差流为何会超过1?

1884 篇文章 ¥199.90 ¥299.90
1472 篇文章 ¥199.90 ¥299.90
1283 篇文章 ¥199.90 ¥299.90

LLM残差流不会归一化,但是他的输入参数是经过归一化计算的,因此残差流数字不会很大,但是会超过1

如图中所示会有超过1 的
在这里插入图片描述

残差流是否经过归一化处理,取决于模型采用的归一化位置(Pre-Norm 或 Post-Norm 结构),以下是具体分析:

1. 核心概念回顾

  • 残差流:残差连接的输出,即 残差流=x+F(x)\text{残差流} = x + \mathcal{F}(x)残差流=<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ZhangJiQun&MXP

等到80岁回首依旧年轻

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值