
qwen2.5
文章平均质量分 87
KangkangLoveNLP
NLP,大模型,深度学习的学习者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
qwen2.5总览
Qwen2.5 在传统 Transformer 的基础上,通过引入 GQA、DCA、SwiGLU、RoPE 和 RMSNorm 等改进,显著提升了模型在长文本处理、多任务适应性和计算效率方面的表现。此外,Qwen2.5-VL 还扩展了多模态能力,支持视觉和语言的交互。原创 2025-03-17 21:56:19 · 908 阅读 · 0 评论 -
Qwen2.5的注意力秘籍:解锁高效模型的钥匙,分组查询注意力机制
说到注意力机制就不得不提到Q、K、V三板斧。多头注意力机制通过将输入分割为多个头,然后对每个头进行自注意力,最后再进行合并。实现多头注意力机制。在,我们会为,对于每个头都有于自己的Q、K、V矩阵。对于h1来说,会为它分配Q1K1V1是三个的矩阵,对于h2来说,也会分配Q2K2V2三个。原创 2025-03-15 15:30:58 · 1651 阅读 · 0 评论 -
从LayerNorm到RMSNorm:深度学习归一化技术的进化!qwen2.5的技术。
是一种用于深度学习的,是LayerNorm(层归一化)的一种改进。它通过计算输入数据的,避免了传统归一化方法中均值和方差的计算。原创 2025-03-13 09:44:57 · 1133 阅读 · 0 评论 -
RoPE:为什么你的Transformer模型需要这种“旋转”的力量?qwen2.5的位置编码!
在RoPE中,频率fff的变化体现了位置信息的多层次编码、不同尺度的敏感度、相对位置的自然表示以及模型的灵活性和适应性。这种设计使得RoPE能够在Transformer模型中有效地编码位置信息,从而提高模型对序列数据的理解能力。原创 2025-03-12 19:30:17 · 1289 阅读 · 0 评论 -
从Swish到SwiGLU:激活函数的进化与革命,qwen2.5应用的激活函数
Swish 激活函数是一种平滑的、非单调的激活函数,由 Google Brain 团队在 2017 年提出。它结合了 ReLU 的非线性特性与 Sigmoid 函数的平滑特性,旨在解决 ReLU 在某些情况下的局限性,例如梯度消失和“死亡神经元”问题。Swishxx⋅σβxSwishxx⋅σβxσx\sigma(x)σx是 Sigmoid 函数,定义为σx11e−xσx1e−x1。β\betaβ。原创 2025-03-12 13:31:10 · 1682 阅读 · 0 评论