AI大模型 LLM 架构对比,DeepSeek、Llama、Qwen、Kimi、Mistral、Gemma,零基础小白收藏这一篇就够了!!

前言

自最初的GPT 架构开发以来已过去七年。回顾 GPT-2(2019 年)并展望 DeepSeek-V3 和 Llama 4(2024-2025 年),人们可能会惊讶于这些模型在结构上的相似性。

当然,位置嵌入已从绝对位置嵌入演变为旋转位置嵌入(RoPE),多头注意力(Multi-Head Attention, MHA)大多被分组查询注意力(Grouped-Query Attention, GQA)取代,效率更高的 SwiGLU 激活函数也取代了 GELU 等激活函数。但在这些细微改进之下,我们是否真正见证了突破性的变化,还是仅仅在打磨相同的架构基础?

比较大型语言模型(LLM)以确定其性能优劣的关键因素是一项艰巨的任务:数据集、训练技术、超参数差异巨大,且往往缺乏详细文档记录。然而,我认为研究架构本身的结构变化仍然具有很大价值,可以洞察 2025 年 LLM 开发者们的关注点。以下展示了一些模型的子集(见图 1)。

Image

图 1:本文涵盖的部分架构。

因此,在本文中,我将不讨论基准性能或训练算法,而是专注于定义当今旗舰开源模型的架构发展。

本文将聚焦于近期模型的文本能力,关于多模态能力的讨论留待日后。

1. DeepSeek V3/R1

正如您可能多次听闻,DeepSeek R1 在 2025 年 1 月发布时引起了巨大反响。DeepSeek R1 是一个基于 DeepSeek V3 架构的推理模型,V3 架构于 2024 年 12 月首次亮相。

虽然本文聚焦于 2025 年发布的架构,但由于 DeepSeek V3 在 R1 发布后才广受关注和采用,因此将其纳入讨论是合理的。

在本节中,我们重点介绍 DeepSeek V3 中提升计算效率的两个关键架构技术:

多头潜在注意力(Multi-Head Latent Attention, MLA)

专家混合(Mixture-of-Experts, MoE)

1.1 多头潜在注意力(MLA)

在讨论多头潜在注意力(MLA)之前,我们先简要回顾一些背景,说明其使用动机。首先介绍分组查询注意力(GQA),它近年来已成为多头注意力(MHA)的更高效替代方案,以减少计算和参数量。

🚩GQA 简述:与 MHA 不同,MHA 中每个注意力头都有自己的键(key)和值(value)投影,而 GQA 通过让多个注意力头共享相同的键和值投影来减少内存使用。

例如,如图 2 所示,如果有 2 个键值组和 4 个注意力头,那么头 1 和头 2 可能共享一组键和值,头 3 和头 4 共享另一组。这减少了键和值计算的总数,从而降低内存使用量并提高效率(根据消融研究,建模性能几乎不受影响)。

Image

图 2:MHA 与 GQA 的比较。此处组大小为 2,即每 2 个查询共享一组键和值。

因此,GQA 的核心思想是通过共享键和值头来减少键和值头的数量,从而:

1)降低模型参数量;

2)在推理期间减少键值缓存(KV cache)的内存带宽使用,因为需要存储和检索的键和值更少。

虽然 GQA 主要是 MHA 的计算效率优化方案,但消融研究(如原始 GQA 论文和 Llama 2 论文)表明,其建模性能与标准 MHA 相当。

🚩MLA 简介:多头潜在注意力(MLA)提供了另一种节省内存的策略,特别适合与 KV 缓存结合使用。MLA 不是像 GQA 那样共享键和值头,而是将键和值张量压缩到低维空间后存储到 KV 缓存中。在推理时,这些压缩张量在被使用前会投影回原始大小,如图 3 所示。这增加了一次额外的矩阵乘法,但显著减少了内存使用量。

Image

图 3:DeepSeek V3 和 R1 使用的 MLA 与常规 MHA 的比较。

(附注:查询在训练期间也会被压缩,但推理时不会。)

值得一提的是,MLA 并非 DeepSeek V3 的首创,其前身 DeepSeek-V2 已使用并引入了 MLA。DeepSeek-V2 论文中包含了一些有趣的消融研究,可能解释了 DeepSeek 团队为何选择 MLA 而非 GQA(见图 4)。

Image

图 4:DeepSeek-V2 论文(https://arxiv.org/abs/2405.04434)的注释表格。

如图 4 所示,GQA 的建模性能似乎低于 MHA,而 MLA 的建模性能略优于 MHA,这可能是 DeepSeek 团队选择 MLA 的原因。(如果能看到 MLA 与 GQA 在“每 token KV 缓存”节省方面的比较就更好了!)

总结本节,MLA 是一种巧妙的技巧,能够减少 KV 缓存的内存使用,同时在建模性能上略优于 MHA。

1.2 专家混合(MoE)

DeepSeek V3 中另一个值得关注的架构组件是其使用专家混合(MoE)层。虽然 MoE 并非 DeepSeek 首创,但它在今年重新流行,许多后续讨论的架构也采用了 MoE。

您可能已经熟悉 MoE,但简单回顾一下可能会有帮助。MoE 的核心思想是将 Transformer 块中的每个前馈(FeedForward)模块替换为多个专家层,每个专家层也是一个前馈模块。这意味着我们将单个前馈块替换为多个前馈块,如图 5 所示。

Image

图 5:DeepSeek V3/R1 中 MoE 模块(右)与标准前馈块 LLM(左)的比较。

Transformer 块中的前馈块(图中深灰色块)通常包含模型总参数量的大部分。(注意,Transformer 块及其前馈块在 LLM 中重复多次;在 DeepSeek-V3 中为 61 次。)

因此,将单个前馈块替换为多个前馈块(MoE 设置)会显著增加模型的总参数量。然而,关键在于我们不会为每个 token “激活”所有专家,而是由路由器(router)为每个 token 选择一小部分专家。(为节省篇幅,路由器的细节将在另一篇文章中详细讨论。)

由于每次只激活少量专家,MoE 模块通常被称为“稀疏”模块,相比之下,“密集”模块总是使用全部参数。然而,通过 MoE 增加的总参数量显著提升了 LLM 的容量,这意味着它在训练期间可以吸收更多知识。而稀疏性则保证了推理效率,因为我们不会同时使用所有参数。

例如,DeepSeek-V3 拥有 256 个专家,总计 6710 亿个参数。但在推理时,每次只激活 9 个专家(1 个共享专家 + 8 个由路由器选择),这意味着每次推理步骤仅使用 370 亿个参数,而非全部 6710 亿个。

DeepSeek-V3 的 MoE 设计中一个值得注意的特点是使用了一个共享专家。这个专家对每个 token 始终处于激活状态。这一想法并非全新,早在 2024 年的 DeepSeek MoE 和 2022 年的 DeepSpeedMoE 论文中已提出。

Image

图 6:来自“DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models”论文(https://arxiv.org/abs/2401.06066)的注释图。

DeepSpeedMoE 论文首次指出,共享专家可以提升整体建模性能,可能是因为常见或重复的模式无需由多个独立专家学习,从而为专家留出更多空间学习专门化的模式。

1.3 DeepSeek 总结

总结来说,DeepSeek-V3 是一个拥有 6710 亿参数的巨型模型,在发布时超越了其他开源模型(包括 4050 亿参数的 Llama 3)。尽管其规模更大,但得益于专家混合(MoE)架构,每次推理仅激活 370 亿个参数,推理效率极高。

另一个关键特点是 DeepSeek-V3 使用多头潜在注意力(MLA)而非分组查询注意力(GQA)。MLA 和 GQA 都是标准多头注意力(MHA)的推理高效替代方案,特别是在使用 KV 缓存时。MLA 实现更复杂,但 DeepSeek-V2 论文的研究表明其建模性能优于 GQA。

2. OLMo 2

由非营利组织 Allen Institute for AI 开发的 OLMo 系列模型因其在训练数据和代码方面的透明度以及相对详细的技术报告而备受关注。虽然 OLMo 模型可能不会名列基准测试或排行榜的榜首,但它们非常“干净”,更重要的是,由于其透明度,它们是开发 LLM 的绝佳蓝图。

尽管 OLMo 因透明度而受到欢迎,但其性能也不差。事实上,在发布时(在 Llama 4、Gemma 3 和 Qwen 3 之前),OLMo 2 模型在计算与性能的帕累托前沿上表现优异,如图 7 所示。

Image

图 7:不同 LLM 的建模基准性能(越高越好)与预训练成本(FLOPs,越低越好)的比较。来自 OLMo 2 论文(https://arxiv.org/abs/2501.00656)的注释图。

正如本文开头所述,为控制篇幅,我将仅聚焦于 LLM 架构细节(不讨论训练或数据)。那么,OLMo 2 的有趣架构设计选择是什么?主要集中在规范化层:RMSNorm 层的放置以及 QK-Norm 的添加,以下将详细讨论。

另外值得一提的是,OLMo 2 仍使用传统多头注意力(MHA),而非 MLA 或 GQA。

2.1 规范化层放置

总体而言,OLMo 2 大体遵循原始 GPT 模型的架构,与其他当代 LLM 相似。然而,有一些值得注意的偏差。我们先从规范化层开始。

与 Llama、Gemma 和大多数其他 LLM 类似,OLMo 2 从 LayerNorm 切换到 RMSNorm。由于 RMSNorm 是较为成熟的技术(它是 LayerNorm 的简化版本,训练参数更少),我将跳过 RMSNorm 与 LayerNorm 的讨论。(好奇的读者可参考我的 GPT-2 到 Llama 转换指南中的 RMSNorm 代码实现。)

然而,RMSNorm 层的放置值得讨论。原始 Transformer(来自“Attention is all you need”论文)将两个规范化层分别放置在注意力模块和前馈模块之后,这被称为后规范化(Post-LN 或 Post-Norm)。GPT 及之后的大多数 LLM 将规范化层放置在注意力模块和前馈模块之前,称为前规范化(Pre-LN 或 Pre-Norm)。后规范化和前规范化的比较见下图。

Image

图 8:后规范化、前规范化及 OLMo 2 后规范化变体的比较。

2020 年,Xiong 等人表明,前规范化在初始化时具有更稳定的梯度。此外,研究人员提到,前规范化甚至无需仔细调整学习率预热(learning rate warm-up),而这对后规范化至关重要。

OLMo 2 采用了一种后规范化形式(但使用 RMSNorm 而非 LayerNorm,因此称为后规范)。与原始 Transformer 架构不同,OLMo 2 的规范化层仍位于残差层(跳跃连接)内部,如图所示。

那么,为什么要移动规范化层的位置?原因在于这有助于提高训练稳定性,如图 9 所示。

Image

图 9:前规范化(如 GPT-2、Llama 3 等)和 OLMo 2 后规范化变体的训练稳定性比较。

遗憾的是,该图同时展示了规范化层重新排序和 QK-Norm 的结果,因此难以判断规范化层重新排序单独的贡献。

2.2 QK-Norm

由于上一节已提到 QK-Norm,并且后续讨论的 Gemma 2 和 Gemma 3 等模型也使用了 QK-Norm,我们来简要讨论其定义。

QK-Norm 实质上是另一个 RMSNorm 层,位于多头注意力(MHA)模块内部,在应用 RoPE 之前对查询(q)和键(k)进行规范化。以下是我为 Qwen3 从头实现的分组查询注意力(GQA)层的摘录(GQA 中的 QK-Norm 应用与 OLMo 的 MHA 类似):

class GroupedQueryAttention(nn.Module):
    def__init__(
        self, d_in, num_heads, num_kv_groups,
        head_dim=None, qk_norm=False, dtype=None
    ):
        # ...

        if qk_norm:
            self.q_norm = RMSNorm(head_dim, eps=1e-6)
            self.k_norm = RMSNorm(head_dim, eps=1e-6)
        else:
            self.q_norm = self.k_norm = None

    defforward(self, x, mask, cos, sin):
        b, num_tokens, _ = x.shape

        # Apply projections
        queries = self.W_query(x) 
        keys = self.W_key(x)
        values = self.W_value(x) 

        # ...

        # Optional normalization
        ifself.q_norm:
            queries = self.q_norm(queries)
        ifself.k_norm:
            keys = self.k_norm(keys)

        # Apply RoPE
        queries = apply_rope(queries, cos, sin)
        keys = apply_rope(keys, cos, sin)

        # Expand K and V to match number of heads
        keys = keys.repeat_interleave(self.group_size, dim=1)
        values = values.repeat_interleave(self.group_size, dim=1)

        # Attention
        attn_scores = queries @ keys.transpose(2, 3)
        # ...
        ```

如前所述,QK-Norm 与后规范化一起有助于稳定训练。需要注意的是,QK-Norm 并非 OLMo 2 首创,而是源于 2023 年的《Scaling Vision Transformers》论文。

2.3 OLMo 2 总结

简而言之,OLMo 2 的显著架构设计决策主要集中在 RMSNorm 放置:将 RMSNorm 层置于注意力模块和前馈模块之后(一种后规范化形式),以及在注意力机制中对查询和键添加 RMSNorm(QK-Norm),这两者共同有助于稳定训练损失。

下图进一步比较了 OLMo 2 和 Llama 3 的架构;可以看到,除了 OLMo 2 仍使用传统 MHA 而非 GQA 外,两者架构非常相似。(不过,OLMo 2 团队在三个月后发布了使用 GQA 的 32B 变体。)

Image

图 10:Llama 3 与 OLMo 2 的架构比较。

3. Gemma 3

谷歌的 Gemma 模型一直表现出色,但在我看来,相较于 Llama 系列等热门模型,Gemma 略显低调。Gemma 的一个显著特点是其较大的词汇表大小(以更好地支持多语言),以及对 27B 参数规模的重点关注(相较于 8B 或 70B)。但需要注意的是,Gemma 2 还提供更小的型号:1B、4B 和 12B。27B 规模是一个很好的平衡点:比 8B 模型能力更强,但不像 70B 模型那样资源密集,我的 Mac Mini 上可以轻松运行。

那么,Gemma 3 还有什么有趣之处?如前所述,DeepSeek-V3/R1 等模型使用专家混合(MoE)架构来减少固定模型规模下的推理内存需求。(后续讨论的几个模型也采用了 MoE 方法。)Gemma 3 则使用了另一种“技巧”来降低计算成本,即滑动窗口注意力(Sliding Window Attention)。

3.1 滑动窗口注意力

通过滑动窗口注意力(最初由 2020 年的 LongFormer 论文提出,Gemma 2 已使用),Gemma 3 团队显著降低了 KV 缓存的内存需求,如下图所示。

Image

图 11:Gemma 3 论文(https://arxiv.org/abs/2503.19786)中的注释图显示了通过滑动窗口注意力节省的 KV 缓存。

那么,什么是滑动窗口注意力?如果我们将常规自注意力视为一种全局注意力机制,因为每个序列元素都可以访问其他所有序列元素,那么滑动窗口注意力可以被视为局部注意力,因为它限制了当前查询位置周围的上下文大小。如下图所示。

Image

图 12:常规注意力(左)与滑动窗口注意力(右)的比较。

请注意,滑动窗口注意力可与多头注意力(MHA)和分组查询注意力(GQA)结合使用;Gemma 3 使用的是分组查询注意力。

如上所述,滑动窗口注意力也被称为局部注意力(local attention),因为局部窗口围绕当前查询位置并随之移动。相比之下,常规注意力是全局的,每个 token 都可以访问所有其他 token。

Gemma 2 已使用滑动窗口注意力,但 Gemma 3 的区别在于调整了全局(常规)和局部(滑动)注意力的比例。例如,Gemma 2 使用了一种混合注意力机制,局部和全局注意力的比例为 1:1,每个 token 可以关注 4k token 的附近上下文。而 Gemma 3 调整为 5:1 的比例,即每 5 个滑动窗口(局部)注意力层才有一个全局注意力层;此外,滑动窗口大小从 Gemma 2 的 4096 减小到 Gemma 3 的 1024。这使模型更专注于高效的局部计算。

根据其消融研究,滑动窗口注意力的使用对建模性能影响甚微,如图 13 所示。

Image

图 13:Gemma 3 论文(https://arxiv.org/abs/2503.19786)的注释图,显示滑动窗口注意力对 LLM 输出困惑度的影响极小。

虽然滑动窗口注意力是 Gemma 3 最显著的架构特点,但我想顺带讨论一下规范化层的放置,作为对 OLMo 2 部分的延续。

3.2 Gemma 3 的规范化层放置

值得一提的小细节是,Gemma 3 在其分组查询注意力模块周围同时使用了前规范化和后规范化。这与 Gemma 2 类似,但仍值得强调,因为它不同于:1)原始 Transformer(“Attention is all you need”)的后规范化;2)GPT-2 推广并被许多后续架构采用的前规范化;3)OLMo 2 的后规范化变体。

Image

图 14:OLMo 2 与 Gemma 3 的架构比较;注意 Gemma 3 的额外规范化层。

我认为这种规范化层放置是一种相对直观的方法,因为它兼具前规范化和后规范化的优点。在我看来,额外的规范化不会有什么坏处。最坏的情况下,如果额外规范化是多余的,会通过冗余增加一些低效。但在实践中,由于 RMSNorm 在整体计算中的成本较低,这种影响应该不明显。

3.3 Gemma 3 总结

Gemma 3 是一款性能优异的开源 LLM,在我看来有些被低估。其最有趣的部分是使用滑动窗口注意力来提高效率(未来将其与 MoE 结合会很有趣)。此外,Gemma 3 的规范化层放置独特,在注意力模块和前馈模块前后都放置了 RMSNorm 层。

3.4 Bonus:Gemma 3n

Gemma 3 发布几个月后,谷歌推出了 Gemma 3n,这是一个为小设备(如手机)优化的 Gemma 3 模型。其中一个提升效率的变化是所谓的逐层嵌入(Per-Layer Embedding, PLE)参数层。其核心思想是将模型的部分参数保留在 GPU 内存中,而特定于 token 层的嵌入(如文本、音频、视觉模态)则按需从 CPU 或 SSD 流式传输。

以下图表展示了 PLE 的内存节省,列出了标准 Gemma 3 模型的 54.4 亿个参数。这可能指的是 Gemma 3 的 40 亿参数变体。

Image

图 15:来自谷歌 Gemma 3n 博客(https://developers.googleblog.com/en/introducing-gemma-3n/)的注释图,展示 PLE 的内存节省。

54.4 亿与 40 亿参数的差异源于谷歌在报告 LLM 参数计数时的有趣方式。他们通常会排除嵌入参数以使模型看起来更小,但在像这里的情况下,为了让模型看起来更大,会包含这些参数。这种做法并非谷歌独有,已成为该领域的常见做法。

另一个有趣的技巧是 MatFormer 概念(Matryoshka Transformer 的简称)。例如,Gemma 3n 使用单一共享的 LLM(Transformer)架构,可以切分为较小的独立可用模型。每个切片都经过训练可独立运行,因此在推理时只需运行所需的部分(而非整个大模型)。

4. Mistral Small 3.1

Mistral Small 3.1 24B 在 Gemma 3 发布后不久于 3 月发布,值得注意的是它在多个基准测试中(除数学外)超越了 Gemma 3 27B,同时推理速度更快。其较低推理延迟的原因可能包括自定义分词器、缩小的 KV 缓存和层数。否则,其架构较为标准,如下图所示。

Image

图 16:Gemma 3 27B 与 Mistral 3.1 Small 24B 的架构比较。

有趣的是,早期 Mistral 模型使用了滑动窗口注意力,但在 Mistral Small 3.1 中似乎放弃了这一做法。由于 Mistral 使用常规分组查询注意力而非 Gemma 3 的滑动窗口分组查询注意力,可能通过更优化的代码(如 FlashAttention)获得了额外的推理计算节省。我推测,滑动窗口注意力虽然减少了内存使用,但不一定降低推理延迟,而 Mistral Small 3.1 专注于推理延迟。

5. Llama 4

本文开头关于专家混合(MoE)的详细讨论在此再次发挥作用。Llama 4 也采用了 MoE 方法,其架构与 DeepSeek-V3 非常相似,如下图所示。(Llama 4 支持原生多模态,但本文聚焦于语言建模,因此仅讨论其文本模型。)

Image

图 17:DeepSeek V3(6710 亿参数)与 Llama 4 Maverick(4000 亿参数)的架构比较。

虽然 Llama 4 Maverick 的架构整体上与 DeepSeek-V3 非常相似,但仍有一些值得强调的差异。

首先,Llama 4 沿用了其前身的分组查询注意力(GQA),而 DeepSeek-V3 使用多头潜在注意力(MLA)。DeepSeek-V3 和 Llama 4 Maverick 都是非常大的架构,DeepSeek-V3 的总参数量比 Llama 4 大约 68%。然而,DeepSeek-V3 的活跃参数为 370 亿,约为 Llama 4 Maverick(170 亿)的两倍。

Llama 4 Maverick 使用更经典的 MoE 设置,专家数量较少但规模较大(2 个活跃专家,每个隐藏尺寸为 8192),而 DeepSeek-V3 使用 9 个活跃专家(每个隐藏尺寸为 2048)。此外,DeepSeek 在除前 3 层外的每个 Transformer 块中使用 MoE 层,而 Llama 4 每隔一层交替使用 MoE 和密集模块。

由于架构之间存在许多细微差异,难以确定它们对最终模型性能的确切影响。主要结论是,MoE 架构在 2025 年显著流行。

6. Qwen3

Qwen 团队持续交付高质量的开源 LLM。在2023 年 NeurIPS LLM 效率挑战赛中,排名靠前的解决方案都基于 Qwen2。

现在,Qwen3 是其规模类别中排行榜前列的热门模型系列,包含 7 个密集模型:0.6B、1.7B、4B、8B、14B 和 32B,以及 2 个 MoE 模型:30B-A3B 和 235B-A22B。(顺便提一下,“Qwen3”没有空格不是笔误,我只是保留了 Qwen 开发者选择的原始拼写。)

6.1 Qwen3(密集模型)

我们先讨论密集模型架构。目前,0.6B 模型可能是现今最小的开源模型。根据我的个人经验,其性能在如此小的规模下非常出色,token/秒吞吐量高,内存占用低,适合本地运行。更重要的是,由于其小规模,它也易于本地训练(用于教育目的)。

因此,Qwen3 0.6B 已取代 Llama 3 1B,成为大多数用途的首选。以下是两者架构的比较。

Image

图 18:Qwen3 0.6B 与 Llama 3 1B 的架构比较;注意 Qwen3 是更深的架构,层数更多,而 Llama 3 是更宽的架构,注意力头更多。

如果您对不依赖外部第三方 LLM 库的 Qwen3 可读实现感兴趣,我最近用纯 PyTorch 从头实现了 Qwen3。图中的计算性能数据基于我在 A100 GPU 上运行的从头 PyTorch 实现。如图所示,Qwen3 的内存占用更小,因为其整体架构较小,隐藏层和注意力头也较小。然而,它使用的 Transformer 块比 Llama 3 多,导致运行时较慢(token/秒生成速度较低)。

6.2 Qwen3(MoE)

如前所述,Qwen3 还有两种 MoE 变体:30B-A3B 和 235B-A22B。为什么像 Qwen3 这样的架构同时提供密集和 MoE(稀疏)变体?

正如本文开头提到的,MoE 变体有助于降低大型基础模型的推理成本。提供密集和 MoE 版本为用户提供了根据目标和约束的灵活性。密集模型通常更易于微调、部署和跨硬件优化。另一方面,MoE 模型针对推理扩展进行了优化。例如,在固定推理预算下,MoE 模型可以实现更高的模型容量(由于规模更大,训练期间可吸收更多知识),而推理成本不会成比例增加。

通过发布两种类型,Qwen3 系列支持更广泛的用例:密集模型适合鲁棒性、简单性和微调,MoE 模型适合高效的大规模服务。

让我们来看看 Qwen3 235B-A22B(A22B 表示“220 亿活跃参数”)与 DeepSeek-V3 的比较,后者的活跃参数几乎是前者的两倍(370 亿)。

Image

图 19:DeepSeek-V3 与 Qwen3 235B-A22B 的架构比较。

如上图所示,DeepSeek-V3 和 Qwen3 235B-A22B 的架构非常相似。值得注意的是,Qwen3 模型放弃了共享专家(早期 Qwen 模型如 Qwen2.5-MoE 使用了共享专家)。

遗憾的是,Qwen3 团队未披露为何放弃共享专家的原因。如果要猜测,可能是因为在将专家数量从 2 个(Qwen2.5-MoE)增加到 8 个(Qwen3)时,共享专家对训练稳定性并非必要,因此他们通过仅使用 8 个专家而非 8+1 个节省了额外的计算/内存成本。(但这无法解释 DeepSeek-V3 为何仍保留共享专家。)

7. SmolLM3

SmolLM3 或许不像本文介绍的其他 LLM 那样广受欢迎,但我认为将其纳入讨论很有趣,因为它在相对较小的 30 亿参数规模下表现出色,介于 Qwen3 的 1.7B 和 4B 模型之间,如下图所示。此外,与 OLMo 类似,它分享了许多训练细节,这种透明度非常罕见且值得赞赏!

Image

图 20:来自 SmolLM3 公告帖子(https://huggingface.co/blog/smollm3)的注释图,比较 SmolLM3 与 Qwen3 1.7B、4B、Llama 3 3B 和 Gemma 3 4B 的胜率。

如下图所示,SmolLM3 的架构相当标准。或许最有趣的方面是其使用无位置嵌入(No Positional Embeddings, NoPE)。

Image

图 21:Qwen3 4B 与 SmolLM3 3B 的架构比较。

7.1 无位置嵌入(NoPE)

在 LLM 上下文中,NoPE 是一个较旧的概念,源于 2023 年的论文《The Impact of Positional Encoding on Length Generalization in Transformers》,该论文提出移除显式位置信息注入(如早期 GPT 架构中的经典绝对位置嵌入层或现在的 RoPE)。

在基于 Transformer 的 LLM 中,位置编码通常是必要的,因为自注意力机制对 token 顺序独立处理。绝对位置嵌入通过添加额外的嵌入层为 token 嵌入增加位置信息。

Image

图 22:改编自《Build A Large Language Model (From Scratch)》(https://www.amazon.com/Build-Large-Language-Model-Scratch/dp/1633437167)的图,展示绝对位置嵌入。

RoPE 则通过根据 token 位置旋转查询和键向量来解决这个问题。而 NoPE 层完全不添加任何位置信号:无论是固定的、可学习的还是相对的,都没有。

尽管没有位置嵌入,模型仍能通过因果注意力掩码(causal attention mask)了解 token 的先后顺序。该掩码防止每个 token 关注未来的 token。因此,位置 t 的 token 只能看到位置 ≤ t 的 token,从而保留了自回归顺序。

因此,尽管没有显式添加位置信息,模型结构中仍隐含了一种顺序感,LLM 在常规基于梯度下降的训练中可以学习利用这一点(如果它对优化目标有益)。(详情请参阅 NoPE 论文的定理。)

NoPE 论文不仅发现无需注入位置信息,还发现 NoPE 具有更好的长度泛化能力,即随着序列长度增加,LLM 的回答性能下降较少,如图 23 所示。

Image

图 23:来自 NoPE 论文(https://arxiv.org/abs/2305.19466)的注释图,展示 NoPE 的长度泛化能力更强。

需要注意的是,上述实验使用了一个约 1 亿参数的小型 GPT 风格模型和较小的上下文大小进行。这些发现是否适用于更大的当代 LLM 尚不清楚。因此,SmolLM3 团队可能仅在每 4 层中“应用”了 NoPE(或省略了 RoPE)。

8. Kimi 2

Kimi 2 近期在 AI 社区掀起热潮,因其作为开源模型表现出色。根据基准测试,它与谷歌 Gemini、Anthropic Claude 和 OpenAI ChatGPT 等顶级专有模型不相上下。

一个显著特点是其使用了相对较新的 Muon 优化器,而非 AdamW。据我所知,这是 Muon 首次在如此规模的生产模型中取代 AdamW(此前仅在 16B 规模上显示可扩展)。这导致了非常平滑的训练损失曲线,可能助力其在基准测试中名列前茅。

虽然有人评论其损失曲线异常平滑(无明显波动),但我认为它并非特别平滑(例如,见下图中的 OLMo 2 损失曲线;此外,梯度的 L2 范数可能是跟踪训练稳定性的更好指标)。然而,其损失曲线的下降趋势非常出色。不过,正如本文引言所述,训练方法论是另一话题。

Image

Kimi 2 模型拥有 1 万亿个参数,令人印象深刻。在本文撰写时,它可能是这一代最大的 LLM(考虑到 Llama 4 Behemoth 未发布,专有 LLM 不计入,谷歌的 1.6 万亿 Switch Transformer 是不同世代的编码器-解码器架构)。

Kimi 2 的架构几乎与本文开头介绍的 DeepSeek-V3 相同,只是规模更大,如下图所示。

Image

图 25:DeepSeek V3 与 Kimi K2 的架构比较。

如上图所示,Kimi 2.5 与 DeepSeek V3 基本相同,只是 MoE 模块中使用更多专家,多头潜在注意力(MLA)模块中使用更少的头。

Kimi 2 并非凭空出现。早期的 Kimi 1.5 模型同样令人印象深刻,但不幸的是,其论文与 DeepSeek R1 论文在 1 月 22 日同日发布,且 Kimi 1.5 的权重从未公开分享。因此,Kimi K2 团队可能吸取了教训,在 DeepSeek R2 发布前公开了 Kimi K2 的开源权重。截至目前,Kimi K2 是最令人印象深刻的开源模型。

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值