Gemma3: Gemma 3 技术报告-CSDN博客

本文链接：https://blog.csdn.net/qq_39698985/article/details/147816344

温馨提示：
本篇文章已同步至"AI专题精讲" Gemma3: Gemma 3 技术报告

我们介绍了Gemma 3，它是Gemma系列轻量级开源模型的多模态扩展，参数规模从1亿到27亿不等。这个版本引入了视觉理解能力、覆盖更多语言以及更长的上下文——至少128K个token。我们还改变了模型的架构，以减少随着长上下文而爆炸的KV缓存内存。这是通过增加局部注意力层和全局注意力层的比例，并将局部注意力的跨度保持较短来实现的。Gemma 3模型通过蒸馏训练，取得了比Gemma 2更优的性能，包括预训练和指令微调版本。特别是，我们的新型后训练方案显著提升了数学、聊天、指令跟随和多语言能力，使得Gemma3-4B-IT在各项基准测试中与Gemma2-27B-IT具有竞争力，而Gemma3-27B-IT则与Gemini-1.5-Pro相当。

1. 引言

我们介绍了最新版本的Gemma开放语言模型（Gemma团队，2024a），该版本与Gemini前沿模型系列（Gemini团队，2023）共同设计。新版本的规模与Gemma 2（Gemma团队，2024b）相当，并新增了一个1B规模的模型。这些模型旨在在标准消费级硬件上运行，例如手机、笔记本电脑和高端GPU。本版本为Gemma家族带来了几个新功能；即多模态、长上下文和多语言能力，同时保持或超越了先前版本的性能。

在多模态方面，大多数Gemma 3模型与定制版本的SigLIP视觉编码器（Zhai等人，2023）兼容。语言模型将图像视为由SigLIP编码的软token序列。我们通过将视觉嵌入压缩为256个固定大小的向量，降低了图像处理的推理成本。编码器在固定分辨率下工作，我们借鉴了LLaVA（Liu等人，2024）的方法，通过“平移扫描”（P&S）方法启用灵活的分辨率。

第二个主要架构改进是将上下文大小增加到128K个token，而不会降低性能。长上下文的挑战在于推理过程中KV缓存的内存爆炸问题。为了减少这个问题，我们在每个全局层之间插入多个局部层，并将局部层的跨度限制为1024个token。因此，只有全局层处理长上下文，并且每5个局部层对应一个全局层。

预训练优化方案与Gemma 2类似，但在架构设计上做了一些修改。我们使用与Gemini 2.0相同的分词器，并重新审视了数据混合，以提高模型的多语言能力，同时引入图像理解。所有Gemma 3模型都采用了知识蒸馏训练（Hinton等人，2015）。

在后训练过程中，我们重点提升了数学、推理和聊天能力，同时集成了Gemma 3的新功能——长上下文和图像输入。我们使用了一种新型的后训练方法，带来了在数学、编程、聊天、指令跟随和多语言能力上的提升。最终，Gemma 3的指令微调模型既强大又多功能，明显超越了前代产品。

在接下来的章节中，我们将简要介绍我们的模型，包括架构以及预训练和后训练方案。我们还将提供各种定量和定性基准的详细评估。我们讨论了我们在安全和负责任部署方面的方法，并概述了Gemma 3的更广泛影响、局限性和优势。

在这里插入图片描述

2. 模型架构

Gemma 3模型遵循与前两个版本相同的一般解码器单一Transformer架构（Vaswani等人，2017），大多数架构元素与前两个Gemma版本相似。我们使用分组查询注意力（Grouped-Query Attention，GQA）（Ainslie等人，2023），并结合后归一化和前归一化，采用RMSNorm（Zhang和Sennrich，2019）。受到Dehghani等人（2023）、Wortsman等人（2023）和Chameleon团队（2024）的启发，我们将Gemma 2中的软上限替换为QK归一化（QK-norm）。在本节中，我们将重点介绍与之前版本的一些关键区别。

5:1的局部/全局层交错。我们在局部滑动窗口自注意力（Beltagy等人，2020）和全局自注意力（Luong等人，2015）之间交替，采用每5个局部层与一个全局层交替的模式，模型的第一层是局部层。
在这里插入图片描述

长上下文。Gemma 3模型支持128K tokens的上下文长度，1B模型的上下文长度为32K。我们将RoPE（相对位置编码）基频从10k提高到1M，应用于全局自注意力层，同时将局部层的频率保持在10k。我们遵循类似于Chen等人（2023）的位置插值方法，扩展全局自注意力层的跨度。

2.1. 视觉模态

视觉编码器。我们使用了SigLIP编码器的400M变体（Zhai等，2023），该编码器是一个视觉Transformer（Dosovitskiy, 2020），通过一种变体的CLIP损失（Radford等，2021）进行训练。Gemma视觉编码器接受输入为调整为896×896的方形图像，并在视觉助手任务数据上进行微调。为了简化操作，我们在4B、12B和27B模型之间共享视觉编码器，并在训练过程中保持其冻结。

Pan & Scan (P&S)。Gemma视觉编码器在固定分辨率896×896下运行。这在处理非方形纵横比和高分辨率图像时会产生伪影，导致文本不可读或小物体消失。我们通过推理过程中的自适应窗口算法解决了这个问题。该算法将图像分割成大小相等、不重叠的裁剪块，覆盖整个图像，并将它们调整为896×896像素后传递给编码器。此窗口化仅在必要时应用，并控制最大裁剪块的数量。这是一个仅在推理时进行的优化，可以在需要更快推理时禁用。
在这里插入图片描述

2.2. 预训练

我们沿用Gemma 2中的知识蒸馏预训练配方。

训练数据。我们在比Gemma 2略大的标记预算下进行预训练，即Gemma 3 27B模型使用14T标记，12B版本使用12T，4B版本使用4T，1B版本使用2T标记。标记数量的增加考虑了预训练过程中使用的图像和文本的混合。我们还增加了多语言数据的量，以提高语言覆盖率。我们添加了单语数据和平行数据，并采用灵感来自Chung等（2023）的一种策略来处理语言表现上的不平衡。

分词器。我们使用与Gemini 2.0相同的分词器：一个SentencePiece分词器，具有拆分数字、保留空格和字节级编码（Kudo和Richardson，2018）。生成的词汇表包含262k条目。该分词器在非英语语言中更为平衡。

过滤。我们使用过滤技术减少不必要或不安全的言论，并去除某些个人信息和其他敏感数据。我们从预训练数据混合中对评估集进行去污染，并通过最小化敏感输出的传播来减少复述的风险。我们还应用了灵感来自Sachdeva等（2024）的质量重加权步骤，以减少低质量数据的出现。

蒸馏。我们每个标记采样256个logits，按照教师概率进行加权。学生通过交叉熵损失在这些样本中学习教师的分布。教师的目标分布对未采样的logits设置为零概率，并重新归一化。
在这里插入图片描述

2.3. 量化感知训练

除了原始检查点外，我们还提供了不同标准格式的量化版本模型。这些版本是通过对每个模型进行少量步骤的微调获得的，通常为5,000步，使用量化感知训练（QAT）（Jacob等，2018）。我们使用非量化检查点中的概率作为目标，并调整数据以匹配预训练和后训练的分布。基于最流行的开源量化推理引擎（例如llama.cpp），我们专注于三种权重表示：按通道int4、按块int4和切换的fp8。在表3中，我们报告了原始和量化模型在每种权重表示下填充的内存，分别考虑有和没有KV缓存的情况下，对于32k标记的序列。

2.4. 计算基础设施

我们使用TPUv4、TPUv5e和TPUv5p训练模型，如表2所示。每个模型配置都经过优化，以最小化训练步骤时间。对于视觉编码器，我们预先计算每个图像的嵌入，并直接使用这些嵌入进行训练，而不会增加语言模型训练的成本。

优化器状态使用ZeRO-3（Ren等，2021）的实现进行分片。对于多机训练，我们通过数据中心网络执行数据副本减少，采用Barham等（2022）提出的Pathways方法。我们使用Jax（Roberts等，2023）和Pathways（Barham等，2022）的“单控制器”编程范式，并结合GSPMD分区器（Xu等，2021）和MegaScale XLA编译器（XLA，2019）。
在这里插入图片描述

3. 指令调优

预训练模型通过一种改进的后训练方法转变为指令调优模型，这一方法相比于我们之前的方案有所改进（见表6）。

技术方法：
我们的后训练方法依赖于从大型IT教师模型进行知识蒸馏的改进版本（Agarwal等，2024；Anil等，2018；Hinton等，2015），以及基于BOND（Sessa等，2024）、WARM（Ramé等，2024b）和WARP（Ramé等，2024a）改进版本的强化学习微调阶段。

强化学习目标：
我们使用多种奖励函数来提高模型在有用性、数学、编程、推理、指令跟随和多语言能力上的表现，同时最小化模型的有害性。这些奖励函数包括从加权平均奖励模型（Ramé等，2024b）中学习，该模型使用人类反馈数据、代码执行反馈（Gehring等，2024）和解决数学问题的真实奖励（DeepSeek-AI，2025；Lambert等，2024）。

数据过滤：
我们仔细优化了后训练中使用的数据，以最大化模型性能。我们过滤掉显示个人信息、不安全或有毒的模型输出、错误的自我识别数据以及重复的例子。包括鼓励更好上下文归因、推测和拒绝的子集数据，也有助于减少虚假信息的出现，从而提高事实性指标的表现，同时不降低其他指标的表现。

[BOS] 标记：
对于PT和IT模型，文本以[BOS]标记开始，需要显式添加，因为文本“[BOS]”并不会映射到[BOS]标记。例如，Flax提供了一个选项add_bos=True，可以在分词时自动添加这个标记。IT模型的格式示例如表4所示。

PT与IT格式：
所有模型共享相同的分词器，其中一些控制标记专用于IT格式。一个主要区别是，PT模型在生成的末尾输出标记，而IT模型在生成的末尾输出<end_of_turn>标记，IT格式如表4所示。因此，微调这两种模型时也需要添加各自的结束标记。

4. 最终模型评估

在本节中，我们对IT模型进行一系列自动化基准测试和人类评估，涵盖多个领域，以及静态基准测试，如MMLU。

4.1. LMSYS 聊天机器人竞技场

在本节中，我们报告了Gemma 3 27B IT模型在LMSys Chatbot Arena（Chiang等，2024）中的表现，该评估通过人类评审员在盲测的对比评估中与其他最先进模型进行对比。我们在表5中报告了Elo评分。Gemma 3 27B IT（1338）位列前10名，评分高于其他非推理型开源模型，如DeepSeek-V3（1318）、LLaMA 3 405B（1257）和Qwen2.5-70B（1257），这些模型的规模要大得多。最后，Gemma 3的Elo评分显著高于Gemma 2，后者为1220。需要注意的是，Elo评分并未考虑视觉能力，而这些模型中没有一个具备视觉能力。
在这里插入图片描述

4.2. 标准基准

在表6中，我们展示了我们最终模型在各种基准测试中的表现，并与我们之前的模型版本以及Gemini 1.5进行了比较。我们没有直接与外部模型进行比较，因为这些模型通常报告自己特定的评估设置，在我们的设置中运行它们无法保证公平的比较。我们鼓励读者参考第三方的静态排行榜，以便对不同模型进行更公正的比较。我们还在附录中提供了对其他基准测试的额外评估。

温馨提示：
阅读全文请访问"AI深语解构" Gemma3: Gemma 3 技术报告