Multiverse模型：突破多任务处理和硬件效率瓶颈的AI创新（下）

原创已于 2025-08-18 16:27:35 修改 · 533 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #ai #科技

于 2025-08-18 16:22:09 首次发布

本期我们将继续跟随杨新宇博士走进 Multiverse，回溯其研究基础，并解答这个关键问题：这种模型设计是否具备通用性？除了文本生成，它还能应用于哪些大语言模型的任务？

在早期研究中，杨新宇团队也观察到了一个类似的问题。正如前文所述，之所以强调基于数据结构进行建模，是因为在传统自回归模型中，存在大量冗余的依赖关系（redundant dependency）。

举个例子，假设输入数据呈现出一种树状结构，其中包含多个子节点（subnode），每个子节点下可能还包含若干叶节点（leaf node）。在处理某个特定子节点的信息时，理论上它只需要关注与其相关的几个叶节点即可，而无需与其他不相关的节点产生交互。

然而，在现有自回归模型的计算过程中，最后一个叶节点会“看到”所有前面的叶节点信息，这就导致了不必要的计算开销。这种冗余计算不仅浪费了宝贵的计算资源，也在一定程度上限制了推理效率的提升。

并行编码：显著提升上下文推理效率

为了解决这一问题，研究团队在此前的工作 APE（Adaptive Parallel Encoding）中提出了一种新的建模思路。该方法主要应用于 Context-Augmented Generation（上下文增强生成）场景，这类任务在实际应用中非常常见，例如 RAG（Retrieval-Augmented Generation，检索增强生成）、In-Context Learning（上下文学习）等，通常需要结合外部检索结果或示例进行生成。

通过这种方法，可以在处理长文本输入时显著提升推理效率。实验结果显示，整体推理速度可提升约 4.5 倍，远高于最初的预期。在这项工作中，该团队将 Context-augmented Generation 抽象为一个具体的形式：

Context：第一部分是从外部数据库中检索到的上下文，通常是一组文档：这些文档彼此独立，数量较多，并且每篇文档的内容往往较长。
Query：第二部分是用户的 Query，比如说在这里就是一个非常短的 question。
Response：第三部分是 LLM 的输出。

研究过程中发现，在此类任务中，占据文本长度主体的往往是通过外部检索得到的上下文信息。现有大语言模型（LLM）在处理这类任务时，需要花费大量时间将这些上下文信息逐条输入并编码到模型中，这在很大程度上影响了计算效率。

基于这一观察，结合数据结构建模的理念，团队提出了优化思路：既然不同上下文之间是相互独立的，那么它们的编码过程完全可以并行处理。由此，就能显著提升上下文信息的处理效率。

举例来说，这种并行化的输入处理方式，带来了以下几个方面的优势：

推理速度的提升。由于不同上下文之间彼此独立，在输入过程中无需计算它们之间的注意力，从而有效减少了整体计算量，提升了处理效率。
支持对多个上下文进行灵活组合。正如在设计 Multiverse 模型时所强调的那样，选择基于 SGLang 实现的一个重要原因正是其提供的 Radix Cache 机制。简单来说，它允许模型在生成过程中保留之前已计算的状态，而无需重复计算。并行编码机制能够将这一能力扩展到更广泛的应用场景中。传统方法中，KV Cache 仅能以线性前缀的形式进行存储和调用。而在这种机制下，只要各个 context 之间相互独立，就可以实现对检索出的多个 context 进行任意组织与预存。这意味着，无论检索结果如何组合，都可以提前完成缓存准备，而不必等到模型在线生成时再实时计算。这样一来，在实际应用中只需直接加载预存好的缓存数据即可，极大提升了推理效率。
上下文共享位置编码（shared position encoding）。传统模型在处理长文本时往往受限于最大长度限制，如 2000 tokens。但在该并行编码框架下，模型可以轻松容纳数万级别的 token 长度。实验结果表明，在长文本生成任务中，该方法可将原本需要约 80 秒的生成时间缩短至约 19 秒。这是因为整个上下文信息已在推理前预先计算并缓存，生成阶段只需从 CPU 或其他存储设备中快速加载即可，大幅降低了生成延迟。

动态并行编码（APE）：维持动态生成准确率

然而，并行化虽然提升了效率，却可能带来一定精确度下降。虽然在多数示例中影响不大，但在部分任务中约会出现 1 个点左右的效果损失。

尽管团队追求高效的推理过程，但依然高度重视模型输出的准确性。为了解决这一问题，其提出了一种在推理阶段使用的性能恢复机制。具体而言，引入了一种名为 APE（Adaptive Parallel Encoding）的动态并行编码策略，旨在有效缓解因并行处理而导致的效果下降，从而在保证推理效率的同时，尽可能维持模型原有的生成质量。

采用该方法后，模型性能从原始的 36.73 分提升至 39.62 分。通过支持更多上下文的并行处理，在相同输入条件下，相比传统自回归模型也取得了更优表现。换言之，该方法不仅将推理速度提升了 4 倍，同时在多个任务中保持甚至提升了生成质量，实现了效率与准确性的双重优化。

选择推理阶段 APE 的原因

1）追求泛化能力

团队选择在推理阶段引入并行机制，主要出于对模型泛化能力（generalization）的考虑。虽然已有部分研究尝试在训练过程中引入并行编码策略，但这些方法多局限于简单文本任务，在数学推理等复杂场景中往往性能大幅下降，甚至接近于零，缺乏泛化性，并依赖高质量人工数据，实际应用中难以满足。

相比之下，该方法并不改变训练方式，仅通过推理阶段的优化实现高效生成。实验表明，即便直接并行处理会导致一定性能损失，模型仍能保持约 36 分的表现，并未完全失效。这说明通过推理阶段的调整提升泛化性是可行的。

2）不同上下文中模型内部状态的相似性

团队观察了模型在不同上下文下的内部状态分布，发现尽管 context 来自不同任务或数据源，但其内部状态表现出高度相似性，表明不同上下文天然具备一定可组合性。

3）解决不同上下文中模型状态不一致的问题

尽管如此，不同 context 的表示之间仍存在一定不一致性（misalignment）。因此，若能在推理阶段对这种 misalignment 进行适当调整或补偿，就能在不增加额外训练成本的情况下，有效缓解并行编码带来的性能下降。

为此，他们做了三步调整：

1、共享前缀对齐：避免输入最初几个位置被重复编码，保持分布一致性。

2、动态调整注意力温度：使并行编码下的数据分布更接近传统自回归方式。

3、引入注意力分数缩放机制：控制整个 context 的注意力分数。

这三步调整不影响生成速度，并在真实 retrieval 任务中表现出良好适应性与稳定性。

APE 表现和效率的分析

模型表现分析

1）RAG

在多个不同检索场景下的测试结果显示，首先，该团队的方法在处理短文本生成任务时，能够保持与原始自回归模型几乎相同的输入长度，并实现 98% 的准确率保留率。这意味着，尽管存在轻微的性能下降，但整体表现仍在可接受范围内，且显著优于未做优化的并行编码方案。

其次，在当前的许多实际应用场景中，用户往往需要处理长文本检索（long-context retrieval）任务。因此，其对比了这种方法在支持更长输入长度方面所带来的性能优势。如前所示，此方法通过允许不同 context 共享位置编码（shared position encoding），显著提升了模型可处理的上下文长度上限。相比之下，传统基于自回归方式的模型（如顺序输入机制）受限于上下文窗口长度，通常只能处理几千到几万 token 的输入，难以覆盖足够多的信息内容。

这一方法则打破了这一限制。以 LLaMA-3-8B 为例，在自回归架构下，其最大支持的上下文长度约为 4,000 tokens；通过并行编码机制，可将该上限扩展至 80,000 tokens ，并在多个任务上实现了约 2 个百分点的性能提升。对于其他模型（如 Mistral），这一提升更为明显，最高可达 7~8 个百分点。

此外，得益于团队提出的“预填充机制”（pre-cache mechanism），无论 prefix 长度如何变化，推理时间都不会受到显著影响，从而进一步增强了系统的实用性与灵活性。

2）ICL

在面对更具挑战性的任务时，例如一些传统的检索任务，他们也进行了广泛测试。尽管这些任务本身难度更高，导致这种方法在某些场景下也出现了性能下降，但整体准确率仍能维持在 93% 左右，表现相对稳健。

作为对比，如果使用过去的一些纯并行编码方法，其性能可能会出现显著下滑。例如，在 MARS 评估中，性能可能从原始的 75 分下降至 62 分左右，甚至低于仅输入一个示例的效果。而该方法在相同条件下仍能维持约 73 分的表现，显示出更强的鲁棒性和泛化能力。

3）Many-shot CAG

此外，其进一步测试了该方法在“多例输入”（many-shot）场景下的表现。当输入 context 数量超过 100 个时，通过引入动态调整注意力温度的策略，这一模型依然能够稳定地适应这种高复杂度的输入环境，并保持良好的生成质量。

模型效率验证

最后，杨新宇博士分享了一个更具实际意义的观察结果。他们模拟了一个典型的检索增强生成任务：用户提出一个简短的问题，而系统需要基于检索出的 128K tokens 的上下文来进行回答。

在这种设定下，这一方法相较于传统方式展现出显著优势。如左侧两张图所示，其在“prefill 阶段”（即加载 128K 上下文）中表现尤为突出。无论模型本身有多长，这一阶段所需时间几乎为 0 秒 —— 因为只需要将上下文从 CPU 加载到 GPU，而无需执行复杂的计算过程。虽然数据传输仍需一定时间，但相比起传统方法而言已经快了非常多。以 128K token 的输入为例，如果使用标准自回归模型进行处理，仅计算上下文 embedding 就需要约 16 秒；而这一方法几乎可以忽略这一阶段的时间开销，从而大幅缩短整体推理延迟。

在实际任务中，这种优化带来了明显的效果提升。以一个典型的单 batch 场景为例，如果使用传统的自回归模型完成整个推理任务，总共需要约 21 秒；而采用他们的方法后，整个过程仅需 6 秒即可完成。这意味着推理速度提升了 3 到 4 倍。更重要的是，在如此大幅度提速的同时，仍能维持约 95%的准确率，这对于大多数实际应用来说已经是完全可以接受的表现。

未来的 APE cache 设计

如何在未来进一步优化推理过程中的缓存机制？其认为，一个非常有潜力的方向是设计一种基于 APE（Adaptive Product Encoding）的 Cache 机制。

在当前的 CAG（cache-augmented generation）serving 场景中，已经存在一种被广泛使用的缓存策略，称为 prefix cache。其核心思想是：当某个上下文被多个用户重复使用时，可以将其预先计算好的表示缓存下来，并在后续请求中直接复用，从而避免重复计算，提升效率。然而，这种传统 prefix cache 存在一个明显的局限性：它要求新请求中的上下文必须严格遵循之前缓存序列的顺序结构。一旦 context 的组合方式发生变化，例如三个相同片段以不同的顺序拼接，该缓存就无法再被有效利用，只能重新进行计算。

而如果采用 APE 的方法，则可以在类似 RAG 的推理场景下实现更灵活的缓存机制。具体来说，在面对不同用户对信息的不同组合需求时，这一系统能够将这些 context 自由拼接，并统一纳入到缓存体系中进行管理。这意味着，无论用户如何组合检索出的信息，只要其中包含已缓存的部分，就可以直接复用对应的计算结果，而无需任何重复计算。这种机制极大地提升了缓存的通用性和利用率，从而带来更高的推理效率和更低的计算成本。

以上部分总结了研究团队的两项主要工作，同时也解释了为何将此次研究主题命名为 “数据与硬件联合驱动下的架构设计”。

在数据驱动的设计理念方面，该架构的核心源于对 attention mask 的重新定义。这一改变并非人为强加，而是自然地从数据本身的特性出发进行建模。研究表明，在许多实际任务中，输入数据天然具备一定的并行结构。团队在模型设计中有意识地利用了这种结构，而非依赖人为设定的并行机制。通过这种方式，模型能够避免在不适合并行的任务中因强制并行而带来的性能损失，从而在不同场景下保持良好的鲁棒性和泛化能力。

在硬件友好性方面，新架构能够在计算过程中更好地适配现代硬件的并行计算能力。

具体而言，在第一项工作中，该方法在生成阶段实现了并行处理，使推理速度最高可提升至传统自回归模型的两倍；在第二项工作中，针对预填充阶段的优化则带来了 4–5 倍 的速度提升。

由此可见，这一架构不仅突破了传统自回归模型的效率瓶颈，还展现出更高的性能上限和更强的应用潜力。它并非对现有方法的简单改进，而是一种值得深入探索的新范式。

整体来看，该研究的目标并不仅仅是提升推理速度，而是尝试构建一种真正结合 数据特性与硬件能力 的新型模型架构。