Multiverse模型:突破多任务处理和硬件效率瓶颈的AI创新(下)

本期我们将继续跟随杨新宇博士走进 Multiverse,回溯其研究基础,并解答这个关键问题:这种模型设计是否具备通用性?除了文本生成,它还能应用于哪些大语言模型的任务?


在早期研究中,杨新宇团队也观察到了一个类似的问题。正如前文所述,之所以强调基于数据结构进行建模,是因为在传统自回归模型中,存在大量冗余的依赖关系(redundant dependency)。

举个例子,假设输入数据呈现出一种树状结构,其中包含多个子节点(subnode),每个子节点下可能还包含若干叶节点(leaf node)。在处理某个特定子节点的信息时,理论上它只需要关注与其相关的几个叶节点即可,而无需与其他不相关的节点产生交互。

然而,在现有自回归模型的计算过程中,最后一个叶节点会“看到”所有前面的叶节点信息,这就导致了不必要的计算开销。这种冗余计算不仅浪费了宝贵的计算资源,也在一定程度上限制了推理效率的提升。

并行编码:显著提升上下文推理效率

为了解决这一问题,研究团队在此前的工作 APE(Adaptive Parallel Encoding)中提出了一种新的建模思路。该方法主要应用于 Context-Augmented Generation(上下文增强生成)场景,这类任务在实际应用中非常常见,例如 RAG(Retrieval-Augmented Generation,检索增强生成)、In-Context Learning(上下文学习)等,通常需要结合外部检索结果或示例进行生成。

通过这种方法,可以在处理长文本输入时显著提升推理效率。实验结果显示,整体推理速度可提升约 4.5 倍 ,远高于最初的预期。在这项工作中,该团队将 Context-augmented Generation 抽象为一个具体的形式:

  1. Context:第一部分是从外部数据库中检索到的上下文,通常是一组文档 :这些文档彼此独立,数量较多,并且每篇文档的内容往往较长。

  2. Query:第二部分是用户的 Query,比如说在这里就是一个非常短的 question。

  3. Response:第三部分是 LLM 的输出。

研究过程中发现,在此类任务中,占据文本长度主体的往往是通过外部检索得到的上下文信息。现有大语言模型(LLM)在处理这类任务时,需要花费大量时间将这些上下文信息逐条输入并编码到模型中,这在很大程度上影响了计算效率。

基于这一观察,结合数据结构建模的理念,团队提出了优化思路:既然不同上下文之间是相互独立的,那么它们的编码过程完全可以并行处理。由此,就能显著提升上下文信息的处理效率。

举例来说,这种并行化的输入处理方式,带来了以下几个方面的优势:

  1. 推理速度的提升。由于不同上下文之间彼此独立,在输入过程中无需计算它们之间的注意力,从而有效减少了整体计算量,提升了处理效率。

  2. 支持对多个上下文进行灵活组合。正如在设计 Multiverse 模型时所强调的那样,选择基于 SGLang 实现的一个重要原因正是其提供的 Radix Cache 机制。简单来说,它允许模型在生成过程中保留之前已计算的状态,而无需重复计算。并行编码机制能够将这一能力扩展到更广泛的应用场景中。传统方法中,KV Cache 仅能以线性前缀的形式进行存储和调用。而在这种机制下,只要各个 context 之间相互独立,就可以实现对检索出的多个 context 进行任意组织与预存。这意味着,无论检索结果如何组合,都可以提前完成缓存准备,而不必等到模型在线生成时再实时计算。这样一来,在实际应用中只需直接加载预存好的缓存数据即可,极大提升了推理效率。

  3. 上下文共享位置编码(shared position encoding)。传统模型在处理长文本时往往受限于最大长度限制,如 2000 tokens。但在该并行编码框架下,模型可以轻松容纳数万级别的 token 长度。实验结果表明,在长文本生成任务中,该方法可将原本需要约 80 秒的生成时间缩短至约 19 秒。这是因为整个上下文信息已在推理前预先计算并缓存,生成阶段只需从 CPU 或其他存储设备中快速加载即可,大幅降低了生成延迟。

动态并行编码(APE):维持动态生成准确率

然而,并行化虽然提升了效率,却可能带来一定精确度下降。虽然在多数示例中影响不大,但在部分任务中约会出现 1 个点左右的效果损失。

尽管团队追求高效的推理过程,但依然高度重视模型输出的准确性。为了解决这一问题,其提出了一种在推理阶段使用的性能恢复机制。具体而言,引入了一种名为 APE(Adaptive Parallel Encoding) 的动态并行编码策略,旨在有效缓解因并行处理而导致的效果下降,从而在保证推理效率的同时,尽可能维持模型原有的生成质量。

采用该方法后,模型性能从原始的 36.73 分提升至 39.62 分。通过支持更多上下文的并行处理,在相同输入条件下,相比传统自回归模型也取得了更优表现。换言之,该方法不仅将推理速度提升了 4 倍,同时在多个任务中保持甚至提升了生成质量,实现了效率与准确性的双重优化。

选择推理阶段 APE 的原因

1)追求泛化能力

团队选择在推理阶段引入并行机制,主要出于对模型泛化能力(generalization)的考虑。虽然已有部分研究尝试在训练过程中引入并行编码策略,但这些方法多局限于简单文本任务,在数学推理等复杂场景中往往性能大幅下降,甚至接近于零,缺乏泛化性,并依赖高质量人工数据,实际应用中难以满足。

相比之下,该方法并不改变训练方式,仅通过推理阶段的优化实现高效生成。实验表明,即便直接并行处理会导致一定性能损失,模型仍能保持约 36 分的表现,并未完全失效。这说明通过推理阶段的调整提升泛化性是可行的。

2)不同上下文中模型内部状态的相似性

团队观察了模型在不同上下文下的内部状态分布,发现尽管 context 来自不同任务或数据源,但其内部状态表现出高度相似性,表明不同上下文天然具备一定可组合性。

3)解决不同上下文中模型状态不一致的问题

尽管如此,不同 context 的表示之间仍存在一定不一致性(misalignment)。因此,若能在推理阶段对这种 misalignment 进行适当调整或补偿,就能在不增加额外训练成本的情况下,有效缓解并行编码带来的性能下降。

为此,他们做了三步调整:

1、共享前缀对齐:避免输入最初几个位置被重复编码,保持分布一致性。

2、动态调整注意力温度:使并行编码下的数据分布更接近传统自回归方式。

3、引入注意力分数缩放机制:控制整个 context 的注意力分数。

这三步调整不影响生成速度,并在真实 retrieval 任务中表现出良好适应性与稳定性。

APE 表现和效率的分析

模型表现分析

1)RAG

在多个不同检索场景下的测试结果显示,首先,该团队的方法在处理短文本生成任务时,能够保持与原始自回归模型几乎相同的输入长度,并实现 98% 的准确率保留率。这意味着,尽管存在轻微的性能下降,但整体表现仍在可接受范围内,且显著优于未做优化的并行编码方案。

其次,在当前的许多实际应用场景中,用户往往需要处理长文本检索(long-context retrieval)任务 。因此,其对比了这种方法在支持更长输入长度方面所带来的性能优势。如前所示,此方法通过允许不同 context 共享位置编码(shared position encoding),显著提升了模型可处理的上下文长度上限。相比之下,传统基于自回归方式的模型(如顺序输入机制)受限于上下文窗口长度,通常只能处理几千到几万 token 的输入,难以覆盖足够多的信息内容。

这一方法则打破了这一限制。以 LLaMA-3-8B 为例,在自回归架构下,其最大支持的上下文长度约为 4,000 tokens;通过并行编码机制,可将该上限扩展至 80,000 tokens ,并在多个任务上实现了约 2 个百分点的性能提升。对于其他模型(如 Mistral),这一提升更为明显,最高可达 7~8 个百分点 。

此外,得益于团队提出的“预填充机制”(pre-cache mechanism),无论 prefix 长度如何变化,推理时间都不会受到显著影响,从而进一步增强了系统的实用性与灵活性。

2)ICL

在面对更具挑战性的任务时,例如一些传统的检索任务,他们也进行了广泛测试。尽管这些任务本身难度更高,导致这种方法在某些场景下也出现了性能下降,但整体准确率仍能维持在 93% 左右 ,表现相对稳健。

作为对比,如果使用过去的一些纯并行编码方法,其性能可能会出现显著下滑。例如,在 MARS 评估中,性能可能从原始的 75 分下降至 62 分左右,甚至低于仅输入一个示例的效果。而该方法在相同条件下仍能维持约 73 分 的表现,显示出更强的鲁棒性和泛化能力。

3)Many-shot CAG

此外,其进一步测试了该方法在“多例输入”(many-shot)场景下的表现。当输入 context 数量超过 100 个时,通过引入动态调整注意力温度的策略,这一模型依然能够稳定地适应这种高复杂度的输入环境,并保持良好的生成质量。

模型效率验证

最后,杨新宇博士分享了一个更具实际意义的观察结果。他们模拟了一个典型的检索增强生成任务:用户提出一个简短的问题,而系统需要基于检索出的 128K tokens 的上下文 来进行回答。

在这种设定下,这一方法相较于传统方式展现出显著优势。如左侧两张图所示,其在“prefill 阶段”(即加载 128K 上下文)中表现尤为突出。无论模型本身有多长,这一阶段所需时间几乎为 0 秒 —— 因为只需要将上下文从 CPU 加载到 GPU,而无需执行复杂的计算过程。虽然数据传输仍需一定时间,但相比起传统方法而言已经快了非常多。以 128K token 的输入为例,如果使用标准自回归模型进行处理,仅计算上下文 embedding 就需要约 16 秒 ;而这一方法几乎可以忽略这一阶段的时间开销,从而大幅缩短整体推理延迟。

在实际任务中,这种优化带来了明显的效果提升。以一个典型的单 batch 场景为例,如果使用传统的自回归模型完成整个推理任务,总共需要约 21 秒;而采用他们的方法后,整个过程仅需 6 秒即可完成。这意味着推理速度提升了 3 到 4 倍。更重要的是,在如此大幅度提速的同时,仍能维持约 95%的准确率 ,这对于大多数实际应用来说已经是完全可以接受的表现。

未来的 APE cache 设计

如何在未来进一步优化推理过程中的缓存机制?其认为,一个非常有潜力的方向是设计一种基于 APE(Adaptive Product Encoding)的 Cache 机制 。

在当前的 CAG(cache-augmented generation)serving 场景中,已经存在一种被广泛使用的缓存策略,称为 prefix cache。其核心思想是:当某个上下文被多个用户重复使用时,可以将其预先计算好的表示缓存下来,并在后续请求中直接复用,从而避免重复计算,提升效率。然而,这种传统 prefix cache 存在一个明显的局限性:它要求新请求中的上下文必须严格遵循之前缓存序列的顺序结构。一旦 context 的组合方式发生变化,例如三个相同片段以不同的顺序拼接,该缓存就无法再被有效利用,只能重新进行计算。

而如果采用 APE 的方法,则可以在类似 RAG 的推理场景下实现更灵活的缓存机制。具体来说,在面对不同用户对信息的不同组合需求时,这一系统能够将这些 context 自由拼接,并统一纳入到缓存体系中进行管理。这意味着,无论用户如何组合检索出的信息,只要其中包含已缓存的部分,就可以直接复用对应的计算结果,而无需任何重复计算。这种机制极大地提升了缓存的通用性和利用率,从而带来更高的推理效率和更低的计算成本。


以上部分总结了研究团队的两项主要工作,同时也解释了为何将此次研究主题命名为 “数据与硬件联合驱动下的架构设计”

在数据驱动的设计理念方面,该架构的核心源于对 attention mask 的重新定义。这一改变并非人为强加,而是自然地从数据本身的特性出发进行建模。研究表明,在许多实际任务中,输入数据天然具备一定的并行结构。团队在模型设计中有意识地利用了这种结构,而非依赖人为设定的并行机制。通过这种方式,模型能够避免在不适合并行的任务中因强制并行而带来的性能损失,从而在不同场景下保持良好的鲁棒性和泛化能力。

在硬件友好性方面,新架构能够在计算过程中更好地适配现代硬件的并行计算能力。

具体而言,在第一项工作中,该方法在生成阶段实现了并行处理,使推理速度最高可提升至传统自回归模型的两倍;在第二项工作中,针对预填充阶段的优化则带来了 4–5 倍 的速度提升。

由此可见,这一架构不仅突破了传统自回归模型的效率瓶颈,还展现出更高的性能上限和更强的应用潜力。它并非对现有方法的简单改进,而是一种值得深入探索的新范式。

整体来看,该研究的目标并不仅仅是提升推理速度,而是尝试构建一种真正结合 数据特性与硬件能力 的新型模型架构。

(内容来源:奇绩潜空间Docs
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值