论文阅读 arxiv 2025 Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretabl

总目录 大大模型数据污染相关研究:https://blog.csdn.net/WhiffeYF/article/details/142256907

https://arxiv.org/pdf/2504.07440

https://www.doubao.com/chat/12537788412121346

在这里插入图片描述

速览

本文提出模型利用指数(MUI) 这一机制可解释性指标,通过计算推理时激活的神经元或特征比例来量化模型完成任务的“努力程度”。实验发现MUI与性能间存在逆对数关系,即模型效用定律,并由此推导出四个推论:指导训练诊断、暴露数据污染问题、实现更公平的模型比较、设计模型特定的数据集多样性。MUI作为传统性能指标的补充,能缓解有限基准测试的局限性,提升大语言模型评估的可泛化性。

详细总结:

1. 研究背景与动机
  • 大语言模型(LLMs)在学术、工业和日常应用中不可或缺,但评估方法难以跟上其快速发展。
  • 核心挑战:泛化问题,即如何从有限的基准测试中推断模型近乎无限的能力。
  • 传统性能指标仅关注结果,忽略模型完成任务的“努力程度”,需补充新的评估维度。
2. 核心指标:模型利用指数(MUI)
  • 定义:通过机制可解释性技术,量化模型推理时激活的神经元或特征占总能力的比例,衡量模型完成任务的“努力程度”。
  • 计算方式
    方法公式说明
    神经元基于MUIₙₑᵤᵣₒₙ = 激活神经元数 / 总神经元数选取每层贡献得分前1‰的神经元作为激活神经元
    SAE基于MUIբₑₐₜᵤᵣₑ = 激活特征数 / 总特征数选取每层前50个活跃特征作为激活特征
3. 模型效用定律
  • 核心发现:MUI与性能呈逆对数关系,公式为MUI = -3.534 ln(𝒫) + 26.049(𝒫为性能得分)。
  • 意义
    • 解释混合专家模型(MoE)性能优势:其优化目标之一是降低MUI。
    • 当性能为100%时,MUI下限约为9.77%,提示模型利用的极限压缩比。
4. 四个关键推论
  • 推论1:训练诊断

    • 定义四类优化方向:
      • 进化:性能提升且MUI降低(真正能力增强)
      • 积累:性能提升但MUI增加(特定能力强化)
      • 粗糙化:性能下降且MUI增加(能力退化)
      • 崩溃:性能下降且MUI降低(功能全面崩溃)
    • 应用:通过监控MUI变化,指导训练调整(如平衡数据集)。
  • 推论2:数据污染检测

    • 污染特征:在污染数据集上性能和MUI均上升,但在域外(OOD)任务上呈崩溃趋势。
    • 与特定能力优化的区别:污染会侵占OOD能力相关神经元,导致OOD性能下降。
  • 推论3:模型比较

    • 提出PUR(性能/MUI^0.5)作为综合指标,提升排名与专家判断的相关性。
    • 结果:PUR排名与参考排名的Spearman相关系数达89.4%,高于单纯性能指标的86.4%。
  • 推论4:数据多样性评估

    • MUI与数据多样性(能力、领域覆盖)正相关,600个跨三类能力的样本MUI相当于1200个单一能力样本。
    • 优势:MUI是模型特定的综合指标,优于传统领域/能力标签。
5. 实验验证
  • 数据集:涵盖数学推理(GSM8K、MATH)、编码(HumanEval、MBPP)、通用任务(ARC、BBH、MMLU),共28,708个样本。
  • 模型:Llama、Qwen、Gemma、OLMo等系列的7B-9B参数模型。
  • 关键结果
    • 不同模型和任务上,MUI与性能的逆对数关系稳定。
    • 消融实验显示,MUI不受回答正确性影响(Mann-Whitney U检验无显著差异)。
6. 局限性与未来方向
  • 局限:依赖当前可解释性技术,SAE模型稀缺且训练成本高。
  • 未来:结合更先进的可解释性技术,利用MUI指导模型预训练和微调。

关键问题:

  1. 问题:MUI与传统性能指标的核心区别是什么?为何能缓解大语言模型评估的泛化问题?
    答案:传统性能指标仅衡量任务结果,MUI则量化模型完成任务的“努力程度”(激活神经元/特征比例)。由于MUI反映模型能力的利用效率,即使在有限基准上,也能通过MUI与性能的逆对数关系推断模型真实能力,从而缓解基准测试有限性导致的泛化问题。

  2. 问题:模型效用定律如何解释混合专家模型(MoE)的性能优势?该定律揭示了模型利用的什么关键特性?
    答案:MoE模型在优化中引入稀疏性目标,相当于最小化MUI。根据效用定律,更低的MUI可对应更高性能,因此MoE的性能优势不仅源于参数规模,还因其更低的MUI。该定律揭示:高效的模型应能用更少的“努力”(更低MUI)实现更高性能,且存在极限压缩比(性能100%时MUI约9.77%)。

  3. 问题:在模型训练中,如何通过MUI变化判断训练是否需要调整?请结合具体优化方向举例说明。
    答案:通过MUI与性能的变化方向判断:

    • 若呈“积累”趋势(如Qwen2.5-Coder在HumanEval上性能提升但MUI增加),需继续训练以实现“进化”;
    • 若同时存在“积累”和“粗糙化”(如CodeLlama在GSM8K上性能下降且MUI增加),需平衡数据集;
    • 若出现“崩溃”(如污染模型在OOD任务上),需立即停止训练并检查数据污染。

论文翻译

模型效用定律:通过机制可解释性指标评估大语言模型,超越性能本身

摘要

大型语言模型(LLMs)在学术界、工业界和日常应用中已变得不可或缺,然而当前的评估方法难以跟上其快速发展的步伐。大语言模型时代评估工作的一个核心挑战是泛化问题:如何从必然有限的基准测试中推断出模型近乎无限的能力。为应对这一挑战,我们提出了模型利用指数(MUI),这是一种机制可解释性增强的指标,作为对传统性能分数的补充。MUI量化了模型在完成任务时所付出的“努力程度”,其定义为推理过程中被激活的神经元或特征所占的比例。直观而言,一个真正有能力的模型应该能用更少的努力实现更高的性能。在主流大型语言模型上进行的大量实验表明,MUI与性能之间存在一致的逆对数关系,我们将其表述为效用定律。从该定律出发,我们得出四个实用推论,分别用于(i)指导训练诊断,(ii)揭示数据污染问题,(iii)实现更公平的模型比较,以及(iv)设计特定于模型的数据集多样性。

1 引言

近年来,评估大型语言模型(LLMs)的研究兴趣激增。严谨的评估不仅能发现模型的弱点以指导优化,还有助于为下一代模型确定新的目标。尽管已经出现了许多基准测试,但研究人员强调评估中存在泛化问题[6]。随着数据、计算资源和参数规模的不断增加,大型语言模型的能力几乎可以无限扩展(即遵循缩放定律),但由于实际效率方面的考虑,基准测试的规模仍然有限。因此,在大型语言模型时代,一个关键挑战在于如何从有限的测试样本中估算模型的真实性能和潜力。

在本文中,我们提出了一种新的指标——模型利用指数(MUI),用于可泛化的评估。其基本思路类似于人类评估:评判一个人时,我们不仅要看其成就,还要看其付出的努力。MUI针对大型语言模型的“努力程度”这一维度,对传统的性能指标进行补充。显然,其潜在假设是,付出更少努力却能取得更好结果(即更低的MUI和更高的性能分数)的模型,真实能力更强。然而,如何量化模型的努力程度呢?

受机制可解释性最新进展的启发,我们将MUI定义为衡量模型在推理过程中对自身能力利用程度的指标,通过完成给定任务时被激活的神经元或特征所占的比例来计算。在该领域,人们认为,一旦模型经过充分训练,其所有能力都编码在神经元中或神经元间独特的激活模式中。神经元层面的研究支持这一前提,表明特定概念始终具有局部定位性[28]。当模型生成某个特定概念时,同一组神经元的贡献远大于其他神经元,它们负责调用该能力。同样,另一类研究(如稀疏自编码器(SAE))不局限于神经元定位,而是通过将神经元激活模式映射到稀疏特征空间来解释模型行为[20]。当模型展现出特定技能时,只有少数特征会被激活。因此,如图1所示,与模型的整体能力相比,解决给定任务仅会利用其一部分神经元或特征(内部高亮圆圈)。我们的MUI将这一比例量化,作为衡量模型努力程度的指标。

通过将MUI与性能指标相结合,我们实现了一种可泛化的评估,超越了有限基准测试的局限性,从而缓解了各种相关的评估问题。我们进行了一系列实验以验证相关观点。所得见解总结如下:
• 模型效用定律。与我们的假设一致,MUI与性能呈负对数关系。这也解释了为何稀疏混合专家(MoE)模型性能更优——这不仅是因为其参数规模更大,还因为引入了降低模型利用率的额外优化目标。我们的定律指出了一个极限稀疏比(见3.2节)。
• 推论1(训练诊断)。MUI的增加可能预示着未见过的能力存在潜在退化。我们基于MUI和性能曲线总结出四个优化方向,以便利用有限的测试样本来深入分析训练过程(见3.3节)。
• 推论2(数据污染分析)。与标准的预训练或后训练不同,数据污染会在提高MUI的同时虚增性能,并伴随着特定的优化轨迹(见3.4节)。
• 推论3(公平的模型比较)。能力更强的模型应同时表现出更高的性能和更低的MUI。这也解释了为何两个在排行榜上得分相近的模型,在用户体验上可能存在显著差异;更高的MUI表明那些模型依赖的是 brute utilisation,而非增强的基本能力(见3.5节)。
• 推论4(数据多样性)。对于固定的模型,最优的数据多样性应能激发模型能力的最大广度。与传统的领域和能力等数据多样性衡量指标相比,MUI不仅是一个综合指标,还强调了多样性具有模型特异性(见3.6节)。

当然,MUI仍然受到当前可解释性技术水平的限制,而这些技术的进步将不断推动更精确的模型利用评估。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSPhD-winston-杨帆

给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值