Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMs

文章主要内容总结

该论文围绕大型语言模型(LLMs)的推理效率展开,聚焦测试时计算(Test-Time Compute, TTC)策略,旨在解决LLMs推理时计算资源分配不合理(对简单问题过度思考、对复杂问题思考不足)的问题。

  1. 核心背景:LLMs虽在多任务中表现优异,但推理时通常采用固定计算量,导致效率低下。TTC方法通过在推理时动态分配计算资源提升效率,但现有方法存在资源浪费问题。
  2. 分类框架:提出两层分类法
    • L1(可控方法):严格遵循用户预设的计算预算(如令牌数、采样次数),通过提示词、有监督微调(SFT)、强化学习(RL)等方式实现。
    • L2(自适应方法):无需预设预算,根据任务难度或模型置信度动态调整计算资源,同样涵盖提示词、SFT、RL等技术路径。
  3. 实证分析:基准测试了主流专有LLMs(如Claude 3.7、GPT-o1等),揭示其在推理性能与令牌消耗间的权衡,发现现有模型存在“过度思考”(简单问题)和“思考不足”(复杂问题)的普遍问题。
  4. 未来方向:探讨混合思维模型(结合快速与慢速推理)、跨模态扩展(如多模态LLMs的TTC)等趋势,指出需解决鲁棒性、可扩展性等挑战。

创新点

  1. 新型分类框架
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值