文章主要内容总结
该论文围绕大型语言模型(LLMs)的推理效率展开,聚焦测试时计算(Test-Time Compute, TTC)策略,旨在解决LLMs推理时计算资源分配不合理(对简单问题过度思考、对复杂问题思考不足)的问题。
- 核心背景:LLMs虽在多任务中表现优异,但推理时通常采用固定计算量,导致效率低下。TTC方法通过在推理时动态分配计算资源提升效率,但现有方法存在资源浪费问题。
- 分类框架:提出两层分类法
- L1(可控方法):严格遵循用户预设的计算预算(如令牌数、采样次数),通过提示词、有监督微调(SFT)、强化学习(RL)等方式实现。
- L2(自适应方法):无需预设预算,根据任务难度或模型置信度动态调整计算资源,同样涵盖提示词、SFT、RL等技术路径。
- 实证分析:基准测试了主流专有LLMs(如Claude 3.7、GPT-o1等),揭示其在推理性能与令牌消耗间的权衡,发现现有模型存在“过度思考”(简单问题)和“思考不足”(复杂问题)的普遍问题。
- 未来方向:探讨混合思维模型(结合快速与慢速推理)、跨模态扩展(如多模态LLMs的TTC)等趋势,指出需解决鲁棒性、可扩展性等挑战。
创新点
- 新型分类框架