总体概要
本文介绍了自奖励语言模型(Self-Rewarding Language Models, SRLMs)的概念,这是一种能够自我对齐的语言模型,通过迭代直接偏好优化(Iterative DPO)训练,不仅提高了遵循指令的能力,还增强了自我奖励模型的质量。SRLMs通过LLM-as-a-Judge提示机制自我生成奖励,从而在训练过程中不断自我改进。实验结果表明,经过三轮迭代训练的SRLMs在AlpacaEval 2.0排行榜上超越了包括Claude 2、Gemini Pro和GPT-4 0613在内的多个现有系统。文章的核心思想是探索了一种新的训练范式,使得语言模型能够在没有人类反馈的情况下,通过自我奖励机制实现持续的自我提升,为构建超人类智能代理提供了新的可能性。
核心要点
-
自奖励语言模型的提出:
- 本文提出了自奖励语言模型(Self-Rewarding Language Models)的概念,旨在通过模型自身生成的反馈信号来训练和提高其指令遵循能力和奖励建模能力。这种方法避免了依赖人类偏好数据的瓶颈,并允许模型在迭代训练中不断自我改进。
-
迭代DPO训练框架:
- 采用迭代直接偏好优化(DPO)训练框架,模型在每次迭代中通过自我生成的指令创建和评估新的训练样本,从而在后续迭代中使用这些样本进行训练,实现了指令遵循和奖励建模能力的同步提升。
-
实验设置与结果:
- 实验以Llama 2 70B为基础模型,通过迭代DPO训练,模型在AlpacaEval 2.0排行榜上超越了包括Claude 2、Gemini Pr