论文速读|Rmb: Comprehensively Benchmarking Reward Models In LLM Alignment
论文信息:
简介:
随着大型语言模型(LLMs)在各种应用中的广泛使用,如何使其行为符合人类偏好(即对齐)成为一个关键问题。奖励模型(RMs)在这一对齐过程中起着核心作用,它作为人类偏好的代理,指导LLMs的行为。然而,当前对奖励模型的评估存在局限性:一方面,评估数据的分布有限,无法全面覆盖人类偏好的多样性;另一方面,现有的评估方法(如成对偏好判断)与对齐目标的直接相关性不足,导致评估结果可能无法准确反映奖励模型在下游对齐任务中的实际表现。
本文旨在解决现有奖励模型评估的不足,提出一个更全面、更细粒度的奖励模型基准(RMB),以更好地评估奖励模型在指导LLMs对齐优化中的有效性。
&n