英文名称: A Minimaximalist Approach to Reinforcement Learning from Human Feedback 中文名称: 一种极简极大化的强化学习方法:来自人类反馈的学习 链接: http://arxiv.org/abs/2401.04056v1 作者: Gokul Swamy, Christoph Dann, Rahul Kidambi, Zhiwei Steven Wu, Alekh Agarwal 机构: Google Research 日期: 2024-01-08 |
1 读后感
"Minimax Winner" 是博弈论中的一个概念,指的是在最坏情况下尽量最大化自己的收益。在这里将偏好学习视为一种零和博弈。
我觉得它的原理是这样的:大型模型是通过大量数据进行训练得到的生成模型,因此在生成结果时可能存在不稳定性,有时会表现出某些数据特征,而有时则表现出其他特征。有时候它可能会产生幻觉或相互矛盾的结果。
提出的方法相当于针对同一个问题生成多种答案,然后让模型选择最佳答案。选择过程实际上是让模型根据已有知识进行思考和推理,以反映大多数人的偏好,并选择更合逻辑,并使用获取到的数据对模型进行训练。
从论文内容来看,我很喜欢引言部分的开拓思路分析,但方法部分使用了过多符号表达,推理较难理解。不过结果并不复杂。
2 摘要
目标:提出一种基于模型自我对弈的强化学习算法。
方法:构建自我对弈偏好优化(SPO)算法,不需要训练奖励模型,也不需要不稳定的对抗训练,因此实施起来相当简单。通过单一代理自我对弈来计算最优策略,采样多条轨迹,让评价者比较并使用胜利比例作为奖励。
结论:在连续控制任务中,SPO 算法比基