大模型+强化学习_自我对弈偏好优化

最新推荐文章于 2025-02-11 11:54:21 发布

原创

最新推荐文章于 2025-02-11 11:54:21 发布 · 1.4k 阅读

·

22

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

英文名称: A Minimaximalist Approach to Reinforcement Learning from Human Feedback
中文名称: 一种极简极大化的强化学习方法：来自人类反馈的学习
链接: http://arxiv.org/abs/2401.04056v1
作者: Gokul Swamy, Christoph Dann, Rahul Kidambi, Zhiwei Steven Wu, Alekh Agarwal
机构: Google Research
日期: 2024-01-08

1 读后感

"Minimax Winner" 是博弈论中的一个概念，指的是在最坏情况下尽量最大化自己的收益。在这里将偏好学习视为一种零和博弈。

我觉得它的原理是这样的：大型模型是通过大量数据进行训练得到的生成模型，因此在生成结果时可能存在不稳定性，有时会表现出某些数据特征，而有时则表现出其他特征。有时候它可能会产生幻觉或相互矛盾的结果。

提出的方法相当于针对同一个问题生成多种答案，然后让模型选择最佳答案。选择过程实际上是让模型根据已有知识进行思考和推理，以反映大多数人的偏好，并选择更合逻辑，并使用获取到的数据对模型进行训练。

从论文内容来看，我很喜欢引言部分的开拓思路分析，但方法部分使用了过多符号表达，推理较难理解。不过结果并不复杂。

2 摘要

目标：提出一种基于模型自我对弈的强化学习算法。

方法：构建自我对弈偏好优化（SPO）算法，不需要训练奖励模型，也不需要不稳定的对抗训练，因此实施起来相当简单。通过单一代理自我对弈来计算最优策略，采样多条轨迹，让评价者比较并使用胜利比例作为奖励。

结论：在连续控制任务中，SPO 算法比基

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄17年

626
原创

2540
点赞

7200
收藏

4922
粉丝

关注

私信

热门文章

分类专栏

大模型 47篇
论文阅读 96篇
深度学习 46篇
前端 1篇
机器学习 40篇
研究思考 1篇
算法实战 28篇
Pytorch 14篇
时序 3篇
Docker 4篇
股票数据分析 9篇
大数据 30篇
少儿编程 3篇
移动开发 112篇
linux 34篇
工具 47篇
搭建网站和服务 9篇
Arduino 18篇
Python 27篇
图形图像 20篇
区块链
随笔 9篇
自然语言处理 29篇
未发 1篇

展开全部收起

上一篇：: 大模型+强化学习_利用AI反馈扩展强化学习_RLAIF

下一篇：: 大模型+强化学习_在线交互调参_GLAM

最新评论

Obsidian_安装
:)网上邻居: /usr/share/applications/obsidian.desktop中，第一行漏掉了“[”，应该修改为“[Desktop Entry]”
Django的异步任务队列管理_Celery
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。通过 funboost web manager 全方位可视化管理和查看你的函数运行情况，无需看文件日志。 https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html pip install funboost
论文阅读_Citrus_在医学语言模型中利用专家认知路径以支持高级医疗决策
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读_Search-R1_大模型+搜索引擎
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
grub无法正常启动的解决方法
llililala: 解决了么QAQ

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。