
强化学习实践
文章平均质量分 95
以仓库实践分析为基础,配合算法,辅助工程和科学研究。
五阿哥爱跳舞
零散知识记录,分享投稿全流程经验;小红薯同名
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习框架VeRL全面解析(架构、调试、修改与应用)
本文介绍了字节跳动推出的VeRL强化学习框架及其核心特点。VeRL针对LLM时代需求,提出了Single-controller、Multi-controller和Hybrid Engine三大创新设计,简化了RL工作流程并提升效率。文章详细阐述了VeRL的分布式实现新范式,比较了单控制器与多控制器方案的优劣,并介绍了混合控制器思路。此外,还提供了VeRL调试方法指南,包括Ray分布式调试插件安装和断点设置技巧。原创 2025-07-18 17:05:24 · 235 阅读 · 0 评论 -
强化学习算法简明教程-tutorial
强化学习(RL)适用于难以获取标注数据或正确答案未知的场景,智能体通过与环境互动获得奖励信号来学习最优策略。与监督学习不同,RL处理的是序列数据,依赖试错探索,且奖励信号具有延迟性。强化学习可分为基于价值的智能体(学习价值函数)、基于策略的智能体(直接学习策略)和演员-评论员智能体(结合两者)。关键概念包括状态与观测的区别(完全可观测为MDP,部分可观测为POMDP)、动作空间(离散或连续)、策略函数(随机性策略更优)、价值函数(评估状态好坏)以及模型(状态转移概率和奖励函数)。智能体可通过有模型(学习环境原创 2024-06-13 13:51:49 · 375 阅读 · 0 评论