- 博客(2)
- 收藏
- 关注
原创 Deepseek R1的应用案例,三个模板快速应用到自身任务
该项目旨在重现 DeepSeek R1训练模式,特别是用于文本到图的信息提取任务。该项目由多个部分组成,包括合成数据、监督训练和GPRO强化学习训练。训练过程分为合成数据生成、有监督训练和强化学习三个主要阶段。数据合成:基于输入文本和提取的 JSON,生成思维链有监督训练:以监督方式训练模型以进行文本到图形的提取,促使模型以正确的格式返回数据。强化学习:基于文本到图形相关的奖励函数和上述合成数据进行GRPO训练。奖励函数包括格式奖励、JSON 奖励和 F1 奖励。
2025-02-11 22:44:13
571
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人