-
模型:https://huggingface.co/allenai
-
技术报告:https://allenai.org/papers/tulu-3-report.pdf
-
数据集:https://huggingface.co/collections/allenai/tulu-3-datasets-673b8df14442393f7213f372
-
GitHub:https://github.com/allenai/open-instruct
-
Demo:https://playground.allenai.org/
下表展示了 Ai2 开源的模型、数据集和代码:
Ai2 表示,Tülu 3 突破了后训练研究的界限,缩小了开放和封闭微调配方之间的性能差距。
为此,他们创建了新的数据集和新的训练流程。他们还提出了直接使用强化学习在可验证问题上训练的新方法,以及使用模型自己的生成结果创建高性能偏好数据的新方法。
加上更多优化细节,得到的 Tülu 3 系列模型明显优于同等规模的其它模型。
8B 模型在各基准上的表现