文章目录
1. 背景
开源大模型如LLaMA,Qwen,Baichuan等主要都是使用通用数据进行训练而来,其对于不同下游的使用场景和垂直领域的效果有待进一步提升,衍生出了微调训练相关的需求,包含预训练
(pt),指令微
调(sft),基于人工反馈的对齐
(rlhf)等全链路。但大模型训练对于显存和算力的要求较高,同时也需要下游开发者对大模型本身的技术有一定了解,具有一定的门槛。
LLaMA-Factory项目的目标是整合主流的各种高效训练微调技术,适配市场主流开源模型,形成一个功能丰富,适配性好的训练框架。项目提供了多个高层次抽象的调用接口
,包含多阶段训练
,推理测试
,benchmark评测
,API Server
等,使开发者开箱即用。同时借鉴 Stable Diffsion WebUI
相关,本项目提供了基于gradio的网页版工作台,方便初学者可以迅速上手操作,开发出自己的第一个模型。
本项目实现的目标:
- 原始模型直接推理
- 自定义数据集构建
- 基于LoRA的sft指令微调
- 动态合并LoRA的推理
- 批量预测和训练效果评估
- LoRA模型合并导出
- 一站式webui board的使用
- API Server的启动与调用
- 大模型主流