LoRA 合并
当我们基于预训练模型训练好 LoRA 适配器后,我们不希望在每次推理的时候分别加载预训练模型和 LoRA 适配器,因此我们需要将预训练模型和 LoRA 适配器合并导出成一个模型。根据是否量化以及量化算法的不同,导出的配置文件有所区别。
1.指令
可以通过 llamafactory-cli export merge_config.yaml
来合并模型。其中 merge_config.yaml
需要根据不同的情况进行配置。
2.量化
量化通过数据精度压缩有效的减少了显存使用并加速推理。LLaMA- Factory 支持多种量化方法,包括
- AQLM
- AWQ
- GPTQ
- QLoRA
- …
1.后训练量化方法
GPTQ 等**后训练量化方法(Post Training Quantization)**是一种在训练后对预训练模型进行量化的方法。
我们通过量化技术将高精度表示的预训练模型转换为低精度的模型,从而在避免过多损失模型性能的情况下减少显存占用并加速推理,我们希望低精度数据类型在有限的表示范围内尽可能地接近高精度数据类型的表示,
因此我们需要指定量化位数 export_quantization_bit
以及校准数据集 export_quantization_dataset
。
在进行模型合并时,请指定:
model_name_or_path
: 预训练模型的名称或路径template
: