LLMs之LLaMA-7B-QLoRA：基于Alpaca-Lora代码在CentOS和多卡(A800+并行技术)实现全流程完整复现LLaMA-7B—安装依赖、转换为HF模型文件、模型微调(QLoRA+

一个处女座的程序猿

已于 2024-04-08 14:52:59 修改

阅读量1.0k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： AI/AGI NLP/LLMs 精选(人工智能+AIGC)-高级文章标签： llama centos 基础大模型自然语言处理

于 2023-07-04 00:24:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41185868/article/details/131526139

精选(人工智能+AIGC)-高级同时被 3 个专栏收录

128 篇文章 ¥199.90 ¥299.90

订阅专栏

831 篇文章

订阅专栏

347 篇文章

订阅专栏

本文档详细介绍了如何在CentOS系统、多张A800 GPU环境下，使用Alpaca-Lora代码复现LLaMA-7B模型的QLoRA微调过程。内容涵盖环境配置、虚拟环境创建、模型文件转换、数据集准备、模型微调与显存占用检查，以及模型推理的两种方法和显存占用对比。此外，还涉及到了微调LLaMA-65B-QLoRA大模型的单卡与多卡方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LLMs之LLaMA-7B-QLoRA：基于Alpaca-Lora代码在CentOS和多卡(A800+并行技术)实现全流程完整复现LLaMA-7B—安装依赖、转换为HF模型文件、构造数据集(Alpaca利用ChatGPT生成52K指令数据集+多份json格式)、模型微调(微调7B-QLoRA=单卡/8卡【7B仅2H+各卡不到6G】—微调65B-QLoRA(单卡GPU微调=5个小时+仅48G，多卡微调【8张GPU】=每单卡仅10G))、模型推理(仅7G+对比终端命令/llama.cpp/Docker封装)图文教程之详细攻略

目录

基于Alpaca-Lora代码在CentOS和多卡(A800+并行技术)实现全流程完整复现LLaMA-7B—安装依赖、转换为HF模型文件、模型微调(QLoRA+单卡/多卡)、模型推理(对比终端命令/llama.cpp/Docker封装)图文教程之详细攻略

1、模型运行的前置准备

1.1、环境配置：CentOS 7+CPUs【1TB+64个CPU+16核】+GPUs【8卡A800-80G】

1.2、创建并激活虚拟环境+安装依赖：qlora-venv-py310-cu117

Py之accelerate：accelerate的简介、安装、使用方法之详细攻略

1.3、模型文件格式转换(HF格式)

2.1、源自Alpaca利用ChatGPT生成52K指令数据集(多份json格式)

LLMs之Data：Self Instruction思想(一种生成指令数据集的方法论—主要用在指令微调阶段)的简介、Alpaca/BELLE应用、实战案例代码实现之详细攻略

3、模型微调：

3.1、命令微调：复现LLaMA_7B = 基于LLaMA_7b_HF模型+QLoRA微调+alpaca_data_cleaned.json数据集——不到2小时——获得llama-7b-qlora文件

PTMs：QLoRA技巧之源码解读(qlora.py文件)—解析命令与加载参数→数据预处理→模型训练+评估+推理

3.2、查看显存占用：8块A800-80G+单块未超4G

3.3、查看生成文件

4、模型推理

T1、基于合并后的权重文件进行模型推理：单卡GPU+显存占用不到6G

(1)、合并模型权重：llama-7b-merge = hf-llama-model + llama-7b-qlora

LLMs之llama_7b_qlora：利用export_hf_checkpoint.py(模型权重合并文件)将LORA模型的权重合并回原始模型的权重(hf_llama_model+llama_7b_qlora)，并保存到指定的检查点文件中

(2)、基于合并后的权重文件进行模型推理

LLMs之llama_7b_qlora：利用inference.py(基于合并后的权重文件进行模型推理)将基于之前合并Lora模型权重后的hl_llama_7b模型进行文本生成(基于用户交互输入的上下文生成新文本)

显存占用：显存占用不到6G

将lora权重合并base模型权重还可以通过merge_and_unload()方法

T2、不进行合并权重，直接进行推理：单卡GPU+显存占用7G左右

LLMs之llama_7b_qlora：利用inference_qlora.py(模型推理)使用LORA权重来初始化预训练的LLAMA模型来进行文本生成(基于用户交互输入的上下文生成新文本)

显存占用：显存占用7G左右

5、微调LLaMA-65B-QLoRA大模型

T1、单卡GPU微调：5个小时+仅48G

T2、多卡微调(8张GPU)：每单卡仅10G

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一个处女座的程序猿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。