使用Brev.dev Notebooks微调Mistral-7B模型实战指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00415/article/details/148945940

使用Brev.dev Notebooks微调Mistral-7B模型实战指南

前言：为什么选择Mistral-7B进行微调？

Mistral-7B是当前开源大语言模型中的佼佼者，在多项基准测试中表现优于Llama 2 13B模型。本教程将指导您如何使用QLoRA（量化与低秩适配结合的微调方法）在自定义数据集上高效微调Mistral-7B模型，整个过程仅需约1美元的成本。

一、准备工作

1.1 数据准备

微调前需要准备训练数据集，推荐使用JSON Lines格式（.jsonl），每行包含一个训练样本。常见数据结构有两种：

问答对格式：

{"input": "问题文本", "output": "答案文本"}

单文本格式（适合续写任务）：

{"note": "需要模型学习的文本内容"}

数据处理建议：

对于长文本，建议分割成适当长度的片段
保持上下文完整性
可使用脚本批量转换原始数据格式

1.2 环境配置

推荐使用配备24GB显存的A10G GPU，这是性价比很高的选择。环境需要安装以下关键Python包：

!pip install -q -U bitsandbytes transformers peft accelerate datasets scipy ipywidgets matplotlib

二、模型加载与配置

2.1 4位量化加载

使用bitsandbytes进行4位量化加载，显著降低显存需求：

from transformers import AutoModelForCausalLM, BitsAndBytesConfig
import torch

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,  # 启用双重量化
    bnb_4bit_quant_type="nf4",       # 使用4位NormalFloat量化
    bnb_4bit_compute_dtype=torch.bfloat16
)

model = AutoModelForCausalLM.from_pretrained(
    "mistralai/Mistral-7B-v0.1",
    quantization_config=bnb_config,
    device_map="auto"
)

2.2 分词器设置

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(
    "mistralai/Mistral-7B-v0.1",
    padding_side="left",    # 左侧填充节省内存
    add_eos_token=True,     # 添加结束标记
    add_bos_token=True      # 添加开始标记
)
tokenizer.pad_token = tokenizer.eos_token  # 使用EOS作为填充标记

三、数据预处理

3.1 提示模板设计

根据任务类型设计合适的提示模板：

对于单文本生成任务：

def formatting_func(example):
    return f"### The following is a note by User: {example['note']}"

对于问答任务：

def formatting_func(example):
    return f"### Question: {example['input']}\n### Answer: {example['output']}"

3.2 数据加载与分词

from datasets import load_dataset

train_dataset = load_dataset('json', data_files='train.jsonl', split='train')
eval_dataset = load_dataset('json', data_files='eval.jsonl', split='train')

def tokenize_function(example):
    return tokenizer(formatting_func(example))

四、训练配置

4.1 确定合适的分词长度

分析数据长度分布很重要：

lengths = [len(tokenize_function(x)["input_ids"]) for x in train_dataset]
import matplotlib.pyplot as plt
plt.hist(lengths, bins=20)
plt.show()

根据分布结果设置max_length参数，通常选择覆盖大部分数据的长度。

4.2 解决OOM问题

如果遇到显存不足错误，可以尝试：

减小max_length
降低batch_size
使用梯度累积

终止占用显存的进程：

nvidia-smi  # 查看进程ID
kill [PID]   # 终止指定进程

五、模型训练

5.1 配置LoRA参数

from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=8,             # 低秩矩阵的维度
    lora_alpha=16,   # 缩放因子
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, lora_config)

5.2 训练参数设置

from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="./results",
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=2e-4,
    logging_steps=10,
    num_train_epochs=3,
    save_strategy="steps",
    save_steps=500,
    evaluation_strategy="steps",
    eval_steps=500,
    report_to="wandb",  # 可选: 使用Weights & Biases记录
    fp16=True
)

六、训练与评估

from transformers import Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    tokenizer=tokenizer
)

trainer.train()

七、模型保存与使用

训练完成后，保存适配器权重：

model.save_pretrained("mistral-lora-adapters")

使用时加载基础模型和适配器：

from peft import PeftModel

base_model = AutoModelForCausalLM.from_pretrained(...)
model = PeftModel.from_pretrained(base_model, "mistral-lora-adapters")