DeepSpeed LoRa微调时： RuntimeError: element 0 of tensors does not require grad and does not have a grad

最新推荐文章于 2025-05-30 19:30:00 发布

原创最新推荐文章于 2025-05-30 19:30:00 发布 · 380 阅读

0 ·

CC 4.0 BY-SA版权

请明确标注出处

文章标签：

#DeepSpeed #LoRa #LLM

杂专栏收录该内容

85 篇文章

订阅专栏

        if training_args.gradient_checkpointing:
            # Should be enabled automatically by Trainer if args.gradient_checkpointing is True
            model.enable_input_require_grads() # Usually needed for PEFT + grad checkpointing
            print("[*] Gradient checkpointing enabled via TrainingArguments.")

启用enable_input_require_grads功能。

model.enable_input_require_grads() 在使用 PEFT（Parameter-Efficient Fine-Tuning）与梯度检查点（gradient checkpointing）结合时起着关键作用。我来解释它的作用和为什么它会导致你的梯度问题：
model.enable_input_require_grads() 的作用
这个方法解决了 PEFT 和梯度检查点配合使用时的一个特殊问题：

梯度检查点的机制：梯度检查点通过在前向传播过程中不保存所有中间激活值来节省内存，而是在反向传播时按需重新计算这些激活值。
PEFT 的特点：只有部分参数（如 LoRA 适配器）需要梯度，而基础模型参数被冻结。
问题所在：当结合使用时，梯度检查点会认为，由于输入来自冻结参数的层，因此这些输入不需要梯度。这会中断梯度流动链，导致即使 LoRA 参数被标记为可训练，它们也接收不到梯度。
解决方案：model.enable_input_require_grads() 通过注册一个前向钩子，强制模型在前向传播过程中保留输入的梯度信息，即使这些输入来自冻结的部分，确保梯度能正确传播到 LoRA 参数。

由于不小心注释了这个导致的惨案。。