文章目录
0. 引言
Hugging Face Transformers 是一个非常流行的库,用于处理自然语言处理任务。在使用该库进行模型训练时,可能会遇到显存(GPU内存)不足的问题。本文介绍可以尝试的方法来降低显存占用,
1. 减少批次大小 (Batch Size)
批次大小是影响显存占用的主要因素之一。减小批次大小可以显著减少显存消耗,但可能会延长训练时间。
TrainingArguments(
per_device_train_batch_size=2/4/... # 每个设备上的训练批次大小
)
如果你有多个GPU,则实际的每轮训练批次大小将是每个设备上的批次大小乘以GPU的数量。
2. 使用 Gradient Accumulation
当你减小了批次大小但仍然希望保持较大的有效批次大小时,可