微调时冻结批处理正则化层(BN)的意义在哪

最新推荐文章于 2025-04-14 12:17:19 发布

Thomas_Cai

最新推荐文章于 2025-04-14 12:17:19 发布

阅读量1.4k

点赞数 13

CC 4.0 BY-SA版权

分类专栏：深度学习机器学习工程技术文章标签：人工智能深度学习批正则化层模型训练

在这里插入图片描述

一、前言

冻结 Batch Normalization 层（BN 层）是深度学习训练过程中常用的一种技巧，特别是在迁移学习或 微调（fine-tuning） 时。冻结 BN 层意味着在训练过程中不更新 BN 层的参数（如均值、方差、缩放和偏移参数）。

Batch Normalization 的作用是对每个 mini-batch 内的数据进行归一化，使其均值接近 0，方差接近 1。它有以下参数：

在训练过程中：

稳定训练过程
- 在小批量数据或微调阶段： BN 层对每个 batch 计算统计量（均值、方差），但如果 batch size 很小，这些统计量可能不稳定，导致模型训练波动较大。冻结 BN 层可以防止这种不稳定。
保持原有模型的统计信息
- 在迁移学习中：预训练模型的 BN 层已经在大规模数据集上学习到了较好的 running_mean 和 running_var。冻结它们可以保留这些信息，避免在新的小数据集上被破坏。
减少计算开销
- 冻结 BN 层意味着在前向传播时，不需要重新计算新的均值和方差。这在训练时可以提高计算效率。
防止过拟合
- 在某些场景中，BN 层的动态调整可能导致模型对当前数据集过于敏感，冻结它们可以减少过拟合风险。

在 PyTorch 中，你可以通过以下方法冻结 BN 层：

def freeze_bn(model):
    for layer in model.modules():
        if isinstance(layer, nn.BatchNorm2d) or isinstance

200万优质内容无限畅学