pytorch 16 迁移学习核心技巧·从模型加载到按需初始化模块权重，再到各layer分组设置学习率

万里鹏程转瞬至

已于 2022-03-31 15:05:09 修改

阅读量840

点赞数

CC 4.0 BY-SA版权

分类专栏： pytorch工程实践文章标签： pytorch 深度学习机器学习

于 2022-01-12 11:15:59 首次发布

本文链接：https://blog.csdn.net/a486259/article/details/122446538

pytorch工程实践专栏收录该内容

51 篇文章 ¥59.90 ¥99.00

订阅专栏

这篇博客介绍了在PyTorch中进行迁移学习时如何实现任意加载模型权重，按需进行权重初始化以及按需设置学习率。包括处理name和shape不匹配的权重加载，对模型的特定部分进行初始化，以及对模型的不同部分设置不同的学习率，包括冻结某些层和分组设置学习率的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实现加载模型任意权重，自动跳过不匹配的layer（name不匹配，权重shape不匹配），该操作通常用在迁移学习模型加载中。

实现对模型中不同moudle甚至不同name的layer进行不同方式的初始化，该操作通常用在迁移学习模型初始化中。

实现对模型中不同的部分设置不同的学习率（支持冻结某些layer），该操作通常用在迁移学习模型训练阶段中。

1、实现任意加载模型权重

正常来说，pytorch中模型的保存就是torch.save(path), 模型的加载就是model=torch.load(path)，但是为了能保持对模型的灵活操作能力，建议使用torch.save(model.module.state_dict())只保存其参数。在迁移学习过程中的模型加载，通常会因为修改了网络结构，导致使用torch.load(path)出现name不匹配。此外，在进行模型结构调整中新模型想使用旧模型的权重，也会导致权重shape不匹配。
对于仅有name不匹配的模型权重加载可以使用下列代码

model_dict = model.state_dict()
pretrained_dict = torch.load(path)
new_dict = {k: v for k, v in pretrained_dict.items() if k in model_dict}
model_dict.update(new_dict)
model.load_state_dict(model_dict)

对于仅有shape不匹配的模型权重加载可以使用下列代码&nb

了解本专栏