PyTorch_Practice项目中的GAN实现详解：从理论到实践

郁如炜

于 2025-06-30 09:25:36 发布

阅读量273

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/gitblog_00727/article/details/149015370

PyTorch_Practice项目中的GAN实现详解：从理论到实践

引言

生成对抗网络(GAN)是深度学习领域最具创新性的技术之一，它通过两个神经网络(生成器和判别器)的对抗训练，能够生成逼真的数据样本。本文将深入解析PyTorch_Practice项目中基于DCGAN(深度卷积生成对抗网络)的实现，帮助读者理解GAN的核心原理和实际应用。

项目环境配置

在开始之前，我们需要确保环境配置正确：

import os
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader
from torchvision import transforms, utils
import matplotlib.pyplot as plt
import numpy as np
import imageio

项目使用了CelebA人脸数据集，并配置了以下关键参数：

图像尺寸：64x64
噪声向量维度(nz)：100
生成器特征图数量(ngf)：128
判别器特征图数量(ndf)：128
训练周期(num_epochs)：20
批量大小(batch_size)：64
学习率(lr)：0.0002

数据准备与预处理

数据预处理是GAN训练的重要环节，项目中使用了以下转换：

d_transforms = transforms.Compose([
    transforms.Resize(image_size),
    transforms.CenterCrop(image_size),
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # 将像素值归一化到[-1,1]范围
])

这种归一化处理有助于模型训练的稳定性。CelebA数据集包含大量名人面部图像，非常适合用于GAN的训练。

模型架构

生成器网络(Generator)

生成器负责从随机噪声中生成逼真图像。项目中的生成器采用转置卷积(Transposed Convolution)结构：

输入：100维随机噪声向量
通过多个转置卷积层逐步上采样
最终输出64x64的RGB图像

关键设计点：

使用ReLU激活函数(输出层除外)
输出层使用Tanh激活函数，将值限制在[-1,1]范围
批归一化(BatchNorm)加速训练

判别器网络(Discriminator)

判别器负责区分真实图像和生成图像：

输入：64x64 RGB图像
通过多个卷积层逐步下采样
最终输出一个标量，表示输入图像为真的概率

关键设计点：

使用LeakyReLU激活函数(负斜率0.2)
不使用批归一化(有助于梯度流动)
输出层使用Sigmoid激活函数

训练过程详解

GAN的训练过程是生成器和判别器的对抗过程：

for epoch in range(num_epochs):
    for i, data in enumerate(train_loader):
        # 1. 训练判别器
        net_d.zero_grad()
        
        # 真实图像训练
        real_img = data.to(device)
        real_label = torch.full((b_size,), real_idx, device=device)
        out_d_real = net_d(real_img)
        loss_d_real = criterion(out_d_real.view(-1), real_label)
        
        # 生成图像训练
        noise = torch.randn(b_size, nz, 1, 1, device=device)
        fake_img = net_g(noise)
        fake_label = torch.full((b_size,), fake_idx, device=device)
        out_d_fake = net_d(fake_img.detach())
        loss_d_fake = criterion(out_d_fake.view(-1), fake_label)
        
        # 反向传播
        loss_d = loss_d_real + loss_d_fake
        loss_d.backward()
        optimizerD.step()
        
        # 2. 训练生成器
        net_g.zero_grad()
        out_d_fake_2 = net_d(fake_img)
        loss_g = criterion(out_d_fake_2.view(-1), real_label)
        loss_g.backward()
        optimizerG.step()