在生成图像中选择特征
立即解锁
发布时间: 2025-09-05 01:44:18 阅读量: 6 订阅数: 20 AIGC 

### 在生成图像中选择特征
在图像生成领域,我们常常希望能够精确控制生成图像的特征。本文将介绍两种选择生成图像特征的方法,以及如何结合它们来同时指定图像的两个独立属性。此外,还会探讨如何使用 Wasserstein 距离和梯度惩罚来提高图像质量。
#### 选择生成图像特征的方法
有两种不同的方法可以选择生成图像的特征,它们各有优缺点:
1. **选择潜在空间中的特定向量**:不同的向量对应不同的特征。例如,一个向量可能生成男性面部图像,另一个向量可能生成女性面部图像。
2. **使用条件生成对抗网络(cGAN)**:通过在标记数据上训练模型,我们可以提示模型生成具有指定标签的图像,每个标签代表一个独特的特征,如戴眼镜或不戴眼镜的面部图像。
我们还可以将这两种方法结合起来,同时选择图像的两个独立属性。这样,我们可以生成四组不同的图像:戴眼镜的男性、不戴眼镜的男性、戴眼镜的女性和不戴眼镜的女性。此外,使用标签的加权平均值或输入向量的加权平均值,我们可以生成从一个属性过渡到另一个属性的图像。例如,我们可以生成一系列图像,使同一个人的眼镜逐渐消失(标签算术);或者生成一系列图像,使男性特征逐渐消失,男性面部变为女性面部(向量算术)。
#### 眼镜数据集
我们将使用眼镜数据集来训练 cGAN 模型。以下是处理该数据集的步骤:
1. **下载眼镜数据集**:数据集来自 Kaggle,登录 Kaggle 并访问链接 https://mng.bz/q0oz 下载图像文件夹和两个 CSV 文件(train.csv 和 test.csv)。将图像文件夹和两个 CSV 文件放在计算机的 /files/ 文件夹中。
2. **对图像进行分类**:使用以下代码将图像分为有眼镜和无眼镜两个子文件夹:
```python
!pip install pandas
import pandas as pd
train = pd.read_csv('files/train.csv')
train.set_index('id', inplace=True)
import os, shutil
G = 'files/glasses/G/'
NoG = 'files/glasses/NoG/'
os.makedirs(G, exist_ok=True)
os.makedirs(NoG, exist_ok=True)
folder = 'files/faces-spring-2020/faces-spring-2020/'
for i in range(1, 4501):
oldpath = f"{folder}face-{i}.png"
if train.loc[i]['glasses'] == 0:
newpath = f"{NoG}face-{i}.png"
elif train.loc[i]['glasses'] == 1:
newpath = f"{G}face-{i}.png"
shutil.move(oldpath, newpath)
```
3. **可视化图像**:使用以下代码可视化有眼镜的图像:
```python
import random
import matplotlib.pyplot as plt
from PIL import Image
imgs = os.listdir(G)
random.seed(42)
samples = random.sample(imgs, 16)
fig = plt.figure(dpi=200, figsize=(8, 2))
for i in range(16):
ax = plt.subplot(2, 8, i + 1)
img = Image.open(f"{G}{samples[i]}")
plt.imshow(img)
plt.xticks([])
plt.yticks([])
plt.subplots_adjust(wspace=-0.01, hspace=-0.01)
plt.show()
```
若要可视化无眼镜的图像,将代码中的 `G` 替换为 `NoG` 即可。
#### cGAN 和 Wasserstein 距离
##### cGAN 原理
cGAN 是基本 GAN 框架的扩展。在 cGAN 中,生成器和判别器(在实现 WGAN 和 cGAN 时称为批评器)都基于一些额外信息进行条件约束。在我们的场景中,我们会给输入的生成器和批评器添加类别标签,例如给有眼镜的图像和无眼镜的图像分别附上不同的标签。以下是 cGAN 的训练过程:
```mermaid
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
A([随机噪声向量和眼镜标签]):::startend --> B(生成器网络):::process
B --> C(生成假图像):::process
D([真实图像和眼镜标签]):::startend --> E(批评器网络):::process
C --> E
E --> F(评分):::process
F --> G(反馈):::process
G --> B
G --> H([真实图像标签]):::startend
```
在 cGAN 中,生成器接收随机噪声向量和条件信息(指示图像是否有眼镜的标签)作为输入,生成不仅看起来真实,而且与条件输入一致的数据。批评器接收训练集中的真实数据或生成器生成的假数据,以及条件信息,其任务是考虑条件信息来判断给定数据是真实还是虚假。
##### WGAN 与梯度惩罚
GAN 模型在训练过程中常面临模式崩溃、梯度消失和收敛缓慢等问题。Wasserstein GAN(WGAN)引入了 Earth Mover's(或 Wasserstein - 1)距离作为损失函数,提供了更平滑的梯度流和更稳定的训练,减轻了模式崩溃等问题。以下是 WGAN 带梯度惩罚的工作流程:
```mermaid
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
A([潜在变量]):::startend --> B(生成器):::process
B --> C(假图像):::process
D([真实图像]):::startend --> E(批评器):::process
C --> E
F([真实图像与假图像的插值图像]):::startend --> E
E --> G(评分):::process
G --> H(总损失):::process
I(梯度惩罚):::process --> H
H --> J(反馈):::process
J --> B
```
为了使 Wasserstein 距离正常工作,判别器(在 WGAN 中称为批评器)必须是 1 - Lipschitz 连续的,即批评器函数的梯度范数在任何地方都必须至多为 1。原始的 WGAN 论文提出了权重裁剪来强制执行 Lipschitz 约束,但为了解决权重裁剪问题,我们在损失函数中添加了梯度惩罚项。具体实现时,我们首先在真实数据点和生成数据点之间的直线上随机采样点,由于真实和假图像都附有标签,插值图像也附有标签,它是两个原始标签的插值值。然后计算批评器输出相对于这些采样点的梯度,最后在损失函数中添加与这些梯度范数偏离 1 的程度成比例的惩罚项(即梯度惩罚)。
#### 创建 cGAN
##### 批评器网络
在 cGAN 中,判别器是一个基于标签来识别输入是真实还是虚假的二进制分类器,在 WG
0
0
复制全文
相关推荐







