在生成图像中选择特征

### 在生成图像中选择特征在图像生成领域，我们常常希望能够精确控制生成图像的特征。本文将介绍两种选择生成图像特征的方法，以及如何结合它们来同时指定图像的两个独立属性。此外，还会探讨如何使用 Wasserstein 距离和梯度惩罚来提高图像质量。 #### 选择生成图像特征的方法有两种不同的方法可以选择生成图像的特征，它们各有优缺点： 1. **选择潜在空间中的特定向量**：不同的向量对应不同的特征。例如，一个向量可能生成男性面部图像，另一个向量可能生成女性面部图像。 2. **使用条件生成对抗网络（cGAN）**：通过在标记数据上训练模型，我们可以提示模型生成具有指定标签的图像，每个标签代表一个独特的特征，如戴眼镜或不戴眼镜的面部图像。我们还可以将这两种方法结合起来，同时选择图像的两个独立属性。这样，我们可以生成四组不同的图像：戴眼镜的男性、不戴眼镜的男性、戴眼镜的女性和不戴眼镜的女性。此外，使用标签的加权平均值或输入向量的加权平均值，我们可以生成从一个属性过渡到另一个属性的图像。例如，我们可以生成一系列图像，使同一个人的眼镜逐渐消失（标签算术）；或者生成一系列图像，使男性特征逐渐消失，男性面部变为女性面部（向量算术）。 #### 眼镜数据集我们将使用眼镜数据集来训练 cGAN 模型。以下是处理该数据集的步骤： 1. **下载眼镜数据集**：数据集来自 Kaggle，登录 Kaggle 并访问链接 https://mng.bz/q0oz 下载图像文件夹和两个 CSV 文件（train.csv 和 test.csv）。将图像文件夹和两个 CSV 文件放在计算机的 /files/ 文件夹中。 2. **对图像进行分类**：使用以下代码将图像分为有眼镜和无眼镜两个子文件夹： ```python !pip install pandas import pandas as pd train = pd.read_csv('files/train.csv') train.set_index('id', inplace=True) import os, shutil G = 'files/glasses/G/' NoG = 'files/glasses/NoG/' os.makedirs(G, exist_ok=True) os.makedirs(NoG, exist_ok=True) folder = 'files/faces-spring-2020/faces-spring-2020/' for i in range(1, 4501): oldpath = f"{folder}face-{i}.png" if train.loc[i]['glasses'] == 0: newpath = f"{NoG}face-{i}.png" elif train.loc[i]['glasses'] == 1: newpath = f"{G}face-{i}.png" shutil.move(oldpath, newpath) ``` 3. **可视化图像**：使用以下代码可视化有眼镜的图像： ```python import random import matplotlib.pyplot as plt from PIL import Image imgs = os.listdir(G) random.seed(42) samples = random.sample(imgs, 16) fig = plt.figure(dpi=200, figsize=(8, 2)) for i in range(16): ax = plt.subplot(2, 8, i + 1) img = Image.open(f"{G}{samples[i]}") plt.imshow(img) plt.xticks([]) plt.yticks([]) plt.subplots_adjust(wspace=-0.01, hspace=-0.01) plt.show() ``` 若要可视化无眼镜的图像，将代码中的 `G` 替换为 `NoG` 即可。 #### cGAN 和 Wasserstein 距离 ##### cGAN 原理 cGAN 是基本 GAN 框架的扩展。在 cGAN 中，生成器和判别器（在实现 WGAN 和 cGAN 时称为批评器）都基于一些额外信息进行条件约束。在我们的场景中，我们会给输入的生成器和批评器添加类别标签，例如给有眼镜的图像和无眼镜的图像分别附上不同的标签。以下是 cGAN 的训练过程： ```mermaid graph LR classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px A([随机噪声向量和眼镜标签]):::startend --> B(生成器网络):::process B --> C(生成假图像):::process D([真实图像和眼镜标签]):::startend --> E(批评器网络):::process C --> E E --> F(评分):::process F --> G(反馈):::process G --> B G --> H([真实图像标签]):::startend ``` 在 cGAN 中，生成器接收随机噪声向量和条件信息（指示图像是否有眼镜的标签）作为输入，生成不仅看起来真实，而且与条件输入一致的数据。批评器接收训练集中的真实数据或生成器生成的假数据，以及条件信息，其任务是考虑条件信息来判断给定数据是真实还是虚假。 ##### WGAN 与梯度惩罚 GAN 模型在训练过程中常面临模式崩溃、梯度消失和收敛缓慢等问题。Wasserstein GAN（WGAN）引入了 Earth Mover's（或 Wasserstein - 1）距离作为损失函数，提供了更平滑的梯度流和更稳定的训练，减轻了模式崩溃等问题。以下是 WGAN 带梯度惩罚的工作流程： ```mermaid graph LR classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px A([潜在变量]):::startend --> B(生成器):::process B --> C(假图像):::process D([真实图像]):::startend --> E(批评器):::process C --> E F([真实图像与假图像的插值图像]):::startend --> E E --> G(评分):::process G --> H(总损失):::process I(梯度惩罚):::process --> H H --> J(反馈):::process J --> B ``` 为了使 Wasserstein 距离正常工作，判别器（在 WGAN 中称为批评器）必须是 1 - Lipschitz 连续的，即批评器函数的梯度范数在任何地方都必须至多为 1。原始的 WGAN 论文提出了权重裁剪来强制执行 Lipschitz 约束，但为了解决权重裁剪问题，我们在损失函数中添加了梯度惩罚项。具体实现时，我们首先在真实数据点和生成数据点之间的直线上随机采样点，由于真实和假图像都附有标签，插值图像也附有标签，它是两个原始标签的插值值。然后计算批评器输出相对于这些采样点的梯度，最后在损失函数中添加与这些梯度范数偏离 1 的程度成比例的惩罚项（即梯度惩罚）。 #### 创建 cGAN ##### 批评器网络在 cGAN 中，判别器是一个基于标签来识别输入是真实还是虚假的二进制分类器，在 WG

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

在生成图像中选择特征

相关推荐

专栏目录

在生成图像中选择特征

相关推荐

文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像

使用python生成单个图像

在 Matlab 中生成负图像：生成任何图像的负图像-matlab开发

基于复合特征的自然图像和计算机生成图像鉴别算法源代码 matlab

图像灰度共生矩阵，特征图像生成，C++源码

OpenCV基于SIFT特征和SURF特征的微旋转图像拼接与融合生成全景图像

社交网络中用户生成图像的多维图像质量预测模型

style-transfer-quality:通过使用神经网络在样式图像特征和生成的图像特征之间进行区分来执行样式转换。 结果产生了比现代方法更高的质量转移

OpenCv生成图像直方图

GLCM_纹理特征提取_GLCM_特征图像生成.zip

基于MLP BP时间序列预测Python程序

【微信小程序源码】万年历.zip

专栏目录

最新推荐

数据提取与处理：字符、字节和字段的解析

分形分析与随机微分方程：理论与应用

零售销售数据的探索性分析与DeepAR模型预测

数据处理与自然语言编码技术详解

对比实测：University of Connecticut.rar在Linux与Windows下的5大差异

Web开发实用技巧与Perl服务器安装使用指南

编程挑战：uniq与findr实现解析

前端交互效果与Perl服务器安装指南

人工智能的组织、社会和伦理影响管理

碳纳米管在摩擦学应用中的最新进展

style-transfer-quality:通过使用神经网络在样式图像特征和生成的图像特征之间进行区分来执行样式转换。结果产生了比现代方法更高的质量转移