High-Fidelity GAN Inversion for Image Attribute Editing（CVPR2022）

最新推荐文章于 2024-08-20 09:55:40 发布

海柱12

最新推荐文章于 2024-08-20 09:55:40 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

文章标签：生成对抗网络人工智能神经网络计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_39454370/article/details/127672949

提出一种新的GAN反演框架，实现高质量图像属性编辑。该框架通过失真咨询及自适应失真对齐技术，有效提升图像编辑的保真度和可编辑性，尤其在面对遮挡和极端视角图像时表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.中文译名：用于图像属性编辑的高保真GAN反演

机构：香港大学、腾讯AI实验室

2.github源码地址：https://github.com/Tengfei-Wang/HFGI

paper地址：https://arxiv.org/abs/2109.06590

3.介绍：

4.摘要：

本文提出了一种新颖的高保真生成对抗网络 (GAN) 反演框架，该框架可通过保留良好的图像特定细节 (例如背景，外观和照明) 进行属性编辑。我们首先从有损数据压缩的角度分析高保真GAN反演的挑战。由于具有低比特率的潜码，以前的作品难以在重建和编辑的图像中保留高保真的细节。增加潜在代码的大小可以提高gan反演的准确性，但要以更高的可编辑性为代价。

本文提出了一种失真咨询方法，该方法采用失真图作为高保真度重建的参考。在失真协商反转 (DCI) 中，失真映射首先被投影到高速率潜在映射，然后通过协商融合以更多细节补充基本的低速潜在代码。

为了实现高保真度编辑，我们提出了一种具有自我监督训练方案的自适应失真对齐 (ADA) 模块，该模块弥合了编辑图像和反转图像之间的差距。在face和car领域进行的广泛实验表明，反转和编辑质量都有明显改善。

5.主要贡献：

1.融合高重构质量和可编辑行。

2.对于高保真编辑，我们提出了具有自我监督学习方案的自适应失真对齐模块。通过对齐，失真信息可以很好地传播到编辑的图像

3.我们的方法在不同的图像域和视频上定性和定量地优于最先进的方法。该框架简单，快速，可轻松应用于GAN模型。

6.主要研究问题：

“Rec” 和 “Edit” 分别表示重建和编辑结果。

(a) 是GAN反演的典型低速率框架，但会遭受细节损失和失真。

(b) 是一种朴素的高速率GAN反演框架，具有近乎完美的重构，但可解释性和可编辑性较差。

所提出的方法 (图3) 结合了高细节保真度和令人信服的编辑性能，并具有快速的推理速度。

7.模型框架总览（Overview）

高保真图像反演和编辑框架概述。编码器 $E_{0}$ 编码低保真图像X的潜码W， $\hat{X}_{0}$ 是W对应一个反演图像。源图像X和 $\hat{X}_{0}$ 之间的差为 $\widetilde{\Delta }$ ，他包含丢失的高频图像特定细节，用来提高重建保真度。红色虚线框表示具有特定语义方向 $N^{edit}$ 的编辑行为，其中 $W^{edit}$ = W+ α $N^{edit}$ 对应于低保真度编辑图像x的编辑编辑过后的图像 $\hat{X}_{0}^{edit}$ 。为了实现高保真图像编辑，我们提出了distortion consultation。在失真咨询中， $\widetilde{\Delta }$ 首先与ADA编辑的低保真度编辑图像 $\hat{X}_{0}^{edit}$ 对齐，然后通过consultation编码器Ec嵌入到高比特latent map C中。latent codeW和latent mapC通过融合 (请参阅右侧的详细信息) $G_{0}$ 层进行组合，以生成最终编辑的图像 $\hat{X}^{edit}$

8.Distortion Consultation Inversion (DCI)(失真咨询反演)

基本编码器 $E_{0}$ ，我们可以获得低比特率latent code W = $E_{0}$ (X) 和反转图像 $\hat{X}_{0}$ = $G_{0}$ (W)。在这种情况下，生成器 $G_{0}$ 将W作为每个层中的输入，以获取特征图:

由于低比特率latent code 的信息丢失， $\hat{X}_{0}$ 是低保真度的，下标 o 表示对源图像 X 的（不令人满意的）反演。

Consultation Encoder（ $E_{c}$ ）

编码器 $E_{c}$ 是在基本编码器 $E_{0}$ 的基础上加入参数latent map C 也就是丢失的细节特征。

为了提高 $E_{0}$ 的保真度，我提出使用distortion consultation来传达丢失的图像特定细节。我们将其称为咨询，因为网络明确地参考了特定于图像的信息作为生成的参考。

9.ADA

上述DCI解决的反演失真，ADA是为了解决编辑失真。

ADA将失真图 $\widetilde{\Delta }$ 与目标图像I对齐。对于反演，ADA理想情况下是恒等映射。

对于编辑

$\hat{\Delta }$ 将和 $\hat{X}_{0}^{edit}$ 对齐

10.Experiments（实验部分）

Datasets： 1.FFHQ

2. CelebA-HQ

结果：

可视化展示

11.Conclusion 结论：

我们提出了一种新颖的 GAN 反演框架，可以实现高保真图像属性编辑。借助自适应失真对齐和失真咨询技术，我们的方法对于具有挑战性的情况 (例如具有遮挡和极端视点的图像) 更加可靠。受益于咨询处的其他信息，拟议的方法在重建和编辑的图像特定细节保存 (例如背景，外观和照明) 方面显示出明显的改进。所提出的框架易于应用，我们认为可以轻松地将其推广到其他GAN模型中以进行将来的工作。