镜像GAN：提升T2I I2T的文本到图像生成语义一致性

PDF文件

1.24MB | 更新于2025-01-16 | 95 浏览量 | 举报收藏

立即下载

本文主要探讨了"MirrorGAN：重新描述乔婷婷等人提出的T2I I2T的文本到图像生成方法"。T2I (Text to Image) 和 I2T (Image to Text) 是两个相互关联的任务，前者是从文本描述生成相应的图像，后者则是将图像转换回文本描述，确保视觉真实性的同时保持语义一致性是这两个任务的核心挑战。乔婷婷等人提出了一种创新的框架，即通过构建MirrorGAN来解决这一问题。MirrorGAN的关键组件包括： 1. **语义文本嵌入模块 (STEM)**：负责生成单词级和句子级的文本表示，这是理解和生成图像的基础。 2. **全局-局部协作关注模块 (GLAM)**：这是一个级联架构，从全局到局部逐步生成图像，以实现从文本描述到视觉细节的精确转换。 3. **语义文本再生和对齐模块 (STREAM)**：旨在从已生成的图像中提取语义，再生成一个与原始文本描述一致的新描述，从而检验生成图像的语义一致性。 CARGAN（Conditional Adversarial Re-Generation Network）是该框架的灵感来源，它利用了通过重新描述来学习文本到图像生成的概念。通过这种方法，生成的图像不仅在视觉上逼真，而且在语义上与输入文本描述相符。研究者们在两个公开的数据集上进行了实验，结果显示MirrorGAN相较于其他先进的方法，如MSGAN（Message Passing GAN），在保持语义一致性的性能上更为优越。这表明，通过全局-局部关注和语义保持策略，MirrorGAN在解决文本到图像生成任务中的挑战性问题上取得了显著的进步。这项工作不仅提升了文本到图像生成的质量，还在如何确保生成图像的语义准确性和视觉真实性的平衡上做出了重要贡献，对于自然语言处理和计算机视觉领域的研究具有重要的推动作用。同时，它也展示了访问学生乔婷婷在悉尼大学FEIT计算机科学学院和UBTECH悉尼人工智能中心期间的科研成果。

1507

(a)

语义文本嵌入模块

(b) GLAM

：级联图像生成器中的全局

局部协作注意

模块

(c)

语义文本再生和对齐模块

词特征

...

<开始>

这只鸟结束

...

开始

这肚子

图2：用于文本到图像生成的建议的MSGAN的示意图。

信息.特别是，对于多级生成器，使“语义平滑”生成是

至关重要的。因此，在每个阶段中还应考虑全局事务

级注意力，以便其逐步且平稳地驱动生成器朝向语义

一致的目标。为此，我们提出了一个全球本地协作注

意模块，利用本地单词的注意力和全球句子的注意

力，并提高所生成的图像的多样性和语义一致性。

用于文本到图像生成的MSGAN

如图2所示，MirrorGAN通过集成T2I和I2T两者来它

利用了通过重描述学习T2I生成的思想生成图像后，

MARGAN重新生成其描述，将其底层语义与给定的文

本描述对齐。从技术上讲，MirrorGAN由三个模块组

成：STEM、GLAM和STREAM。下面将介绍该模型

的细节

3.1.

语义文本嵌入模块

首先，我们引入了语义文本嵌入模块，将给定的文

本描述嵌入到局部词级特征和全局句子级特征中。如

图2的最左边部分所示，递归神经网络（RNN）

[4]用于从给定的文本描述

中提取语义嵌入，其包括

词嵌入

和句子嵌入

。

使用条件扩充法[39]扩充文本描述的常见做法。这产

生了更多的图像-文本对，从而鼓励沿着调节文本人的

小扰动的鲁棒性具体来说，我们使用F

来表示条件增

强函数，并获得增强的句子向量：

（

）

，

（

）

其中

∈

′

，

′

为

增广后

的维数。

3.2.

GLAM：级联图像生成器中的全局局部

协作注意模块

接下来，我们通过依次堆叠三个图像生成网络来构

建多级级联生成器。我们采用[35] 中描述的基本结

构，因为它的优点是

在生成逼真图像方面的性能。在数学上

，我们使用

{

，

-1

}来表示

个

视觉特征变换器，并

且{

，

-1

}

表示

个图像生成器。视觉

特征

和生成的

每个阶段中的图像

可以表示为：

（

，

sca

）

，

（

i−

，

att

（

i−

，

））

，

∈

，

. -

是的

是的，

，

（

）

，

∈

{

，

. -

是的

是的，

−

}

，

（

）

其中

∈

，

∈

，

（

，

）表示随机

噪声

Fatt

是提出的全局

局部协作注意模型，它包括

两个组件，

ponents

属性

和

属性

，

即，

att

（

i−

，

）

，

RNN

（

）

，

（

）

−

i−

concat

−

，

Att

Z ~ N

（

，

）

这只鸟

有灰色

的背和

白色的

肚子

句子

特征

的

RNN

atti

一

个

atti

一个

Softmax Softmax

Softmax

CNN

...

Softmax

LSTM

...

LSTM

Att

剩余10页未读，继续阅读

cpongm

粉丝: 6

镜像GAN：提升T2I I2T的文本到图像生成语义一致性

Text-to-Image-Using-GAN

zkdxtt21.github.io:婷婷的博客->

图像质量评价方法代码matlab代码-SFA:没有基于语义特征聚合的参考图像质量评估，发布于ACMMM2017，TMM2019

婷婷个人工具箱

2015春湘教版语文一下《婷婷的画》ppt课件_人教版四年级下册语文目录

田婷婷 查重版.zip

21121571_商婷婷.xlsx

认识人民币史婷婷.doc

基于桑基图的时间序列文本可视化新方法：金融数据验证与应用

婷婷儿童乐园v2.6：全面儿童教育资源集锦

最新资源

田婷婷查重版.zip