
论文阅读
文章平均质量分 82
芋圆526
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【论文阅读】RAPTOR: Robust and Perception-Aware Trajectory Replanning for Quadrotor Fast Flight
发表自香港科学技术大学的沈劭劼大佬的实验室。对于无人机来说,在未知且高度杂乱的环境中实现自主高速飞行一直是一个很大的挑战。本文提出了一个Robust And Perception-aware TrajectOry Replanning (RAPTOR)框架解决了这些问题。原创 2022-10-19 11:15:15 · 1763 阅读 · 2 评论 -
【少样本图像生成】Towards Faster And Stabilized GAN training for high-fidelity few-shot image synthesis
【少样本图像生成】TOWARDS FASTER AND STABILIZED GAN TRAINING FOR HIGH-FIDELITY FEW-SHOT IMAGE SYNTHESIS 论文阅读笔记开源代码: https://github.com/odegeasslbc/FastGAN-pytorch首先这篇文章会分析一下模型的效果,优缺点,然后再解释网络结构。模型效果分析从论文里的图来看,效果是很不错的。以下是用1024x1024像素在2080-Ti GPU上训练的,数据集大小1000.左边训原创 2022-03-01 20:53:10 · 4960 阅读 · 7 评论 -
DALL-E: Zero-Shot Text-to-Image Generation
Zero-Shot Text-to-Image Generation 论文阅读笔记摘要:基于零样本(zero-shot)生成。使用两亿个文本-图像对训练。公开源码(https://github.com/openai/DALL-E)不是很完善,缺了比如text encoder等关键部分。这论文写得emmm不堪入目。效果:方法训练阶段分两部分:阶段一,压缩图片。训练一个discrete variational autoencoder (dVAE),即离散的变分自编码器来压缩256x256大小原创 2021-07-10 21:52:51 · 3941 阅读 · 0 评论 -
【CVPR2021】TediGAN: Text-Guided Diverse Face Image Generation and Manipulation
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation论文阅读github代码创新点:针对人脸的图片生成和修改。模型由styleGAN inversion(根据预训练的StyleGAN将图片映射到一个latent space)、visual-linguistic similarity learning(将文本和图片映射到common embedding space来计算相似度)和instance-level optim原创 2021-05-15 20:18:28 · 1687 阅读 · 0 评论 -
【2020】Lightweight Generative Adversarial Networks for Text-Guided Image Manipulation论文阅读笔记
Lightweight Generative Adversarial Networks for Text-Guided Image Manipulation论文阅读这是一篇在Text-Guided Image Manipulation领域关于轻量模型的论文,github代码地址(还未公开):https://github.com/mrlibw/Lightweight-Manipulation创新点:提出了轻量级网络结构,可以在手机等移动设备上运行,并且效果相比其他模型来说也很不错。模型结构作者首原创 2021-05-10 20:21:49 · 664 阅读 · 0 评论 -
StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery 论文阅读笔记
StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery 论文阅读笔记笔者的话:最近看了StyleGAN的中文解析,觉得得把笔记写得通俗一点比较好,直接翻译看的好累,还不如直接看原文。从这篇开始,向他们学习!ヾ(◍°∇°◍)ノ゙创新点:结合了StyleGAN(最近风格迁移的利器,下面会介绍)和CLIP(预训练的Text-Image模型,可以提供网络一个名词,比如老虎,对应的图片的样子)。数据集上,这个方法可以用于多个领域,不用局限于数据注释的限原创 2021-05-03 14:35:45 · 3113 阅读 · 0 评论 -
【CVPR2019】Object-driven Text-to-Image Synthesis via Adversarial Training论文阅读
【CVPR2019】Object-driven Text-to-Image Synthesis via Adversarial Training论文阅读本人的话:思路可以借鉴,效果不太好提出了可以捕捉word/object-level information的Obj-GAN( Object-driven Attentive Generative Adversarial Networks):将文本描述和预生成的semantic layout作为image generator的输入。在每一层,gener原创 2021-04-22 20:50:09 · 574 阅读 · 0 评论 -
Image Caption 论文
总结1总结2总结3总结4总结5原创 2021-04-22 08:51:31 · 292 阅读 · 0 评论 -
StarGAN v2: Diverse Image Synthesis for Multiple Domains
StarGAN v2: Diverse Image Synthesis for Multiple Domains论文阅读Github(包含代码、数据集、与训练模型):https://github.com/clovaai/stargan-v2关键词:multiple domains,主要贡献:改进了StarGAN,提出了StarGANv2,它是一个scalable的跨multiple domains的模型,将StarGAN中的domain label替换为style code。mapping ne原创 2021-04-15 21:52:03 · 560 阅读 · 0 评论 -
论文阅读 StarGAN Based Facial Expression Transfer for Anime Characters
StarGAN Based Facial Expression Transfer for Anime Characters 论文阅读(这篇论文没啥创新意义,主要学习一下数据收集、处理)关键词:动画、面部表情主要贡献:1)提供了一个有标签的数据集,它收集自Danbooru和GetChu,包含5个动画表情(happy、sad、crying、neutral、surprised),每个表情平均有一千张图片。我们还实现了一个开源的可移动应用来加快图片标记和检测假阳性的错误。2)使用StarGAN作为我们的基原创 2021-04-15 19:48:17 · 315 阅读 · 0 评论 -
AniGAN: Style-Guided Generative Adversarial Networks for Unsupervised Anime Face Generation
AniGAN: Style-Guided Generative Adversarial Networks for Unsupervised Anime Face Generation论文阅读Github:https://github.com/bing-li-ai/AniGAN摘要:实现效果如图,即根据一张参考动漫人物图片,对目标人物进行风格迁移。介绍Style-Guided Face-to-Anime Translation(StyleFAT)任务根据参考动画脸的样式将照片转换为动画脸。难点原创 2021-04-14 20:56:39 · 1054 阅读 · 0 评论 -
图像风格迁移 论文阅读 FUNIT 基于少样本无监督
转载:【论文译文】Few-Shot Unsupervised Image-to-Image Translation(FUNIT)转载 2021-04-04 23:10:34 · 651 阅读 · 0 评论 -
动漫风格迁移 I2I 论文阅读笔记——Comixify transform video into a comics
Comixify transform video into a comics论文阅读笔记发表于2018.官方app:http://comixify.ii.pw.edu.pl本人的话:我感觉看了一篇大创的水论文。。。。。介绍我们提出了一种video comixification技术,它分为两步:1)提取帧。从视频中提取部分可以表达视频完整意思的帧,同时这些帧在视觉上吸引人。我们使用了一个基于强化学习的关键帧提取算法,它另外结合了时间分割方法和图像美学评估。2)风格迁移。我们将提取的关键帧转化为连环画原创 2021-04-04 16:06:01 · 1612 阅读 · 1 评论 -
动漫风格迁移 I2I 论文阅读笔记——Learning to Cartoonize Using White-box Cartoon Representation
Learning to Cartooniza Using White-box Cartoon Representation 论文阅读发表于CV2020。介绍由于动画风格多样,且需求多元,所以实用的动漫风格迁移算法需要以特定假设为前提。比如,一些动画制作流程更关注全局调色板主题(global palette theme),而不是线条的清晰度。从而导致黑箱模型没法应对各种多样的需求(简单的改变数据集不能解决问题)。为了解决上述问题,我们将图片分解成几个动画表达形式:首先,我们提取了surface表达原创 2021-04-03 15:13:33 · 1029 阅读 · 0 评论 -
Photo Cartoonize、动漫图片生成、 论文记录
CartoonGAN: generative adversarial networks for photo cartoonization【CVPR 2018】许多动漫风格迁移的baselineComixify: transform video into a comics【2018】将一个视频转化为连环漫画:他们提出了从视频中提取那些可以完整描述视频内容的关键帧的算法。AnimeGAN: A Novel Lightweight GAN for Photo Animation【2020】github.原创 2021-03-31 22:30:50 · 1455 阅读 · 0 评论 -
风格迁移 I2I 论文阅读笔记——AnimeGAN,动漫风格生成
AnimeGAN: A Novel Lightweight GAN for Photo Animationgithub代码:https://github.com/TachibanaYoshino/AnimeGAN介绍动画制作需要考虑线条、纹理、颜色和阴影,十分耗时。因此,能够自动转化real-world photos to high-quality animation style image的技术是很有价值的。现有的技术存在以下问题:1)生成图像没有显著的动画风格的纹理2)生成图像丢失了原有图像原创 2021-03-31 21:32:15 · 2307 阅读 · 4 评论 -
T2I论文阅读2020 SegAttnGAN
SegAttnGAN: Text to Image Generation with Segmentation Attention论文阅读本人的话:突然想到如果能把输入文本从一个基于词组和词的句子变成一个基于词组的句子,会不会好一点。这篇论文没啥研究价值。介绍我们的SegAttnGAN,使用segmentation输入来添加额外的空间信息。和 https://editor.csdn.net/md/?articleId=115262969 有点像。创新点:1.生成网络能够同时使用文本和空间信息。2.原创 2021-03-29 11:01:44 · 330 阅读 · 0 评论 -
T2I论文阅读2020:Image-to-Image Translation with Text Guidance
Image-to-Image Translation with Text Guidance发表于2020.论文地址:https://arxiv.org/pdf/2002.05235.pdf介绍Conditional Image Synthesis包括T2I generation,Image Generation from Scene Graphs,Semantic Layout,Coarse Layout。本论文旨在使用文本命令,从segmentation mask生成图片。实现的关键在于完全原创 2021-03-28 15:37:52 · 461 阅读 · 0 评论 -
T2I论文阅读2019 MirrorGAN
MirrorGAN: Learning Text-to-image Generation by Redescription论文阅读笔记本人的话:今天能看到演唱会彩排了哈哈哈哈好激动。MirrorGAN的效果比起DM-GAN差上不少,不过有不少可供改进的地方,比如STREAM使用的I2T结构可以换成更先进的。介绍T2I可以看做Image Caption(或I2T)的逆向。我们的MirrorGAN便是利用了这种镜像结构,它包含3个模块:STEM,GLAM,STREAM。STEM生成word-level和原创 2021-03-25 16:32:01 · 615 阅读 · 0 评论 -
2019-2021 文本生成图片 Text To Image(T2I) Synthesis 论文整理
参考:文本生成图像!GAN生成对抗网络相关论文大汇总A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis介绍了关于GAN生成对抗网络的相关Text-to-Image论文,将其分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,原创 2021-03-25 13:19:26 · 4030 阅读 · 0 评论 -
风格迁移 I2I 论文阅读笔记——U-GAT-IT,动漫风格生成
U-GAT-IT: UNSUPERVISED GENERATIVE ATTENTIONAL NETWORKS WITH ADAPTIVE LAYER- INSTANCE NORMALIZATION FOR IMAGE-TO-IMAGE TRANSLATION论文阅读发表于 ICLR 2020代码地址:https://github.com/taki0112/UGATIT 和 https://github.com/znxlwm/UGATIT-pytorch本人的话:由于出了一些意外,现在要先看一些风格迁原创 2021-03-25 10:54:49 · 1358 阅读 · 0 评论 -
T2I论文阅读笔记——CPGAN
介绍现在的多数方法,比如AttnGAN,StackGAN,都没法正确地将‘sheep’关联到一个羊的图片,也就是他们在解析文本和图片的过程上不够深入。本论文将通过彻底解析文本和图片的内容,从而建立二者的联系。在文本模式上,我们设计了一个memory机制,对于每个单词,通过捕捉在训练过程中的包含该单词的相关图片的各种视觉内容信息来解析文本内容。在图片模式上,我们使用一种以对象为感知的方法来编码生成图片,从而提取出视觉语义。获得的文本嵌入向量和图片嵌入向量被用来计算文本和图片的语义一致性。此外,我们设计了一原创 2021-03-24 14:58:38 · 1020 阅读 · 0 评论 -
T2I论文阅读笔记——TivGAN 文本生成视频
论文源地址:https://arxiv.org/pdf/2009.02018.pdf出版于2020.8.19 发表在IEEE Access本人的话:一些翻译不来的词会直接写英文原文。没有网络整体的细节,不建议复现。摘要本论文提出了一个全新的框架——Text-to-Image-to-Video GAN(TiVGAN),希望实现从文本生成视频。原理主要是逐帧生成最后成为一段完整的视频。在第一阶段,我们专注于通过学习文本与图片的关系生成一个高质量的单个视频帧,然后再将模型用于更多的连续帧上面。关键词:计原创 2021-03-22 09:44:05 · 1321 阅读 · 1 评论 -
T2I论文阅读笔记——DMGAN
DM-GAN Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis论文阅读笔记1. 介绍近年来,GAN在图像和视频的生成上应用广泛,最具代表性的就是Multi-stage model的方法。但它存在两个问题:1. 生成结果很大程度上依赖于initial image的质量,如果initial image的生成结果很差,那么refinement的步骤也不能帮助修改从而生成好的结果。2. 每个单词在描述图片内原创 2021-03-21 13:53:09 · 2075 阅读 · 1 评论