SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Seminar]
High-Fidelity Image Generation with Fewer Labels
Hiromi Nakagawa, Matsuo Lab
https://deeplearning.jp
• タイトル
– High-Fidelity Image Generation with Fewer Labels
• 著者
– Mario Lucic, Michael Tschannen, Marvin Ritter, Xiaohua Zhai, Olivier Bachem, Sylvain Gelly
– Google Brain
• 投稿
– 2019/03/06 @ arXiv
• 概要
– Semi-supervised/Self-supervised Learningを活用したconditional-GANの機構を整理・導入
– BigGANの10~20%程度の少ラベルデータでも同等以上の精度で画像を生成できる手法を提案
2
書誌情報
1. Introduction
2. Related Work
3. Proposed Method
4. Experiments
5. Conclusion
3
Agenda
GANを用いたHigh-Fidelity(高精細)な画像生成は、近年の様々な工夫により発展してきた
• 大規模モデルの利用
– BigGAN [Brock+ ICLR‘19]
– SPN(自己回帰モデル) [Menick+ ICLR’19]
• アーキテクチャの改良
– SAGAN [Zhang+ CVPR’18]
– Self Modulation [Chen+ ICLR'19]
– StyleGAN [Karras+ 18.12]
• 正則化
– SNGAN [Miyato+ ICLR'18]
4
1. Introduction
GANを用いたHigh-Fidelityな画像生成の発展
• 既存のHigh-Fidelityな画像の生成には、大量のラベルあり(Labeled)データが必要
– 例:BigGAN
– ラベルの持つ情報が高品質な画像の生成を助けている
• しかし、実際にはラベルのない(Unlabeled)データのほうが多い
– ラベルづけはコストが高い上に、ミスもある
• 本研究ではSemi-supervised & Self-supervised Learningを活用し、
少ラベルでもSoTAのモデルを上回る画像を生成できる手法を提案
– 貢献1:自然画像生成のタスクにおいて、必要なラベルの量を削減する多様な手法を調査・提案
– 貢献2:Un/Semi-supervisedな画像生成でSoTA(10%でBigGANと同じ、20%で上回る)
– 貢献3:コード公開( https://github.com/google/compare_gan )
5
1. Introduction
ラベルデータと画像生成の質
1. Introduction
2. Related Work
3. Proposed Method
4. Experiments
5. Conclusion
6
Agenda
BigGAN
• Large Scale GAN Training for High Fidelity Natural Image Synthesis [Brock+ ICLR’19]
• SAGAN [Zhang+ ICLR’18]をベースにしたスケーラブルなアーキテクチャ x 大規模計算資源(TPU v3 x 128+ core)
– バッチサイズやチャネルを大きくする→入力の多様性が増えてmode collapseしにくい&学習の(現実的な)速度も速い
– PGGANのように逐次的に解像度を上げる必要もなく、直接512x512を生成可能
• 様々な性能向上の工夫
– Shared Embedding
– Hierarchical Latent Spaces
– Truncated Trick
– Orthogonal Regularization
• Gはconditional Batch Norm [De Vries+ NIPS’17]でラベルの条件付け
• DはProjection Discriminator [Miyato+ ICLR’18]でラベルの条件付け
7
2. Related Work
High-Fidelity GANs on ImageNet
2018/10/05 西村さんの発表
[DL輪読会]Large Scale GANTraining for High Fidelity Natural Image Synthesis
Conditional Batch Norm
• Modulating early visual processing by language [De Vries+ NIPS’17]
• 元はVisual Question Answeringの文脈で提案
• 任意のモデルの出力をベースにBatch Normを行う
8
2. Related Work
High-Fidelity GANs on ImageNet
Projection Discriminator
• cGANs with Projection Discriminator [Miyato+ ICLR’18]
• cGANとして従来用いられてきたのはACGAN [Odena+ ICML’17]
– DはReal/Fakeの識別と画像のクラス分類の2つのロスを最適化→多クラスでの学習が困難
• クラス条件ベクトルyを線形写像→Dの出力(φ)と内積を取り、Dの出力を変換(ψ)したものと足し合わせ
• 以下2つを1つのAdversarial Lossで定義可能
– Dの入力画像のReal/Fake
– Dの入力画像のクラス情報に基づくReal/Fake
• ACGANから大きく精度改善
• SAGANやBigGANのDのベース
9
2. Related Work
High-Fidelity GANs on ImageNet
• 教師なし特徴表現学習
– 目的タスク(target task)に有効なデータの特徴表現を、
ラベルフリーな疑似タスク(pretext task)を事前に解くことで獲得
• Self-Supervised Learning
– 中でも、自動で生成できる教師信号を用いてpretext taskを定義するもの
• 代表的なPretext taskの例
10
2. Related Work
Self-supervised Learning
Source: Self-supervised Learning による特徴表現学習 | cvpaper.challenge
• Context Prediction
• Jigsaw
• Jigsaw++
• Rotation
• Context Encoder
• Colorization
• Split-Brain
• SpotArtifact
• Counting
• Noise asTarget
• Instance
Discrimination
• VAE系
• GAN系
識別系
※基本的にSelf-supervised Learning
と言われない
再構成系 その他 生成モデル系
• 識別系:教師なしデータxに対応する、自動で得られるカテゴリtを定義して教師ありの識別を学習
11
2. Related Work
Self-supervised Learning
Source: Self-supervised Learning による特徴表現学習 | cvpaper.challenge
Context Prediction [Doersch+ ICCV'15]
画像を3x3に分割して2つのパッチの相対位置を8クラス分類
Rotation [Gidaris+ ICLR'18]
画像の回転推定(SoTA & 実装が簡単)
Jigsaw [Noroozi+ ECCV’16]
パッチをランダムな順に入力し、正しい順列をクラス識別
Jigsaw++ [Noroozi + CVPR’18]
一部のパッチを他の画像のパッチに置き換える
• 再構成系:x={x1,x2}の一部を観測できている状態でxまたはx2を推定
12
2. Related Work
Self-supervised Learning
Source: Self-supervised Learning による特徴表現学習 | cvpaper.challenge
Context Encoder [Pathak+CVPR'16]
欠損画像の補完を回帰で学習
Split-Brain [Zhang+CVPR’17]
ネットワークをチャネル方向に2分割し、L⇔abのアンサンブル
Colorization [Zhang+ ECCV’16]
グレースケール画像(L)の色付け(ab)(量子化したab空間の識別)
SpotArtifact [Wu + CVPR’18]
特徴マップ上で欠損させた画像の補完
• その他
13
2. Related Work
Self-supervised Learning
Source: Self-supervised Learning による特徴表現学習 | cvpaper.challenge
Counting [Noroozi+ ICCV’17]
分割画像と元画像を同じCNNに入力し、
元画像の出力特徴=全分割画像の出力特徴の和
となるような制約をかける
Instance Discrimination [Wu+ CVPR'18]
各画像インスタンスを1つのクラスとして識別、
各画像の特徴ベクトルが超球上に
まばらに散るような埋め込みになる
Noise asTarget [Bojanowski+ ICML’17]
一様にサンプリングしたtarget vectorsに
各画像からの出力を1v1に対応させ、近づける
(特徴ベクトルを特徴空間上に一様に分散)
• 最新動向:データ構造に依存しない手法の成功
14
2. Related Work
Self-supervised Learning
Source: Self-supervised Learning による特徴表現学習 | cvpaper.challenge
Deep Cluster [Caron+ ECCV’18]
CNNの中間特徴を元にk-meansクラスタリング
→クラスタを擬似ラベルとして識別問題を学習
CPC [Oord+ 18.07]
系列情報においてある時点での特徴ベクトルc_t
と先の入力x_t+1の相互情報量を最大化
DがN個のペアから1つのpositiveペアを識別する
Nクラス分類問題を解くことでIの下限を最大化
Deep INFORMAX [Devon Hjelm++ ICLR’19]
入力xと特徴ベクトルzの相互情報量を
最大化するように学習
(x, z)のペアのpos-neg識別をするDをつけて
end-to-endに学習するだけでI(x;z)の下限を最大化
• Self-Supervised Generative Adversarial Networks [Chen+ CVPR'19]
– NN→破滅的忘却、GANでも、Gの生成分布が動的に変化していくため、Dが学習初期の識別境界を忘れて学習が不安定になる
– ラベルがある場合はラベルの条件付けである程度回避できるが、ラベルがないときでもSelf-supervisedに解決したい
– Dは画像の回転の判定を真データのみから学習することで安定化
– Self-supervised LearningをDの学習に反映させた点で、本研究のベース(同じグループ)
• Revisiting Self-Supervised Visual Representation Learning [Kolesnikov+ CVPR'19]
– タスクだけでなく、CNNのアーキテクチャも考慮しながら、 Self-supervised Learningの多様な手法を検証
– 教師ありの相対的な精度に完全に比例するわけではない
– 特に、Self-Supervised LearningではSkip-Connectionがあることが重要
– アーキテクチャによってタスクの相性の善し悪しがある
– CNNのフィルタを増やすことに依る表現の質の向上の幅が、教師ありよりも大きい
15
2. Related Work
Self-supervised Learning
1. Introduction
2. Related Work
3. Proposed Method
4. Experiments
5. Conclusion
16
Agenda
• cGANにおけるラベルの意味合い
– Supervised Learning:人のラベル付けをDの学習に使う
– Self-Supervised Learning:自分で推論したラベルをDの学習に使う
• DにはProjection Discriminatorでラベル情報を渡す
– Dを表現学習を行う 𝐷 と線形分類器の 𝑐 𝑟/𝑓に分解し、𝐷(𝑥, 𝑦) = 𝑐 𝑟/𝑓( 𝐷 𝑥 + 𝑃( 𝐷 𝑥 , 𝑦) と表す( 𝑃 は線形写像)
• Gにはclass-conditional Batch Norm [Dumoulin+ ICLR’17, De Vries+ NIPS’17] でラベル情報を渡す
17
3. Proposed Method
Incorporating the labels
Projection Discriminatorを用いた基本的なcGANの構造
本研究では、3つのアプローチを検証
• Pre-trained approaches
• Co-training approaches
• Self-supervision during GAN training
• Unsupervised clustering-based method(CLUSTERING)
– 特徴抽出器 𝐹 を教師なし表現学習でSoTAの画像の回転を予測するタスクでSelf-Supervisedに学習
• [Gidaris+ ICLR'18] Unsupervised Representation Learning by Predicting Image Rotations
• [Kolesnikov+ CVPR'19] Revisiting Self-Supervised Visual Representation Learning
– 学習した表現をk-Meansでクラスタリング(𝑐 𝐶𝐿)し、得られたラベルを疑似ラベルとしてGANを訓練
– つまり、 𝑦 𝐶𝐿 = 𝑐 𝐶𝐿(𝐹(𝑥)) をラベルとしてGANを訓練
• Semi-supervised method(S2GAN)
– 表現学習時に少量のラベル識別器(𝑐𝑆2
𝐿)を入れてそのロスも最適化
– GANの学習時は特徴抽出器 𝐹 と 𝑐 𝐶𝐿 だけがCLUSTERINGと異なる
18
3. Proposed Method
Pre-trained approaches
CLUSTERING
• ラベルの情報をGANの訓練と同時に学習する
• Unsupervised method(SINGEL LABEL / RANDOM LABEL)
– ラベル情報を除去
– SINGLE LABEL:全サンプルに同じクラスラベルを付与し、Projection Layerを除去
– RANDOM LABEL:ラベルなし実画像にランダムにラベルを付与
• 学習可能かつ 𝑧 以外のrandomnessを加えられるからGの学習に良いらしい
• fakeデータに対するラベル付けもDの学習に良いらしい
• Semi-supervised method(S2GAN-CO)
– 𝐷 の特徴表現から少ラベルの分類を行う線形分類器 𝑐 𝐶𝑇を導入
– GANと同時に学習
19
3. Proposed Method
Co-training approaches
S2GAN-CO
• Pre-training / Co-training approachesでは、 𝐹 の良い表現を得るためにSelf-/Semi-Supervised
Learningを用いた
• Discriminator自体も分類器→補助タスクが役に立つはず
• 同様に回転を予測するタスクでGANの学習時もDをSelf-Supervision
– [Chen+ CVPR‘19] Self-Supervised GANs で学習が安定化することが実証されている
– 学習が進むに連れてGの生成分布が動的に変わる場合に、Dが学習初期の識別境界を忘却しないように働く
20
3. Proposed Method
Self-Supervision during GAN training
1. Introduction
2. Related Work
3. Proposed Method
4. Experiments
5. Conclusion
21
Agenda
• アーキテクチャ&ハイパラ
– 基本的にはBigGAN [Brock+ ICLR’19] と同じ
– Orthogonal InitializationとTruncation Trickは使わない
– 128x128x3にリサイズした画像をバッチサイズ2048で学習(TPU v3 x 128 core)
• データセット
– ImageNet(#class=1K, #training=1.3M, #test=50K)
• 評価指標
– FID(Fréchet Inception Distance):低いほどよい
– IS(Inception Score):高いほどよい
22
4. Experiments
Experimental Settings
• 比較手法
23
4. Experiments
Experimental Settings
• 比較手法
24
4. Experiments
Experimental Settings
Baseline (Supervised)
Unsupervised
Semi-Supervised
Self-Supervised
BigGAN(再現実装)
FID 8.4
IS 75.0
cf. BigGAN (19/02/25)
FID 7.5
IS 166.5
• BigGANと比べると、完全な教師なしは分が悪い
• が、既存の教師なしのSoTA(FID=33)よりは良い
– [Chen+ CVPR’19] Self-Supervised GANs
25
4. Experiments
Results: Unsupervised Approaches
SS:Self-supervisionをGANの訓練中に行ったもの
BigGAN
FID 8.4
IS 75.0
• 20%のラベルを使うと、BigGANに匹敵する精度
• 同時学習(*-CO)は事前学習より精度は悪いが、
同数のラベルを使うBigGAN-k%より学習は安定
• 少量のラベルでも、完全な教師なしより大幅に改善
– 2.5%でもFID=13.6, IS=46.3となった
26
4. Experiments
Results: Semi-supervised Approaches
BigGAN
FID 8.4
IS 75.0
• GANの訓練中もDにSelf-Supervisionの補助タスクを与えたもの
• 10%でBigGANに匹敵、20%でBigGANを越えSoTAを達成
27
4. Experiments
Results: Self-supervision during GAN training
• 少ラベルでも高画質な画像を生成可能
28
4. Experiments
Results:
S3GAN(ラベル10%, 256x256):潜在空間でinterpolation
• 少ラベルでも高画質な画像を生成可能
29
4. Experiments
Results:
S3GAN(ラベル10%, 256x256):1つのクラスから多様な画像を生成
1. Introduction
2. Related Work
3. Proposed Method
4. Experiments
5. Conclusion
30
Agenda
• 画像生成におけるSoTAのGANモデル(BigGAN)において、
必要なラベルデータの数を削減する方法を多面的に検討し実証
• 近年発展が進むSemi-supervised / Self-Supervised Learningを活用することでSoTAを達成
• Future Work
– より大きく多様なデータセットにも適用できるかの検証
– 他のSemi-supervised / Self-Supervised Learningの手法の検証
– 他の深層生成モデルでの検証
31
5. Conclusion
• Hierarchical Autoregressive Image Models with Auxiliary Decoders [De Fauw+ 19.03]
– 同日2019/03/06にarXivに投稿された、自己回帰モデルベースの画像生成の論文
– Jeffrey De Fauw, Sander Dieleman, Karen Simonyan(DeepMind)
• GANベースと比べた自己回帰モデルベースの手法の特徴
– Pros:
• localなtextureやdetailを捉えるのに優れている
• GANのようにMode Collapseに陥らない
– Cons:structureやlarge-scale coherenceが苦手
• アーキテクチャレベルの帰納バイアスの問題
• 尤度最大化により生じる問題
• 既存の解決策:局所的な情報を取り除く
– Glow [Kingma+ NIPS’18], SPN + Multidimensional Upscaling [Menick+ ICLR’19]
• 提案手法:Auxiliary Decoderで入力表現を学習し、それをAR priorに適用する2stage型
32
おまけ
• 論文
[Bojanowski+ ICML'17] Unsupervised Learning by Predicting Noise
[Brock+ ICLR’19] Large Scale GAN Training for High Fidelity Natural Image Synthesis
[Caron+ ECCV’18] Deep Clustering for Unsupervised Learning of Visual Features
[Chen+ ICLR'19] On Self Modulation for Generative Adversarial Networks
[Chen+ CVPR'19] Self-Supervised Generative Adversarial Networks
[Devon Hjelm+ ICLR’19] Learning deep representations by mutual information estimation and maximization
[De Vries+ NIPS'17] Modulating early visual processing by language
[Doersch+ ICCV’15] Unsupervised Visual Representation Learning by Context Prediction
[Gidaris+ ICLR'18] Unsupervised Representation Learning by Predicting Image Rotations
[Kolesnikov+ CVPR'19] Revisiting Self-Supervised Visual Representation Learning
[Noroozi+ ECCV'16] Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles
[Noroozi+ ICCV'17] Representation Learning by Learning to Count
[Noroozi+ CVPR’18] Boosting Self-Supervised Learning viaKnowledge Transfer
[Miyato+ ICLR'18] cGANs with Projection Discriminator
[Mundhenk+ CVPR'18] Improvements to context based self-supervised learning
[Oord+ 18.07] Representation Learning with Contrastive Predictive Coding
[Pathak+ CVPR’16] Context encoders: Feature learning by inpainting
[Wu+ CVPR’18] Self-Supervised Feature Learning by Learning to Spot Artifacts
[Wu+ CVPR'18] Unsupervised Feature Learning via Non-Parametric Instance Discrimination
[Zhang+ ECCV’16] Colorful Image Colorization
[Zhang+ CVPR'17] Split-brain Autoencoders: Unsupervised Learning by Cross-channel Prediction
[Zhang+ CVPR’18] Self-Attention Generative Adversarial Networks
• 記事
[DL輪読会]Large Scale GAN Training for High Fidelity Natural Image Synthesis
Self-supervised Learning による特徴表現学習 | cvpaper.challenge
33
参考文献

More Related Content

PPTX
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
 
PDF
変分推論と Normalizing Flow
Akihiro Nitta
 
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
 
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
 
PDF
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
 
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
 
PDF
文献紹介:Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight...
Toru Tamaki
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
 
変分推論と Normalizing Flow
Akihiro Nitta
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
 
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
 
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
 
文献紹介:Simpler Is Better: Few-Shot Semantic Segmentation With Classifier Weight...
Toru Tamaki
 

What's hot (20)

PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
 
PPTX
【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES
Deep Learning JP
 
PDF
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
Deep Learning JP
 
PDF
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
SSII
 
PDF
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
Deep Learning JP
 
PPTX
[DL輪読会]DropBlock: A regularization method for convolutional networks
Deep Learning JP
 
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
PDF
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
Deep Learning JP
 
PPTX
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
 
PDF
【DL輪読会】Aspect-based Analysis of Advertising Appeals for Search Engine Advert...
Deep Learning JP
 
PPTX
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
Deep Learning JP
 
PPTX
猫でも分かるVariational AutoEncoder
Sho Tatsuno
 
PDF
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
Shintaro Yoshida
 
PPTX
Learning to summarize from human feedback
harmonylab
 
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
PPTX
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
 
PPTX
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
Deep Learning JP
 
PDF
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
Deep Learning JP
 
PPTX
ResNetの仕組み
Kota Nagasato
 
PDF
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
 
【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES
Deep Learning JP
 
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
Deep Learning JP
 
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
SSII
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
Deep Learning JP
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
Deep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
Deep Learning JP
 
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
 
【DL輪読会】Aspect-based Analysis of Advertising Appeals for Search Engine Advert...
Deep Learning JP
 
【DL輪読会】GET3D: A Generative Model of High Quality 3D Textured Shapes Learned f...
Deep Learning JP
 
猫でも分かるVariational AutoEncoder
Sho Tatsuno
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
Shintaro Yoshida
 
Learning to summarize from human feedback
harmonylab
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
Deep Learning JP
 
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
Deep Learning JP
 
ResNetの仕組み
Kota Nagasato
 
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks
 
Ad

Similar to [DL輪読会]High-Fidelity Image Generation with Fewer Labels (20)

PDF
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
PPTX
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
 
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida
 
PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
Tenki Lee
 
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
PDF
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
harmonylab
 
PDF
[DL Hacks]Self-Attention Generative Adversarial Networks
Deep Learning JP
 
PPTX
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
Yusuke Iwasawa
 
PDF
20180622 munit multimodal unsupervised image-to-image translation
h m
 
PDF
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
Tenki Lee
 
PDF
Contrastive learning 20200607
ぱんいち すみもと
 
PDF
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
Yusuke Iwasawa
 
PDF
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Tatsuya Shirakawa
 
PPTX
CVPR2018 参加報告(速報版)初日
Atsushi Hashimoto
 
PDF
【DL輪読会】Learning Instance-Specific Adaptation for Cross-Domain Segmentation (E...
Deep Learning JP
 
PDF
220707_ishizone_class_imbalance_SSL.pdf
ssuser70401c
 
PDF
Deep Learningの基礎と応用
Seiya Tokui
 
PPTX
Survey on Test Time Adaptation.pptx
Kaito Sugiyama
 
PDF
Deep learningの概要とドメインモデルの変遷
Taiga Nomi
 
PPT
Deep Learningの技術と未来
Seiya Tokui
 
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
Tenki Lee
 
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
harmonylab
 
[DL Hacks]Self-Attention Generative Adversarial Networks
Deep Learning JP
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
Yusuke Iwasawa
 
20180622 munit multimodal unsupervised image-to-image translation
h m
 
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
Tenki Lee
 
Contrastive learning 20200607
ぱんいち すみもと
 
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
Yusuke Iwasawa
 
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Tatsuya Shirakawa
 
CVPR2018 参加報告(速報版)初日
Atsushi Hashimoto
 
【DL輪読会】Learning Instance-Specific Adaptation for Cross-Domain Segmentation (E...
Deep Learning JP
 
220707_ishizone_class_imbalance_SSL.pdf
ssuser70401c
 
Deep Learningの基礎と応用
Seiya Tokui
 
Survey on Test Time Adaptation.pptx
Kaito Sugiyama
 
Deep learningの概要とドメインモデルの変遷
Taiga Nomi
 
Deep Learningの技術と未来
Seiya Tokui
 
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 

Recently uploaded (11)

PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PDF
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 

[DL輪読会]High-Fidelity Image Generation with Fewer Labels

  • 1. DEEP LEARNING JP [DL Seminar] High-Fidelity Image Generation with Fewer Labels Hiromi Nakagawa, Matsuo Lab https://deeplearning.jp
  • 2. • タイトル – High-Fidelity Image Generation with Fewer Labels • 著者 – Mario Lucic, Michael Tschannen, Marvin Ritter, Xiaohua Zhai, Olivier Bachem, Sylvain Gelly – Google Brain • 投稿 – 2019/03/06 @ arXiv • 概要 – Semi-supervised/Self-supervised Learningを活用したconditional-GANの機構を整理・導入 – BigGANの10~20%程度の少ラベルデータでも同等以上の精度で画像を生成できる手法を提案 2 書誌情報
  • 3. 1. Introduction 2. Related Work 3. Proposed Method 4. Experiments 5. Conclusion 3 Agenda
  • 4. GANを用いたHigh-Fidelity(高精細)な画像生成は、近年の様々な工夫により発展してきた • 大規模モデルの利用 – BigGAN [Brock+ ICLR‘19] – SPN(自己回帰モデル) [Menick+ ICLR’19] • アーキテクチャの改良 – SAGAN [Zhang+ CVPR’18] – Self Modulation [Chen+ ICLR'19] – StyleGAN [Karras+ 18.12] • 正則化 – SNGAN [Miyato+ ICLR'18] 4 1. Introduction GANを用いたHigh-Fidelityな画像生成の発展
  • 5. • 既存のHigh-Fidelityな画像の生成には、大量のラベルあり(Labeled)データが必要 – 例:BigGAN – ラベルの持つ情報が高品質な画像の生成を助けている • しかし、実際にはラベルのない(Unlabeled)データのほうが多い – ラベルづけはコストが高い上に、ミスもある • 本研究ではSemi-supervised & Self-supervised Learningを活用し、 少ラベルでもSoTAのモデルを上回る画像を生成できる手法を提案 – 貢献1:自然画像生成のタスクにおいて、必要なラベルの量を削減する多様な手法を調査・提案 – 貢献2:Un/Semi-supervisedな画像生成でSoTA(10%でBigGANと同じ、20%で上回る) – 貢献3:コード公開( https://github.com/google/compare_gan ) 5 1. Introduction ラベルデータと画像生成の質
  • 6. 1. Introduction 2. Related Work 3. Proposed Method 4. Experiments 5. Conclusion 6 Agenda
  • 7. BigGAN • Large Scale GAN Training for High Fidelity Natural Image Synthesis [Brock+ ICLR’19] • SAGAN [Zhang+ ICLR’18]をベースにしたスケーラブルなアーキテクチャ x 大規模計算資源(TPU v3 x 128+ core) – バッチサイズやチャネルを大きくする→入力の多様性が増えてmode collapseしにくい&学習の(現実的な)速度も速い – PGGANのように逐次的に解像度を上げる必要もなく、直接512x512を生成可能 • 様々な性能向上の工夫 – Shared Embedding – Hierarchical Latent Spaces – Truncated Trick – Orthogonal Regularization • Gはconditional Batch Norm [De Vries+ NIPS’17]でラベルの条件付け • DはProjection Discriminator [Miyato+ ICLR’18]でラベルの条件付け 7 2. Related Work High-Fidelity GANs on ImageNet 2018/10/05 西村さんの発表 [DL輪読会]Large Scale GANTraining for High Fidelity Natural Image Synthesis
  • 8. Conditional Batch Norm • Modulating early visual processing by language [De Vries+ NIPS’17] • 元はVisual Question Answeringの文脈で提案 • 任意のモデルの出力をベースにBatch Normを行う 8 2. Related Work High-Fidelity GANs on ImageNet
  • 9. Projection Discriminator • cGANs with Projection Discriminator [Miyato+ ICLR’18] • cGANとして従来用いられてきたのはACGAN [Odena+ ICML’17] – DはReal/Fakeの識別と画像のクラス分類の2つのロスを最適化→多クラスでの学習が困難 • クラス条件ベクトルyを線形写像→Dの出力(φ)と内積を取り、Dの出力を変換(ψ)したものと足し合わせ • 以下2つを1つのAdversarial Lossで定義可能 – Dの入力画像のReal/Fake – Dの入力画像のクラス情報に基づくReal/Fake • ACGANから大きく精度改善 • SAGANやBigGANのDのベース 9 2. Related Work High-Fidelity GANs on ImageNet
  • 10. • 教師なし特徴表現学習 – 目的タスク(target task)に有効なデータの特徴表現を、 ラベルフリーな疑似タスク(pretext task)を事前に解くことで獲得 • Self-Supervised Learning – 中でも、自動で生成できる教師信号を用いてpretext taskを定義するもの • 代表的なPretext taskの例 10 2. Related Work Self-supervised Learning Source: Self-supervised Learning による特徴表現学習 | cvpaper.challenge • Context Prediction • Jigsaw • Jigsaw++ • Rotation • Context Encoder • Colorization • Split-Brain • SpotArtifact • Counting • Noise asTarget • Instance Discrimination • VAE系 • GAN系 識別系 ※基本的にSelf-supervised Learning と言われない 再構成系 その他 生成モデル系
  • 11. • 識別系:教師なしデータxに対応する、自動で得られるカテゴリtを定義して教師ありの識別を学習 11 2. Related Work Self-supervised Learning Source: Self-supervised Learning による特徴表現学習 | cvpaper.challenge Context Prediction [Doersch+ ICCV'15] 画像を3x3に分割して2つのパッチの相対位置を8クラス分類 Rotation [Gidaris+ ICLR'18] 画像の回転推定(SoTA & 実装が簡単) Jigsaw [Noroozi+ ECCV’16] パッチをランダムな順に入力し、正しい順列をクラス識別 Jigsaw++ [Noroozi + CVPR’18] 一部のパッチを他の画像のパッチに置き換える
  • 12. • 再構成系:x={x1,x2}の一部を観測できている状態でxまたはx2を推定 12 2. Related Work Self-supervised Learning Source: Self-supervised Learning による特徴表現学習 | cvpaper.challenge Context Encoder [Pathak+CVPR'16] 欠損画像の補完を回帰で学習 Split-Brain [Zhang+CVPR’17] ネットワークをチャネル方向に2分割し、L⇔abのアンサンブル Colorization [Zhang+ ECCV’16] グレースケール画像(L)の色付け(ab)(量子化したab空間の識別) SpotArtifact [Wu + CVPR’18] 特徴マップ上で欠損させた画像の補完
  • 13. • その他 13 2. Related Work Self-supervised Learning Source: Self-supervised Learning による特徴表現学習 | cvpaper.challenge Counting [Noroozi+ ICCV’17] 分割画像と元画像を同じCNNに入力し、 元画像の出力特徴=全分割画像の出力特徴の和 となるような制約をかける Instance Discrimination [Wu+ CVPR'18] 各画像インスタンスを1つのクラスとして識別、 各画像の特徴ベクトルが超球上に まばらに散るような埋め込みになる Noise asTarget [Bojanowski+ ICML’17] 一様にサンプリングしたtarget vectorsに 各画像からの出力を1v1に対応させ、近づける (特徴ベクトルを特徴空間上に一様に分散)
  • 14. • 最新動向:データ構造に依存しない手法の成功 14 2. Related Work Self-supervised Learning Source: Self-supervised Learning による特徴表現学習 | cvpaper.challenge Deep Cluster [Caron+ ECCV’18] CNNの中間特徴を元にk-meansクラスタリング →クラスタを擬似ラベルとして識別問題を学習 CPC [Oord+ 18.07] 系列情報においてある時点での特徴ベクトルc_t と先の入力x_t+1の相互情報量を最大化 DがN個のペアから1つのpositiveペアを識別する Nクラス分類問題を解くことでIの下限を最大化 Deep INFORMAX [Devon Hjelm++ ICLR’19] 入力xと特徴ベクトルzの相互情報量を 最大化するように学習 (x, z)のペアのpos-neg識別をするDをつけて end-to-endに学習するだけでI(x;z)の下限を最大化
  • 15. • Self-Supervised Generative Adversarial Networks [Chen+ CVPR'19] – NN→破滅的忘却、GANでも、Gの生成分布が動的に変化していくため、Dが学習初期の識別境界を忘れて学習が不安定になる – ラベルがある場合はラベルの条件付けである程度回避できるが、ラベルがないときでもSelf-supervisedに解決したい – Dは画像の回転の判定を真データのみから学習することで安定化 – Self-supervised LearningをDの学習に反映させた点で、本研究のベース(同じグループ) • Revisiting Self-Supervised Visual Representation Learning [Kolesnikov+ CVPR'19] – タスクだけでなく、CNNのアーキテクチャも考慮しながら、 Self-supervised Learningの多様な手法を検証 – 教師ありの相対的な精度に完全に比例するわけではない – 特に、Self-Supervised LearningではSkip-Connectionがあることが重要 – アーキテクチャによってタスクの相性の善し悪しがある – CNNのフィルタを増やすことに依る表現の質の向上の幅が、教師ありよりも大きい 15 2. Related Work Self-supervised Learning
  • 16. 1. Introduction 2. Related Work 3. Proposed Method 4. Experiments 5. Conclusion 16 Agenda
  • 17. • cGANにおけるラベルの意味合い – Supervised Learning:人のラベル付けをDの学習に使う – Self-Supervised Learning:自分で推論したラベルをDの学習に使う • DにはProjection Discriminatorでラベル情報を渡す – Dを表現学習を行う 𝐷 と線形分類器の 𝑐 𝑟/𝑓に分解し、𝐷(𝑥, 𝑦) = 𝑐 𝑟/𝑓( 𝐷 𝑥 + 𝑃( 𝐷 𝑥 , 𝑦) と表す( 𝑃 は線形写像) • Gにはclass-conditional Batch Norm [Dumoulin+ ICLR’17, De Vries+ NIPS’17] でラベル情報を渡す 17 3. Proposed Method Incorporating the labels Projection Discriminatorを用いた基本的なcGANの構造 本研究では、3つのアプローチを検証 • Pre-trained approaches • Co-training approaches • Self-supervision during GAN training
  • 18. • Unsupervised clustering-based method(CLUSTERING) – 特徴抽出器 𝐹 を教師なし表現学習でSoTAの画像の回転を予測するタスクでSelf-Supervisedに学習 • [Gidaris+ ICLR'18] Unsupervised Representation Learning by Predicting Image Rotations • [Kolesnikov+ CVPR'19] Revisiting Self-Supervised Visual Representation Learning – 学習した表現をk-Meansでクラスタリング(𝑐 𝐶𝐿)し、得られたラベルを疑似ラベルとしてGANを訓練 – つまり、 𝑦 𝐶𝐿 = 𝑐 𝐶𝐿(𝐹(𝑥)) をラベルとしてGANを訓練 • Semi-supervised method(S2GAN) – 表現学習時に少量のラベル識別器(𝑐𝑆2 𝐿)を入れてそのロスも最適化 – GANの学習時は特徴抽出器 𝐹 と 𝑐 𝐶𝐿 だけがCLUSTERINGと異なる 18 3. Proposed Method Pre-trained approaches CLUSTERING
  • 19. • ラベルの情報をGANの訓練と同時に学習する • Unsupervised method(SINGEL LABEL / RANDOM LABEL) – ラベル情報を除去 – SINGLE LABEL:全サンプルに同じクラスラベルを付与し、Projection Layerを除去 – RANDOM LABEL:ラベルなし実画像にランダムにラベルを付与 • 学習可能かつ 𝑧 以外のrandomnessを加えられるからGの学習に良いらしい • fakeデータに対するラベル付けもDの学習に良いらしい • Semi-supervised method(S2GAN-CO) – 𝐷 の特徴表現から少ラベルの分類を行う線形分類器 𝑐 𝐶𝑇を導入 – GANと同時に学習 19 3. Proposed Method Co-training approaches S2GAN-CO
  • 20. • Pre-training / Co-training approachesでは、 𝐹 の良い表現を得るためにSelf-/Semi-Supervised Learningを用いた • Discriminator自体も分類器→補助タスクが役に立つはず • 同様に回転を予測するタスクでGANの学習時もDをSelf-Supervision – [Chen+ CVPR‘19] Self-Supervised GANs で学習が安定化することが実証されている – 学習が進むに連れてGの生成分布が動的に変わる場合に、Dが学習初期の識別境界を忘却しないように働く 20 3. Proposed Method Self-Supervision during GAN training
  • 21. 1. Introduction 2. Related Work 3. Proposed Method 4. Experiments 5. Conclusion 21 Agenda
  • 22. • アーキテクチャ&ハイパラ – 基本的にはBigGAN [Brock+ ICLR’19] と同じ – Orthogonal InitializationとTruncation Trickは使わない – 128x128x3にリサイズした画像をバッチサイズ2048で学習(TPU v3 x 128 core) • データセット – ImageNet(#class=1K, #training=1.3M, #test=50K) • 評価指標 – FID(Fréchet Inception Distance):低いほどよい – IS(Inception Score):高いほどよい 22 4. Experiments Experimental Settings
  • 24. • 比較手法 24 4. Experiments Experimental Settings Baseline (Supervised) Unsupervised Semi-Supervised Self-Supervised BigGAN(再現実装) FID 8.4 IS 75.0 cf. BigGAN (19/02/25) FID 7.5 IS 166.5
  • 25. • BigGANと比べると、完全な教師なしは分が悪い • が、既存の教師なしのSoTA(FID=33)よりは良い – [Chen+ CVPR’19] Self-Supervised GANs 25 4. Experiments Results: Unsupervised Approaches SS:Self-supervisionをGANの訓練中に行ったもの BigGAN FID 8.4 IS 75.0
  • 26. • 20%のラベルを使うと、BigGANに匹敵する精度 • 同時学習(*-CO)は事前学習より精度は悪いが、 同数のラベルを使うBigGAN-k%より学習は安定 • 少量のラベルでも、完全な教師なしより大幅に改善 – 2.5%でもFID=13.6, IS=46.3となった 26 4. Experiments Results: Semi-supervised Approaches BigGAN FID 8.4 IS 75.0
  • 30. 1. Introduction 2. Related Work 3. Proposed Method 4. Experiments 5. Conclusion 30 Agenda
  • 31. • 画像生成におけるSoTAのGANモデル(BigGAN)において、 必要なラベルデータの数を削減する方法を多面的に検討し実証 • 近年発展が進むSemi-supervised / Self-Supervised Learningを活用することでSoTAを達成 • Future Work – より大きく多様なデータセットにも適用できるかの検証 – 他のSemi-supervised / Self-Supervised Learningの手法の検証 – 他の深層生成モデルでの検証 31 5. Conclusion
  • 32. • Hierarchical Autoregressive Image Models with Auxiliary Decoders [De Fauw+ 19.03] – 同日2019/03/06にarXivに投稿された、自己回帰モデルベースの画像生成の論文 – Jeffrey De Fauw, Sander Dieleman, Karen Simonyan(DeepMind) • GANベースと比べた自己回帰モデルベースの手法の特徴 – Pros: • localなtextureやdetailを捉えるのに優れている • GANのようにMode Collapseに陥らない – Cons:structureやlarge-scale coherenceが苦手 • アーキテクチャレベルの帰納バイアスの問題 • 尤度最大化により生じる問題 • 既存の解決策:局所的な情報を取り除く – Glow [Kingma+ NIPS’18], SPN + Multidimensional Upscaling [Menick+ ICLR’19] • 提案手法:Auxiliary Decoderで入力表現を学習し、それをAR priorに適用する2stage型 32 おまけ
  • 33. • 論文 [Bojanowski+ ICML'17] Unsupervised Learning by Predicting Noise [Brock+ ICLR’19] Large Scale GAN Training for High Fidelity Natural Image Synthesis [Caron+ ECCV’18] Deep Clustering for Unsupervised Learning of Visual Features [Chen+ ICLR'19] On Self Modulation for Generative Adversarial Networks [Chen+ CVPR'19] Self-Supervised Generative Adversarial Networks [Devon Hjelm+ ICLR’19] Learning deep representations by mutual information estimation and maximization [De Vries+ NIPS'17] Modulating early visual processing by language [Doersch+ ICCV’15] Unsupervised Visual Representation Learning by Context Prediction [Gidaris+ ICLR'18] Unsupervised Representation Learning by Predicting Image Rotations [Kolesnikov+ CVPR'19] Revisiting Self-Supervised Visual Representation Learning [Noroozi+ ECCV'16] Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles [Noroozi+ ICCV'17] Representation Learning by Learning to Count [Noroozi+ CVPR’18] Boosting Self-Supervised Learning viaKnowledge Transfer [Miyato+ ICLR'18] cGANs with Projection Discriminator [Mundhenk+ CVPR'18] Improvements to context based self-supervised learning [Oord+ 18.07] Representation Learning with Contrastive Predictive Coding [Pathak+ CVPR’16] Context encoders: Feature learning by inpainting [Wu+ CVPR’18] Self-Supervised Feature Learning by Learning to Spot Artifacts [Wu+ CVPR'18] Unsupervised Feature Learning via Non-Parametric Instance Discrimination [Zhang+ ECCV’16] Colorful Image Colorization [Zhang+ CVPR'17] Split-brain Autoencoders: Unsupervised Learning by Cross-channel Prediction [Zhang+ CVPR’18] Self-Attention Generative Adversarial Networks • 記事 [DL輪読会]Large Scale GAN Training for High Fidelity Natural Image Synthesis Self-supervised Learning による特徴表現学習 | cvpaper.challenge 33 参考文献