SlideShare a Scribd company logo
Semi-Supervised Learning
with Ladder Networks
DL Hacks Paper Reading, 2016.1.7 Yusuke IWASAWA
書誌情報
• Proc. NIPS2015 and arXiv
• arXivの方が若干詳しいのでオススメ
• Authours:
• Antti Ramsus, Harri Valpola, Mikko Honkala, Mathias Berglund, and Tapani
Raiko
• #citations: 10
• 選定理由
• 精度が良い
• 半教師、教師なし学習界隈の戦いがすごい
Abstract
• Ladder Network [Valpola, 2015]を応用したDeepでSemi-supervised
なモデルを提案
• 提案手法は、階層的潜在空間モデルをdenoising functionの
学習を通して効率的に学習可能
• 精度がとても良い
• MNISTとCIFAR-10の半教師あり学習でstate-of-the-art
• Permutation-MNISTでもstate-of-the-art
Introduction: Motivations
• 教師ありは強力、しかし教師なしデータも有効活用したい
• もっとも単純な方法の1つは潜在空間モデルを利用すること
• Ex. Auto Encoderで入力データを潜在空間に飛ばす+Fine Tuning
• ただし、単層の潜在空間だと表現力足りない
-> Deepにしたい
• Deepにする方法では、sDA + Fine Tuningがもっとも一般的
• sDAではタスクを解くのに不必要な情報も保存してしまう
• Ex. 位置などのピクセルレベルの情報
-> Deepな潜在空間モデルを解く別の方法が必要
Introduction: 提案手法
Semi-Supervised
Ladder Network
まず [Valpola, 2015]を参考にこいつを
説明します
Ladder Network: 概要 • 潜在空間モデルをUnsupervised
に学習する方法
• ハシゴみたいな形してるので
Ladder Network
• sDAと比較すると、Encoderと
Decoderの間にConnectionが張
られている
• 青: Encoder
• オレンジ: Decoder
Cited From “From Neural PCA to
Deep Unsupervised Learning”
Ladder Network: 何をするのか
• 結論から言えば、Denoising Source Separationをする
• これ自体2005年の論文で発表された方法
• 複数の情報が混ざった観測信号から元の複数の情報源を取り出す方法
• 40ページある
• Source separationもRepresentation learningも入力をうまく分解するとい
う観点では同じ(岩澤解釈)
• DSS: ノイズを加えた潜在変数z~
から加える前の潜在変数zを再
構成する
• sDA: ノイズを加えた入力から1つ前の層を再構成する
Ladder Network: 何をするのか(図示)
• 各層でノイズ付きのh~(l)から
ノイズを入れる前のh(l)を再
構成(h^(l))
• 誤差関数C(l)は2乗和誤差
• 誤差関数の重み付き和を
小さくするようなg(l)を学習
する
• C = Σλ(l) C(l)
Ladder Network: 何をしてるのか
• Denoising function gの学習により階
層的潜在変数モデルを学習
• [Bengio, 2013]
denoising functionがわかれば確率密
度を推定できる
• 良いgを求めることと良いモデル
(分布の良い近似)を得ることは
本質的に近い関係にある
図: Denoisingの周辺尤度の関係
P(z)
P(z~)
g
Ladder Network vs. Auto Encoder
• Auto Encoder(複数レイヤを一気に学習)
• そもそも学習が難しい
• 学習が遅い
• Auto Encoder(Layer Wise)
• 細部まで再現しようとする
(顔のような概念を獲得してもReconstruction Errorは下がらない)
• Deepにすると上の層で誤差が蓄積する
• Ladder Network
• 上の層はより抽象的な情報だけに集中できる
(細部の再構築は下の層に任せることができる)
Semi-supervised Ladder Net
• ラベル有りデータについ
てはその情報を利用する
• 純粋にクラス分類コスト
を追加して学習
• C = Ce + Σλ(l) Cd
(l)
• 学習にはCorrupted
Encoder(左)を利用
• 予測ではClean Encoder
(右)を利用する
Corrupted
Encoder
Decoder
Clean
Encoder
Ce
Implementation of the Model
1. Encoderを訓練※(CorruptedとCleanの2種類)
• MLPでもCNNでもRNNでも良い
• 2種類といっても重みは共有してるので実際は1種類
2. 各層で条件付き分布 𝑝(𝑧 𝑙|𝑧 𝑙+1) を求める
• 今回の実験ではガウス分布を仮定してそのパラメタをNNで求める
3. 2.の条件付き分布に乗ったノイズをうまくキャンセルするよ
うな関数gを定義する
• 次スライドで話します
4. Fully-labeled or Semi-supervisedな設定でネットワーク全体を
SGDで学習する
※論文に”1. Train any standard feedforward neural networks”と書かれているのでたぶん
先に学習しておくんじゃないかなと思いますがちょっと微妙です
Denoising function g
• 理想的なgの形は分布の形に依存
• 左カラム:分布の形
• 右カラム:理想的なgの形
• 上から順に、次の3つの例
• Super-Gaussian
• Sub-Gaussian
• Gaussian
• 今回はGaussianを使うので線形
• 具体的な式はちょっと複雑になる
ので実装したい人は論文参照
Γmodel: Special Case of Ladder Network
• 一番上の層だけ再構築
• Decoderがいらなくなるの
で実装が楽
• 結果で示すようにこれで
もまぁまぁ精度良い
黒枠の中をそっくり無くす
Experimental Setup
• Datasets: Permutation MNIST, MNIST, CIFAR-10
• Encoder: MLPとCNN
• Baselines: いろいろ
• Training:
• Adam(lr=0.002)
• Lr scheduling (linearly decreasing to zero at final epoch)
• Minibatch size = 100
• The source codes:
• https://github.com/arasmus/ladder
Results: Permutation MNIST (MLP)
• 使ったラベル数によらずState-of-the-art
• 特にラベル数が少ない場合に良い精度(エラー率でVAEの1/3)
Results: MNIST (CNN)
• State-of-the-art
• Full Labeledの評価がないのが若干気になる
(Full Labeledなら普通にCNN使えばいい話な気もする
Results: CIFAR10 (CNN)
• ラベルが限られてる場合は普通のCNNより良い
• 特に少数ラベルの場合高精度
Conclusion and Future Direction
• 複数の半教師ありタスクでstate-of-the-artなモデルを提案
• 今後は次の方針で進める予定
• どのようなEncoder+Decoderの組み合わせが適切か
• 時系列方向での発展

More Related Content

More from Yusuke Iwasawa (13)

PPTX
JSAI2018 類似度学習を用いた敵対的訓練による 特徴表現の検閲
Yusuke Iwasawa
 
PPTX
"Universal Planning Networks" and "Composable Planning with Attributes"
Yusuke Iwasawa
 
PPTX
ICLR2018参加報告
Yusuke Iwasawa
 
PPTX
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
Yusuke Iwasawa
 
PPTX
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
Yusuke Iwasawa
 
PPTX
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
Yusuke Iwasawa
 
PPTX
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
Yusuke Iwasawa
 
PPTX
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
Yusuke Iwasawa
 
PPTX
Paper Reading, "On Causal and Anticausal Learning", ICML-12
Yusuke Iwasawa
 
PPTX
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
Yusuke Iwasawa
 
PPTX
[Paper Reading] Learning Distributed Representations for Structured Output Pr...
Yusuke Iwasawa
 
PDF
[DL Hacks] Self Paced Learning with Diversity
Yusuke Iwasawa
 
PDF
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
Yusuke Iwasawa
 
JSAI2018 類似度学習を用いた敵対的訓練による 特徴表現の検閲
Yusuke Iwasawa
 
"Universal Planning Networks" and "Composable Planning with Attributes"
Yusuke Iwasawa
 
ICLR2018参加報告
Yusuke Iwasawa
 
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
Yusuke Iwasawa
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
Yusuke Iwasawa
 
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
Yusuke Iwasawa
 
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
Yusuke Iwasawa
 
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
Yusuke Iwasawa
 
Paper Reading, "On Causal and Anticausal Learning", ICML-12
Yusuke Iwasawa
 
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
Yusuke Iwasawa
 
[Paper Reading] Learning Distributed Representations for Structured Output Pr...
Yusuke Iwasawa
 
[DL Hacks] Self Paced Learning with Diversity
Yusuke Iwasawa
 
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
Yusuke Iwasawa
 

Recently uploaded (7)

PDF
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
PDF
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
PDF
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
PDF
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
PDF
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
PDF
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
NTT DATA Technology & Innovation
 
PDF
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
NTT DATA Technology & Innovation
 
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 

[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)

  • 1. Semi-Supervised Learning with Ladder Networks DL Hacks Paper Reading, 2016.1.7 Yusuke IWASAWA
  • 2. 書誌情報 • Proc. NIPS2015 and arXiv • arXivの方が若干詳しいのでオススメ • Authours: • Antti Ramsus, Harri Valpola, Mikko Honkala, Mathias Berglund, and Tapani Raiko • #citations: 10 • 選定理由 • 精度が良い • 半教師、教師なし学習界隈の戦いがすごい
  • 3. Abstract • Ladder Network [Valpola, 2015]を応用したDeepでSemi-supervised なモデルを提案 • 提案手法は、階層的潜在空間モデルをdenoising functionの 学習を通して効率的に学習可能 • 精度がとても良い • MNISTとCIFAR-10の半教師あり学習でstate-of-the-art • Permutation-MNISTでもstate-of-the-art
  • 4. Introduction: Motivations • 教師ありは強力、しかし教師なしデータも有効活用したい • もっとも単純な方法の1つは潜在空間モデルを利用すること • Ex. Auto Encoderで入力データを潜在空間に飛ばす+Fine Tuning • ただし、単層の潜在空間だと表現力足りない -> Deepにしたい • Deepにする方法では、sDA + Fine Tuningがもっとも一般的 • sDAではタスクを解くのに不必要な情報も保存してしまう • Ex. 位置などのピクセルレベルの情報 -> Deepな潜在空間モデルを解く別の方法が必要
  • 5. Introduction: 提案手法 Semi-Supervised Ladder Network まず [Valpola, 2015]を参考にこいつを 説明します
  • 6. Ladder Network: 概要 • 潜在空間モデルをUnsupervised に学習する方法 • ハシゴみたいな形してるので Ladder Network • sDAと比較すると、Encoderと Decoderの間にConnectionが張 られている • 青: Encoder • オレンジ: Decoder Cited From “From Neural PCA to Deep Unsupervised Learning”
  • 7. Ladder Network: 何をするのか • 結論から言えば、Denoising Source Separationをする • これ自体2005年の論文で発表された方法 • 複数の情報が混ざった観測信号から元の複数の情報源を取り出す方法 • 40ページある • Source separationもRepresentation learningも入力をうまく分解するとい う観点では同じ(岩澤解釈) • DSS: ノイズを加えた潜在変数z~ から加える前の潜在変数zを再 構成する • sDA: ノイズを加えた入力から1つ前の層を再構成する
  • 8. Ladder Network: 何をするのか(図示) • 各層でノイズ付きのh~(l)から ノイズを入れる前のh(l)を再 構成(h^(l)) • 誤差関数C(l)は2乗和誤差 • 誤差関数の重み付き和を 小さくするようなg(l)を学習 する • C = Σλ(l) C(l)
  • 9. Ladder Network: 何をしてるのか • Denoising function gの学習により階 層的潜在変数モデルを学習 • [Bengio, 2013] denoising functionがわかれば確率密 度を推定できる • 良いgを求めることと良いモデル (分布の良い近似)を得ることは 本質的に近い関係にある 図: Denoisingの周辺尤度の関係 P(z) P(z~) g
  • 10. Ladder Network vs. Auto Encoder • Auto Encoder(複数レイヤを一気に学習) • そもそも学習が難しい • 学習が遅い • Auto Encoder(Layer Wise) • 細部まで再現しようとする (顔のような概念を獲得してもReconstruction Errorは下がらない) • Deepにすると上の層で誤差が蓄積する • Ladder Network • 上の層はより抽象的な情報だけに集中できる (細部の再構築は下の層に任せることができる)
  • 11. Semi-supervised Ladder Net • ラベル有りデータについ てはその情報を利用する • 純粋にクラス分類コスト を追加して学習 • C = Ce + Σλ(l) Cd (l) • 学習にはCorrupted Encoder(左)を利用 • 予測ではClean Encoder (右)を利用する Corrupted Encoder Decoder Clean Encoder Ce
  • 12. Implementation of the Model 1. Encoderを訓練※(CorruptedとCleanの2種類) • MLPでもCNNでもRNNでも良い • 2種類といっても重みは共有してるので実際は1種類 2. 各層で条件付き分布 𝑝(𝑧 𝑙|𝑧 𝑙+1) を求める • 今回の実験ではガウス分布を仮定してそのパラメタをNNで求める 3. 2.の条件付き分布に乗ったノイズをうまくキャンセルするよ うな関数gを定義する • 次スライドで話します 4. Fully-labeled or Semi-supervisedな設定でネットワーク全体を SGDで学習する ※論文に”1. Train any standard feedforward neural networks”と書かれているのでたぶん 先に学習しておくんじゃないかなと思いますがちょっと微妙です
  • 13. Denoising function g • 理想的なgの形は分布の形に依存 • 左カラム:分布の形 • 右カラム:理想的なgの形 • 上から順に、次の3つの例 • Super-Gaussian • Sub-Gaussian • Gaussian • 今回はGaussianを使うので線形 • 具体的な式はちょっと複雑になる ので実装したい人は論文参照
  • 14. Γmodel: Special Case of Ladder Network • 一番上の層だけ再構築 • Decoderがいらなくなるの で実装が楽 • 結果で示すようにこれで もまぁまぁ精度良い 黒枠の中をそっくり無くす
  • 15. Experimental Setup • Datasets: Permutation MNIST, MNIST, CIFAR-10 • Encoder: MLPとCNN • Baselines: いろいろ • Training: • Adam(lr=0.002) • Lr scheduling (linearly decreasing to zero at final epoch) • Minibatch size = 100 • The source codes: • https://github.com/arasmus/ladder
  • 16. Results: Permutation MNIST (MLP) • 使ったラベル数によらずState-of-the-art • 特にラベル数が少ない場合に良い精度(エラー率でVAEの1/3)
  • 17. Results: MNIST (CNN) • State-of-the-art • Full Labeledの評価がないのが若干気になる (Full Labeledなら普通にCNN使えばいい話な気もする
  • 18. Results: CIFAR10 (CNN) • ラベルが限られてる場合は普通のCNNより良い • 特に少数ラベルの場合高精度
  • 19. Conclusion and Future Direction • 複数の半教師ありタスクでstate-of-the-artなモデルを提案 • 今後は次の方針で進める予定 • どのようなEncoder+Decoderの組み合わせが適切か • 時系列方向での発展