Variational Dropout and the Local
Reparameterization Trick
Diederik P.Kingma, Tim Salimans and Max Welling
発表者  鈴鈴⽊木雅⼤大
本論論⽂文について
¤  発表学会不不明
¤  Submitted on 8 Jun 2015(arXiv)
¤  7/17現在まだ書き終わってないっぽい(結構説明が抜けてたりする)
¤  最近よく名前を聞く「変分オートエンコーダー」シリーズの新作
¤  要約すると「Dropout = local reparameterization trickだった!!」っ
ていう論論⽂文
¤  当然ながら論論⽂文には図がほとんどありません!
¤  抽象的な議論論なのでほとんど数式な上、難解
¤  今回は元となる確率率率的勾配変分ベイズ(SGVB)の説明から始めます
¤  EMや変分ベイズは⼤大体わかっている前提で話します
※この資料料は誤解と偏⾒見見であふれています(変なとこあったら訂正お願いします)
⽬目次
¤  EMアルゴリズムと変分ベイズ
¤  確率率率的勾配変分ベイズ(SGVB)の説明
¤  Variational Dropout and the Local Reparameterization Trick
⽬目次
¤  EMアルゴリズムと変分ベイズ
¤  確率率率的勾配変分ベイズ(SGVB)の説明
¤  Variational Dropout and the Local Reparameterization Trick
EMアルゴリズムと変分ベイズ
¤  EMアルゴリズム
¤  尤度度                            を最⼤大化
¤  最尤推定(パラメータ推定)
¤  下界を求めて、q(z)とθについて最⼤大化
¤  変分ベイズ
¤  周辺尤度度(エビデンス)                      を最⼤大化
¤  ベイズ推定(分布推定)
¤  q(z)について平均場近似(因⼦子分解)
¤  下限を求めて、それぞれのq(z)について最⼤大化
⽬目次
¤  EMアルゴリズムと変分ベイズ
¤  確率率率的勾配変分ベイズ(SGVB)の説明
¤  Variational Dropout and the Local Reparameterization Trick
問題設定
¤  データセットからこの分布を学習する
¤  zは潜在変数、θは分布のパラメータ
¤  p(z)とp(x|z)は微分可能
¤  ただし分布の形は限定しない
x
z
問題点
¤  周辺分布p(x)が扱いづらい
¤  p(x)=∫p(z)p(z|x)dz
¤  これだけなら、割とよくある問題
¤  p(z|x)も困難
¤  p(z|x)=p(x|z)p(z)/p(x)
¤  EMアルゴリズムが使えない!
¤  データがたくさんあるので、サンプリングだと時間がかかる!
¤  解析的に求めたい
→これらを解決する、より⼀一般的なアルゴリズムを作りたい!
「認識識モデル」の導⼊入
¤  q(x|z)という分布を考える
¤  p(x|z)は困難なので、別の分布で置いて真の分布に近づける
¤  この考え⽅方は変分ベイズでもあるが、因⼦子分解の仮定を置かない
¤  求める分布パラメータはφとθ
下限の導出
¤  ⼀一般的な下限の導出の流流れと同じ
を下限、もしくは変分下限とよぶ
下限の計算
¤  下限部分は次のように計算できる
期待値部分は解析解を求めることができない!
モンテカルロサンプリング
⼀一般的にサンプリングによって期待値            は次のように求まる
¤  サンプリング              が微分可能な関数        から決定論論的
に求まると考える
¤  よって、期待値は次のように求まる
reparameterization trick
reparameterization trick
1. qφ(z|x) からサンプリングして {z(l)
}L
l=
2. z(l)
を使って, 次のように期待値を求め
Eqφ(z|x)
ここで,z ∼ qφ(z|x) が, 微分可能な関数 g(ϵ
だし ϵ は任意のノイズで,p(ϵ) から生成される
よって, 式 (7) は次のようになる.
Eq(z|x,φ)[f(z)] = q(z|x
= p(ϵ)f
= p(ϵ)f
ただし      は      から⽣生成されるノイズ
下界の期待値部分は解析解を求めることが困難なので, サンプリングによっ
待値 Eqφ(z|x)[f(z)] をサンプリングで置き換える場合, 一般的に次のように求
1. qφ(z|x) からサンプリングして {z(l)
}L
l=1 を得る.
2. z(l)
を使って, 次のように期待値を求める.
Eqφ(z|x)[f(z)] ≃
1
L
L
l=1
f(z(l)
)
ここで,z ∼ qφ(z|x) が, 微分可能な関数 g(ϵ, x) から決定論的に求まると考
だし ϵ は任意のノイズで,p(ϵ) から生成される.
よって, 式 (7) は次のようになる.
Eq(z|x,φ)[f(z)] = q(z|x, φ)f(z)dz
= p(ϵ)f(z)dϵ (∵ q(z|x, φ)dz = p(ϵ)d
= p(ϵ)f(g(ϵ, x))dϵ
= Ep(ϵ)[f(g(ϵ, x))] ≃
1
L
L
l=1
f(g(ϵ(l)
, x))
(l)
確率率率的勾配変分ベイズ(SGVB)
¤  よって下限の推定量量は次のようになる
この推定量量を確率率率的勾配変分ベイズ(SGVB)推定量量と呼ぶ
¤  第1項が負のreconstruction error、第2項を正規化項と⾒見見なせる
確率率率的勾配変分ベイズ(SGVB)
¤  全データ(データ数N)からランダムに抽出したミニバッチ(データ
数M)が与えられたとき、全データの下限はSGVB推定量量から次のよ
うに求まる
¤  ミニバッチ数が多いとき(M=100)、サンプル数Lは1でいいことが実験によ
りわかっている
¤  よってバッチあたりのサンプル数は1回でよい
¤  この式は微分可能なので、通常の最適化⼿手法(SGDとか)θやφを最
⼤大化することができる
確率率率的勾配変分ベイズ(SGVB)のアルゴリズム
¤  全体の流流れ:
1.  データセットからM個のミニバッチをランダムに抽出
2.  ノイズをランダムにサンプリング
3.  勾配                    を求める
4.  勾配によってθとφを更更新(エンコードとデコードを同時に学習できる)
5.  収束するまで繰り返し
SGVBの例例:変分オートエンコーダー
エンコーダーやデコーダーがニューラルネット
¤  事前分布
¤  デコーダー
¤  ガウス分布
¤  エンコーダー
¤  ガウス分布(上の式のzの部分をxにする)
¤  よってエンコーダのreparamaterization trickは次のようになる
ただし
SGVBの利利点
¤  ベイズ推定なので、⾮非常にロバスト
¤  ⽣生成・認識識を同時に学習
¤  推論論が⾃自在
¤  Hintonのヘルムホルツマシンが近い
¤  推論論が⾮非常に⾼高速
¤  MCMC等がいらない。分布からのサンプリング(しかも1回)のみ
¤  従来の最適化の⽅方法をそのまま使える
¤  既存の⽣生成モデルに適⽤用可能
¤  従来の⽣生成モデルより深い知識識を獲得できる
¤  明⽰示的にモデル化できる+Deep Learningの深さ
¤  時系列列モデルへの応⽤用(動的ベイジアンネット:⼈人の注意のモデル化な
ど)
⽬目次
¤  EMアルゴリズムと変分ベイズ
¤  確率率率的勾配変分ベイズ(SGVB)の説明
¤  Variational Dropout and the Local Reparameterization Trick
ベイズ的な識識別モデル
¤  データセット      が与えられたとき、識識別モデル          のパラ
メータ    を学習する
¤  ベイズ的なアプローチでは、あらかじめ信念念として事前分布      が与え
られ、データによって信念念が更更新されると考える
¤  しかしこの事後分布は扱いづらいので、      という分布を考え、この分
布を事後分布に近づけることを考える
¤  つまりKLダイバージェンス                  を最⼩小化する
¤  この計算は変分下限を最⼤大化することで求まる(詳しい話は省省略略)
識識別モデルのSGVB
¤  SGVBの⼿手法によって、下限の期待値部分(期待対数尤度度)は次のよ
うに計算できる
¤  よって、これを含めた下限をφについて偏微分することで計算できる
ただし
SGDにおける分散の影響
¤  確率率率的勾配降降下法(SGD)は勾配の分散が⼤大きすぎると、いくら時間
をかけてもよい解にならない
¤  ここで期待値対数尤度度                  の分散の上限を確認する
¤  ノイズεは、ミニバッチの各データ毎にサンプリングしているわけで
はないので、共分散の部分は正になる
→分散はバッチ数が⼤大きくても共分散部分、すなわちεに影響される!
ミニバッチ数Mの影響 データ間の対数尤度度の共分散
ただし
local reparameteraization trick
¤  結局問題は、εを直接サンプリングしていたこと
¤  解決策:εをサンプリングするのではなく、各データに依存するf(ε)で
サンプリングすればいい
¤  そうすれば、データ全体でのグローバルな曖昧さをデータ毎のローカルな
曖昧さに落落とし込めるので、共分散は0になる!
¤  このように、グローバルなノイズをローカルなノイズに落落とし込むこ
とをlocal reparameterization trickと呼ぶ
¤  すごく分かり⾟辛いので、論論⽂文に載っている例例を説明します・・・
•  事前分布                         から普通の
reparameteraization trickをするとつぎのようになる
  
•  もし共分散を0にしたかったら、全てのバッチで全ての重みをサン
プリングしなければならない
すなわち1000✖1000✖M回!!
•  実際のネットワークはもっと複雑なので、分散処理理も難しい
local reparameteraization trickの例例
¤  次のような単純なニューラルネットを考える
B
1000
1000 = A
1000
M W
1000
1000
出⼒力力 ⼊入⼒力力バッチ 重み
local reparameteraization trickの例例
¤  次のような単純なニューラルネットを考える
B
1000
M = A
1000
M W
1000
1000
出⼒力力 ⼊入⼒力力バッチ 重み
•  今度度は、Bからサンプリングすることを考える
•  このようなlocalなreparameteraization trickは次のようになる
•  この場合、共分散を0にするためのサンプル数はM✖1000回で済む!!
→localであることによって計算が少なくてすみ、分散も⼩小さくなる
ただし
ただし
変分ドロップアウト
¤  ドロップアウト:ニューラルネットの汎化性能を上げるテクニック
¤  最適化の際に、次のように各層にノイズを加える
¤  ノイズの分布としてベルヌーイ分布が知られている(ノイズが0または1)
¤  また、ガウス分布による⽅方法も同等以上となる
¤  ドロップアウトを今回の変分アプローチの元で再解釈
変分ドロップアウト
¤  応⽤用例例として、データに適応するようなドロップアウトの割合pを決定で
きたりする
ただし
ただし
independent weight noise
¤  ノイズξがガウス分布N(1,α)から独⽴立立に⽣生成されるとすると、bの周辺
分布もガウス分布となる
¤  Wang and Manning (2013) と同じ
¤  ただしこの場合、Bの異異なる要素の依存関係を無視している
¤  先ほどのようにB=AWを考え、Wの事後分布を                      
とすると、上の式はlocal reparameterizaiton trickの応⽤用例例であるこ
とがわかる
correlated weight noise
¤  今度度は、もともとの定義のように、Bの依存関係を考慮したノイズを
考える
¤                の重み          を                と考えて
ノイズを次のように考える
¤  ノイズは縦ベクトルに対するスケール変数になっている
¤  このノイズもlocal reparameterizaiton trickと考えることができる
W
変分ドロップアウトの下限
¤  これまで考えた事後分布はパラメータθとノイズ項αに分解できる
→dropout posterior
¤  Dropoutの訓練時はθを期待対数尤度度            のパラメータとす
る。すると最⼤大化する下限は次のようになる。
¤  KLダイバージェンスの部分については、いろいろ計算すると次のよう
になる
※scale invariant log-uniform priorという事前分布を考えて、かなり⻑⾧長い計
算をしていますが省省略略します
ドロップアウト率率率の最適化
¤  通常、ドロップアウト率率率αは固定したハイパーパラメータとして扱わ
れる
¤  今回の場合、変分ドロップアウトの下限をαについて最⼤大化すれば、
簡単に求められる
¤  ベイズ推定なので、パラメータに対してロバストだが、それでも効果があ
る
¤  ただし、αは最⼤大値を1とした(ノイズが⼤大きくなることを防ぐため)
実験
¤  つぎの⼿手法で⽐比較
¤  standard binary dropout
¤  Gaussian dropout type A (Aにノイズ)
¤  Gaussian dropout type B (Bにノイズ)
¤  variational dropout type A
¤  variational dropout type B
¤  MNISTで実験
¤  fully connectedなニューラルネット(隠れ層3)
¤  rectified linear units(ReLUs)
¤  dropout rate: input layer p=0.2, hidden layers p=0.5
¤  early stopping
実験結果(分散)
¤  variational dropout type Bで学習
¤  他のdropoutの結果と⽐比べて分散が抑えられていることがわかる
¤  ただし、dropoutしない場合に⽐比べるとまだ⼤大きい
実験結果(速度度)
¤  通常のSGVB(ただしデータごとに全ての重みについてサンプルした
場合)とlocal reparameterizationによるSGVBをepochごとの経過
時間で⽐比較
¤  通常のSGVB:1635sec
¤  今回のSGVB:7.4sec
¤  local reparameterizaitonによって200倍以上経過時間が速くなった
実験結果(クラス分類のエラー率率率)
¤  他の⼿手法と⽐比べると同等以上の精度度
¤  隠れ層が⼩小さい場合、特に顕著
¤  ⼩小さい場合は、
¤  A2はダウンスケールしたKLダイバージェンスを使⽤用
¤  詳細は不不明、書いてない
まとめ
¤  local reparameterization trickを提案した
¤  globalな不不確かさをlocalに
¤  計算の複雑さを抑える
¤  簡単に並列列化
¤  分散を⼩小さくできる
¤  ドロップアウトはlocal reparameterization trickの例例
¤  variational dropout
¤  ドロップアウト率率率を最初に固定するのではなくて、データから推定する

More Related Content

PDF
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
PDF
自己教師学習(Self-Supervised Learning)
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PDF
深層生成モデルと世界モデル
PDF
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
PDF
PRML学習者から入る深層生成モデル入門
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
自己教師学習(Self-Supervised Learning)
[DL輪読会]GQNと関連研究,世界モデルとの関係について
深層生成モデルと世界モデル
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
PRML学習者から入る深層生成モデル入門
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜

What's hot (20)

PDF
数学で解き明かす深層学習の原理
PPTX
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
PPTX
ベイズ統計学の概論的紹介
PDF
ELBO型VAEのダメなところ
PDF
深層生成モデルと世界モデル(2020/11/20版)
PPTX
猫でも分かるVariational AutoEncoder
PPTX
[DL輪読会]Focal Loss for Dense Object Detection
PDF
ドメイン適応の原理と応用
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
PDF
[DL輪読会]Deep Learning 第15章 表現学習
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PDF
『バックドア基準の入門』@統数研研究集会
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PDF
グラフニューラルネットワーク入門
PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
PPTX
[DL輪読会]相互情報量最大化による表現学習
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
数学で解き明かす深層学習の原理
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
ベイズ統計学の概論的紹介
ELBO型VAEのダメなところ
深層生成モデルと世界モデル(2020/11/20版)
猫でも分かるVariational AutoEncoder
[DL輪読会]Focal Loss for Dense Object Detection
ドメイン適応の原理と応用
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
【DL輪読会】Transformers are Sample Efficient World Models
[DL輪読会]Deep Learning 第15章 表現学習
【論文紹介】How Powerful are Graph Neural Networks?
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
『バックドア基準の入門』@統数研研究集会
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
グラフニューラルネットワーク入門
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
[DL輪読会]相互情報量最大化による表現学習
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料

Viewers also liked (20)

PDF
(DL hacks輪読) Variational Inference with Rényi Divergence
PDF
(DL hacks輪読) Difference Target Propagation
PDF
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
PDF
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
PDF
(研究会輪読) Weight Uncertainty in Neural Networks
PDF
(DL輪読)Matching Networks for One Shot Learning
ODP
Introduction to "Facial Landmark Detection by Deep Multi-task Learning"
PDF
(DL Hacks輪読) How transferable are features in deep neural networks?
PDF
(DL hacks輪読)Bayesian Neural Network
PDF
深層生成モデルを用いたマルチモーダル学習
PDF
(DL hacks輪読) Seven neurons memorizing sequences of alphabetical images via sp...
PDF
(DL hacks輪読) Deep Kernel Learning
PDF
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
PDF
【論文紹介】Approximate Bayesian Image Interpretation Using Generative Probabilisti...
PDF
Large-Scale Object Classification Using Label Relation Graphs
PDF
(DL hacks輪読) Deep Kalman Filters
PDF
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
PDF
Iaetsd deblurring of noisy or blurred
PDF
Deblurring in ct
PDF
論文輪読資料「A review of unsupervised feature learning and deep learning for time-s...
(DL hacks輪読) Variational Inference with Rényi Divergence
(DL hacks輪読) Difference Target Propagation
(研究会輪読) Facial Landmark Detection by Deep Multi-task Learning
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
(研究会輪読) Weight Uncertainty in Neural Networks
(DL輪読)Matching Networks for One Shot Learning
Introduction to "Facial Landmark Detection by Deep Multi-task Learning"
(DL Hacks輪読) How transferable are features in deep neural networks?
(DL hacks輪読)Bayesian Neural Network
深層生成モデルを用いたマルチモーダル学習
(DL hacks輪読) Seven neurons memorizing sequences of alphabetical images via sp...
(DL hacks輪読) Deep Kernel Learning
(DL輪読)Variational Dropout Sparsifies Deep Neural Networks
【論文紹介】Approximate Bayesian Image Interpretation Using Generative Probabilisti...
Large-Scale Object Classification Using Label Relation Graphs
(DL hacks輪読) Deep Kalman Filters
Semi-Supervised Autoencoders for Predicting Sentiment Distributions(第 5 回 De...
Iaetsd deblurring of noisy or blurred
Deblurring in ct
論文輪読資料「A review of unsupervised feature learning and deep learning for time-s...

Similar to (DL hacks輪読) Variational Dropout and the Local Reparameterization Trick (20)

PPTX
第3回nips読み会・関西『variational inference foundations and modern methods』
PDF
Stochastic Variational Inference
PPTX
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
PPTX
ベイズ統計学の概論的紹介-old
PDF
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
PPTX
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
PDF
自動微分変分ベイズ法の紹介
PDF
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
PDF
論文紹介 Semi-supervised Learning with Deep Generative Models
PPTX
Prml revenge7.1.1
PDF
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
PPTX
ベイズ統計学
PPT
SVM&R with Yaruo!!
PPTX
Deep learning basics described
PPTX
第七回統計学勉強会@東大駒場
PDF
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
PDF
How to study stat
PDF
PRML_titech 8.1 - 8.2
PPTX
Coreset+SVM (論文紹介)
PPTX
Active Learning と Bayesian Neural Network
第3回nips読み会・関西『variational inference foundations and modern methods』
Stochastic Variational Inference
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
ベイズ統計学の概論的紹介-old
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
自動微分変分ベイズ法の紹介
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
論文紹介 Semi-supervised Learning with Deep Generative Models
Prml revenge7.1.1
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
ベイズ統計学
SVM&R with Yaruo!!
Deep learning basics described
第七回統計学勉強会@東大駒場
Rでベイズをやってみよう!(コワい本1章)@BCM勉強会
How to study stat
PRML_titech 8.1 - 8.2
Coreset+SVM (論文紹介)
Active Learning と Bayesian Neural Network

Recently uploaded (10)

PDF
20250823_IoTLT_vol126_kitazaki_v1___.pdf
PPTX
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
PPTX
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
PDF
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
PDF
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
PDF
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
PDF
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
PDF
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
PPTX
Vibe Codingを触って感じた現実について.pptx .
20250823_IoTLT_vol126_kitazaki_v1___.pdf
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
Vibe Codingを触って感じた現実について.pptx .

(DL hacks輪読) Variational Dropout and the Local Reparameterization Trick