【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds

Copyright © 2022 ARISE analytics reserved.
[公開情報]
Moser Flow: Divergence-based
Generative Modeling on Manifolds
Marketing Solution Division
伊藤光祐
2022/03/16

[公開情報]
1
アジェンダ
論文の概要と必要な知識
1
Normalizing Flow
2
Continuous Normalizing Flow
3
多様体
4
Moser Flow(提案手法)
6
7 実験結果
多様体でのContinuous Normalizing Flow
5
8 まとめ

[公開情報]
2
アジェンダ
1
Normalizing Flow
2
3
多様体
4
6
7 実験結果
5
8 まとめ

[公開情報]
3
我々は、球体、円環、その他の陰伏曲面などの多様体によって記述される複雑な幾何学の生成モデルを学
習することに興味がある。既存の（ユークリッド）生成モデルを拡張した手法は、特定の幾何形状に限定され
ており、一般に高い計算コストに悩まされている。我々は、 Continuous Normalizing Flow(CNF)に属す
る新しいクラスの生成モデルであるMoser Flow(MF)を紹介する。MFもまた、変数変化式の解を介してCNF
を生成するが、他のCNF手法とは異なり、そのモデル（学習）密度は、ソース（事前）密度からニューラル
ネットワーク（NN）のダイバージェンスを引いたものとしてパラメータ化される。ダイバージェンスは局所的な線形
微分演算子であり、多様体上で容易に近似・計算することができる。したがって、他のCNFとは異なり、MFで
は常微分方程式(ODE)ソルバーを呼び出して順伝播や逆伝播する必要がない。さらに、モデル密度をODE
の解としてではなく、NNの発散として明示的に表現することで、忠実度の高い確率密度を容易に学習すること
ができる。理論的には、MFが適切な仮定の下で普遍的な確率密度近似モデルを構成することを証明する。
また、地球科学や気候科学における難しい合成幾何学や実世界のベンチマークにおいて、確率密度推定、サ
ンプルの品質、既存のCNFと比較した学習の複雑さにおいて、大幅な改善を達成することができた。
論文のアブストラクト(和訳)

[公開情報]
4
？？？？？？？？？

[公開情報]
5
簡単にまとめると...
画像の出典: https://arxiv.org/pdf/2108.08052.pdf
1
球体やウサギ(!?)の表面のような複雑
な空間の確率分布をモデリングできる
←のような確率分布もモデリングできる
2
計算量が減った
既存手法はモデル学習のイテレーションの度
に計算量が大きい方程式を解く必要があった
多様体上の確率分布の例
3
精度が高い
気候データや写真の再現で既存手法よりも
高い精度を記録
ただし、提案手法の理解には様々な前提知識が必要

[公開情報]
6
必要知識
Normalizing Flow Continuous Normalizing Flow
Moser Flow
多様体での
多様体
 複雑な分布をモデリング可能
 簡単な分布を複数回変換
 サンプリングが簡単
提案手法について理解するには、Normalizing Flowと多様体の知識が必要。
 変換フローを連続とみなす
 変換フローの導関数をモデリングすることで計
算が効率的に
 学習の計算量削減
 精度向上
 多様体上の分布をモデリング可能
 複雑な空間を表せる
 局所的にユークリッド空間とみな
せるので計算がしやすい

[公開情報]
7
アジェンダ
1
Normalizing Flow
2
3
多様体
4
6
7 実験結果
5
8 まとめ

[公開情報]
8
Normalizing Flow
学習対象となる複雑な確率分布を簡単な確率分布を変換することで再現するモデル。簡単な分布からサン
プルした値を変換することで、目的の分布のサンプルを得ることができる。
シンプルな分布変換複雑な分布
？？
？
NNで変換ステップを学習
データの分布
(計算が難しい)
潜在変数の分布
(簡単に計算可能)
適当にサンプリング
学習データの分布上でサン
プルに相当するものを再現
𝑓1 𝑓2 𝑓3 𝑓4

[公開情報]
9
確率密度関数の変換
確率変数の変換を利用すると、確率密度関数を変換することができる。
𝐱 = 𝑓 𝐳
𝑝𝐳(𝐳) = 𝑝𝐱(𝑓 (𝐳)) det
𝑑𝑓(𝐳)
𝑑𝐳
𝑝𝒙(𝐱) = 𝑝𝒛(𝑓−1
(𝐱)) det
𝑑𝑓−1
(𝐱)
𝑑𝐱
確率密度
イメージ
Normalizing Flowで学習

[公開情報]
10
Normalizing Flowの定式化
ステップが増えた場合の計算効率はContinuous Normalizing Flowで解消
変換
 潜在変数zをデータの分布に変換す
る
 𝑓(𝐳)をNNで学習する
𝐱 = 𝑓(𝐳)
変換フロー
 変換を複数のステップに分解する
 NNの1つの層が1ステップの変換とみ
なせる
𝑓 = 𝑓1 ◦ 𝑓2 ◦ ⋯ ◦ 𝑓𝐾
生成モデル
での損失関数
(負の対数尤度)
 最尤推定で、変換後の分布をデータ
分布に近づける
 ただし、ステップ・データ次元が増える
と計算が大変に
−log 𝑝𝐱 𝐱 = − log 𝑝𝐱 (𝑓(𝐳))
= − log 𝑝𝐳 𝑓−1
𝐱 − log det
𝑑𝑓−1
(𝐱)
𝑑𝐱
逆変換
 逆変換を学習時に利用
 次元圧縮などにも活用可能
𝑓−1 = 𝑓1
−1
◦ 𝑓2
−1
◦ ⋯ ◦ 𝑓𝐾
−1

[公開情報]
11
アジェンダ
1
Normalizing Flow
2
3
多様体
4
6
7 実験結果
5
8 まとめ

[公開情報]
12
Normalizing Flowでは離散的だった変換ステップを連続的なものにすることで、変換自体を微分可能とし
たモデル。変換の各ステップではなく、変換関数の変化(導関数)を学習する。
シンプルな分布変換複雑な分布
NNで変換の導関数を学習
データの分布
(計算が難しい)
潜在変数の分布
(簡単に計算可能)
適当にサンプリング
学習データの分布上でサン
プルに相当するものを再現
𝑓0 𝑓1
無限回の変換ステップがあるイメージ
𝑓0.5
… …

[公開情報]
13
Normalizing Flowとの違い
※ Chen, Ricky TQ, et al. "Neural ordinary differential equations." Advances in neural information
processing systems 31 (2018).
Normalizing Flowでは変換が離散的であったために、ステップごとに計算やパラメータが必要だった。
Continuous Normalizing Flowでは変換を連続的にとらえ、導関数を学習することで効率を改善した。
Normalizing Flow Continuous Normalizing Flow
変換
ステップ
𝐳𝑖 = 𝑓𝑖(𝐳𝑖−1)
変換全体 𝐳𝐾 = 𝑓𝐾(𝑓𝐾−1(… 𝑓1(𝐳0)))
変換
ステップ
(厳密にはステップ
じゃない)
𝐳𝑡 = 𝐳𝑡−𝛥𝑡 + 𝑓𝑡(𝐳𝑡−𝛥𝑡)𝛥𝑡
変換全体 𝐳1 = 𝐳0 +
0
1
𝑓𝑡 𝐳𝑡 𝑑𝑡
学習対象 𝑓 = 𝑓1 ◦ 𝑓2 ◦ ⋯ ◦ 𝑓𝐾 学習対象 𝑓𝑡 𝐳𝑡 =
𝑑𝐳
𝑑𝑡
Neural ODE※という手法で導関数を学習

[公開情報]
14
Neural ODE
ResNetのように、直接の変換ではなく差分を学習していくモデル。ただし、変換を連続的な変化とみなしてそ
の導関数を学習していく。変換時には常微分方程式(ODE)の数値的解法を利用する。
常微分方程式とは
𝑑𝑓 𝒙
𝑑𝒙
= 𝒚 or 𝒚 = 𝑓 𝒙 𝑑𝒙となるような方程式。複雑な式でも数値計算で解を得ることができる。
逆方向の変換
損失関数
(最尤推定)
勾配の計算
学習時
𝑓−1(𝐳1) = 𝐳1 +
1
0
𝑓𝑡 𝐳𝑡 𝑑𝑡  逆変換は積分の方向を変えるだけ
ℒ = − log 𝑝𝐳0
𝑓−1
(𝐳1) − log det
𝑑𝑓−1
(𝐳1)
𝑑𝐳1
 最尤推定の式はNFから変わらない
𝑑ℒ
𝑑𝜃
= −
1
0
𝑎𝑡
𝜕𝑓𝑡 𝑧𝑡
𝜕𝜃
𝑑𝑡 ただし、𝑎𝑡 =
𝜕ℒ
𝜕𝐳𝑡
 勾配の計算も常微分方程式で計算
可能
順方向の変換
生成時 𝑓(𝐳0) = 𝐳0 +
0
1
𝑓𝑡 𝐳𝑡 𝑑𝑡
 NNを数値積分して変換前の分布に
足す

[公開情報]
15
Continuous Normalizing Flowの課題
1 ヤコビアンの計算が大変
計算が簡単になる変換フロー(ここでは割愛)もあるが、表現力が足りないことも
2 学習・生成時に毎回常微分方程式を解く必要がある
効率は良くなったが、やっぱり数値計算は重い
3 ユークリッド空間だけを想定している
実データは多様体上に分布していることも多い(位置情報など)

[公開情報]
16
アジェンダ
1
Normalizing Flow
2
3
多様体
4
6
7 実験結果
5
8 まとめ

[公開情報]
17
多様体
トーラス画像の出典: http://ja.wikipedia.org/wiki/トーラス
ユークリッド空間画像の出典: https://ja.wikipedia.org/wiki/ユークリッド空間
多様体は、局所的にはユークリッド空間とみなせるような図形のこと。多様体は次元を持つ。実データは多様
体上に分布していることも多い。
多様体の例地球表面は2次元多様体
←ドーナツの表面は2
次元曲面だから2次
元多様体
(ドーナツの中身は3
次元多様体)
←ユークリッド空間は
多様体の特別な場
合地球表面は球面だが、一部分だけに注目すると平
面の地図(=ユークリッド空間)で表せる

[公開情報]
18
必要な多様体の知識
提案手法の理解に必要な知識をまとめた。厳密な理解はしてないので、雰囲気で説明。
接ベクトル  多様体上のある点を起点とするベクトルを、その点の接ベクトルという
接ベクトル平面
 ある点上で取りうる接ベクトルすべての集合を接ベクトル平面という
 多様体上の点𝑥における接ベクトル平面を𝑇𝑥ℳとあらわす
ベクトル場
 多様体上の各点に対し、その点上の接ベクトルが定まる対応のこと
 多様体ℳ上に定義できるベクトル場全体を𝒳 ℳ のようにあらわす
体積形式
 多様体上で積分する際の微小要素的なもので、𝑑𝑉のように表記する
 ある領域での体積を𝑉 𝒜 = 𝒜
𝑑𝑉 のように計算できる
多様体上の点・領域
 多様体上の点は𝑥 ∈ ℳのようにあらわせる
 領域は𝒜 ⊂ ℳのようにあらわせる
写像
 多様体ℳ上の自身への写像はΦ: ℳ → ℳのようになる
 𝜙: ℳ → ℝのような実数への写像を特に関数という
多様体  数式上ではℳのようにあらわす
局所座標系  多様体の特定の領域𝒜からユークリッド空間への写像𝜑: 𝒜 → ℝ𝑛
を、局所座標系という
発散
 ベクトル場の各点におけるベクトルの発生・収束を表すスカラー場
 div(𝑢)のようにあらわす
写像の微分  Φ:ℳ → ℳの𝑧 ∈ ℳでの微分は𝐷Φ𝑧: T𝑧ℳ → 𝑇Φ(𝑧)ℳのようにあらわせる

[公開情報]
19
地球でのイメージ(多様体上の点と写像)
多様体上の点
(𝑥 ∈ ℳ)
局所座標上の
点
Φ: ℳ → ℳ
地球表面(多様体ℳ)
Φ′: ℝ2
→ ℝ2
局所座標系

[公開情報]
20
地球でのイメージ(ベクトル場と接ベクトル)
接ベクトル平面の画像出典: https://ja.wikipedia.org/wiki/接ベクトル空間
接ベクトル𝑣
多様体ℳ上のベクトル場接ベクトル平面
多様体上の点
(𝑥 ∈ ℳ)
接ベクトルがとりうる値の集合のイ
メージ

[公開情報]
21
地球でのイメージ(ベクトル場の発散)
多様体ℳ上のベクトル場
点𝑥の周りのベクトル
(点𝑥の発散が正になる場合)
接ベクトル𝑣
多様体上の点
(𝑥 ∈ ℳ)
 発散は微小領域でのベクトルの流出量に
相当するスカラー値
 この場合は点𝑥に向いているベクトルに対し
て点𝑥から出るベクトルのほうが大きいので発
散は正

[公開情報]
22
地球でのイメージ(写像のある点での微分)
写像の微分の出典: https://ja.wikipedia.org/wiki/写像の微分
点から点への写像の微分はベクトル
場からベクトル場への写像

[公開情報]
23
アジェンダ
1
Normalizing Flow
2
3
多様体
4
6
7 実験結果
5
8 まとめ

[公開情報]
24
多様体での確率密度関数の変換
多様体でも、確率変数を変換できれば、確率密度関数の変換が可能。
𝐱 = 𝑓(𝐳)
𝑝𝐳(𝐳) = 𝑝𝐱(𝐱) det
𝑑𝑓
𝑑𝐳 𝑝𝒙(𝐱) = 𝑝𝒛(𝑓−1(𝐱)) det
𝑑𝑓−1
𝑑𝐱
𝜈 = Φ ∗ 𝜇
= 𝜇 Φ 𝑧 det(𝐷Φz)
ユークリッド
空間
 変換後のある点の変
換前の点の確率は変
換関数の微分を利用
して計算可能
多様体
 Φ ∗ 𝜇を引き戻しという
 引き戻しは写像の微
分を利用して計算可
能
𝑥 = Φ(𝑧)
𝜇 = Φ−1
∗ 𝜈
= 𝜈 Φ−1
𝑥 det(𝐷Φx
−1
)
確率密度
イメージ
確率密度
イメージ

[公開情報]
25
Continuous Normalizing Flowを多様体上で定義
※Rozen, Noam, et al. "Moser Flow: Divergence-based Generative Modeling on Manifolds." Advances in
Neural Information Processing Systems 34 (2021).
ユークリッド空間でのContinuous Normalizing Flowと同等な操作を多様体に拡張すると以下のようにな
る。
通常のCNF 多様体上に拡張したCNF※
 変換が連続的に変化して、t=1の時に目的の変換に
なると考える
 確率変数の微分となる関数を学習する
 変換写像が連続的に変化して、t=1の時に目的の
変換になると考える
 変換写像の微分となるベクトル場を学習する
𝑝𝒙(𝐱) = 𝑝𝒛(𝑓−1
(𝐱)) det
𝑑𝑓−1
𝑑x
確率密度
の変換
𝜇 = Φ−1
∗ 𝜈
= 𝜈 Φ−1
𝑥 det(𝐷Φx
−1
)
確率密度
の変換
𝑑𝐳𝑡
𝑑𝑡
= 𝑓′𝑡 𝒛𝑡 学習対象
𝑑
𝑑𝑡
Φ𝑡 = 𝑣𝑡(Φ𝑡)
学習対象
𝐳𝑡 = 𝑓𝑡 𝐳0
= 𝐳0 +
0
𝑡
𝑓𝑡
′
𝒛𝑡 𝑑𝑡
確率変数
の変換
𝐳𝑡 = Φ𝑡 𝐳0
=
0
𝑡
𝑣𝑡(Φ𝑡) 𝑑𝑡
確率変数
の変換

[公開情報]
26
多様体に拡張したContinuous Normalizing Flowの課題
1 ヤコビアンの計算が大変
計算が簡単になる変換フロー(ここでは割愛)もあるが、表現力が足りないことも
2 学習・生成時に毎回常微分方程式を解く必要がある
効率は良くなったが、やっぱり数値計算は重い
3 ユークリッド空間だけを想定している
実データは多様体上に分布していることも多い(位置情報など)

[公開情報]
27
アジェンダ
1
Normalizing Flow
2
3
多様体
4
6
7 実験結果
5
8 まとめ

[公開情報]
28
Moser Flow※
※Rozen, Noam, et al. "Moser Flow: Divergence-based Generative Modeling on Manifolds."
Advances in Neural Information Processing Systems 34 (2021).
Moser Flowは確率密度の変換を簡単に表せるようなベクトル場を学習する。
多様体上に拡張したCNF Moser Flow
 CNFをそのまま多様体に拡張しただけだと、確率密度
の変換にヤコビアンが必要で計算が大変
 写像の微分となるベクトル場を学習する
 変換後の分布は変換前の分布からベクトル場の発散
を引くだけで計算可能→ヤコビアンの計算が不要
 発散を計算する前のベクトル場を学習する
𝜇 = Φ−1
∗ 𝜈
= 𝜈 Φ−1
𝑥 det(𝐷Φx
−1
)
確率密度
の変換
𝜇 = ν − div(𝑢)
確率密度
の変換
𝑑
𝑑𝑡
Φ𝑡 = 𝑣𝑡(Φ𝑡) 学習対象
𝑢 = 𝛼𝑡𝑣𝑡
ただし、
𝛼𝑡 = 1 − 𝑡 𝜈 + 𝑡𝜇,
𝑑
𝑑𝑡
Φ𝑡 = 𝑣𝑡 Φ𝑡
学習対象
=
0
𝑡
確率変数
の変換
=
0
𝑡
確率変数
の変換

[公開情報]
29
Moserの定理
𝜈 = Φ ∗ 𝜇は次の式を利用することで解くことができる。
Moserの定理
提案手法はMoserが証明した定理を利用することで計算を簡単にしている。
5
6
7
2
3
1
4
Φ = Φ1
𝑑
𝑑𝑡
Φ𝑡 = 𝑣𝑡 Φ𝑡
Φt ∗ 𝛼𝑡 = 𝛼0
𝛼0 = 𝜈
𝛼1 = 𝜇
div 𝑢𝑡 = −
𝑑
𝑑𝑡
𝛼𝑡
𝑣𝑡 =
𝑢𝑡
𝛼𝑡
 変換写像を変化させていくと最終的に目的の変換になる
 変換写像の微分はあるベクトル場𝑣𝑡で表される
 変換が変化するので変換後の確率密度も変化する
 1番最初は簡単な分布𝜈になる
 最終的には目的の分布𝜇に変換される
 確率密度の変化をベクトル場𝑢𝑡の発散で表す
 𝑣𝑡は𝑢𝑡を𝛼𝑡で割ったもの
8
9
 変換前の分布𝜈の確率密度関数の体積形式を利用する
 変換後の分布𝜇の確率密度関数の体積形式を利用する
𝜈 = 𝜈𝑑𝑉
𝜇 = 𝜇𝑑𝑉

[公開情報]
30
Moser Flowの導出
1 𝛼𝑡 = 1 − 𝑡 𝜈 + 𝑡𝜇  確率密度関数は線形に変化すると仮定する
2
𝑑
𝑑𝑡
𝛼𝑡 = 𝜇 − 𝜈  確率密度関数の変化はシンプルに表せる
4 div 𝑢 = 𝜈 − 𝜇  前ページの式8を利用して変形
5 𝜇 = div 𝑢 − 𝜈  𝜈を決定して、ベクトル場𝑢を学習すれば𝜇を近似できる
3 𝑢𝑡 = 𝑢  前ページのベクトル場𝑢は何でもいいので変化しないものに決定
簡単な分布から目的の分布まで確率密度関数
が線形に変化するときを考える

[公開情報]
31
Moser Flowの最適化
データ𝒳 = 𝑥𝑖 𝑖=1
𝑚
⊂ ℳの確率密度𝜇を最尤推定する。モンテカルロ用に用意した𝜂のサンプル𝒴 = 𝑦𝑗 𝑙=1
𝑙
を使って損失関数は近似計算可能。
損失関数
𝑙 𝜃 = −𝔼𝜇 log𝜇+ 𝑥 + 𝜆
ℳ
𝜇− 𝑥 𝑑𝑉
𝜇+ 𝑥 = max{𝜖, 𝜇(𝑥)}
𝜇− 𝑥 = 𝜖 − min{𝜖, 𝜇(𝑥)}
平均の近似 𝔼𝜇 log𝜇+ 𝑥 ≈
1
𝑚
𝑖=1
𝑚
log 𝜇+(𝑥𝑖)
積分の近似
ℳ
𝜇− 𝑥 𝑑𝑉 ≈
1
𝑙
𝑗=1
𝑙
𝜇−(𝑦𝑗)
𝜂 𝑦𝑗
𝜆はハイパーパラメータ

[公開情報]
32
ユークリッド部分多様体での生成モデル
多様体上に分布しているデータ(地理関連データなど)でも、ユークリッド座標で表現されていることが多い。実
際にモデルを構築する場合、ユークリッド座標を多様体上に投影する必要がある。
損失関数 𝑙 𝜃 = −
1
𝑚
𝑖=1
𝑚
log max 𝜖, 𝜈 𝑥𝑖 − div𝐸𝑢 𝑥𝑖 +
𝜆−
′
𝑙
𝑗=1
𝑙
(𝜖 − min {𝜖, 𝜈 𝑦𝑗 − div𝐸𝑢(𝑦𝑗)})
ユークリッド空間か
ら多様体への投影
𝜋 𝑥 = min
𝑦∈ℳ
𝑥 − 𝑦
接ベクトル平面へ
の投影行列
𝑃𝑥 = 𝐼 − 𝑁𝑁T
ベクトル場
(学習対象)
𝑢 𝑥 = 𝑃𝜋 𝑥 𝑣𝜃(𝜋(𝑥))
多様体上で最も近い座標に投影
多様体上の点𝑥上のベクトルを点𝑥の
接ベクトル平面に投影
多様体上のベクトル場は上記の投影
を利用して表現する
(𝑣𝜃はMLPで学習)
上記のようなモデリングをすると、損失
関数も書き直せる
(𝜆−
′
はハイパーパラメータ)

[公開情報]
33
アジェンダ
1
Normalizing Flow
2
3
多様体
4
6
7 実験結果
5
8 まとめ

[公開情報]
34
2次元の分布を学習

[公開情報]
35
地球科学データを学習

[公開情報]
36
ウサギ表面上の分布を学習
正解の分布
学習した分布

[公開情報]
37
アジェンダ
1
Normalizing Flow
2
3
多様体
4
6
7 実験結果
5
8 まとめ

[公開情報]
38
まとめ
1
2
3
課題 Moser Flowで解決
多様体での分布をモデリング可能
効率的に学習・サンプル生成が可能
他の手法よりも高い精度で分布をモデリング
多様体での分布のモデリングが難しかった
複雑な分布のモデリングの計算量が多い
複雑な分布のモデリング精度が低い

【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds

More Related Content

What's hot (20)

Similar to 【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds (20)

More from ARISE analytics (20)

【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds