Copyright © 2022 ARISE analytics reserved.
[公開情報]
Moser Flow: Divergence-based
Generative Modeling on Manifolds
Marketing Solution Division
伊藤 光祐
2022/03/16
Copyright © 2022 ARISE analytics reserved.
[公開情報]
1
アジェンダ
論文の概要と必要な知識
1
Normalizing Flow
2
Continuous Normalizing Flow
3
多様体
4
Moser Flow(提案手法)
6
7 実験結果
多様体でのContinuous Normalizing Flow
5
8 まとめ
Copyright © 2022 ARISE analytics reserved.
[公開情報]
2
アジェンダ
論文の概要と必要な知識
1
Normalizing Flow
2
Continuous Normalizing Flow
3
多様体
4
Moser Flow(提案手法)
6
7 実験結果
多様体でのContinuous Normalizing Flow
5
8 まとめ
Copyright © 2022 ARISE analytics reserved.
[公開情報]
3
我々は、球体、円環、その他の陰伏曲面などの多様体によって記述される複雑な幾何学の生成モデルを学
習することに興味がある。既存の(ユークリッド)生成モデルを拡張した手法は、特定の幾何形状に限定され
ており、一般に高い計算コストに悩まされている。我々は、 Continuous Normalizing Flow(CNF)に属す
る新しいクラスの生成モデルであるMoser Flow(MF)を紹介する。MFもまた、変数変化式の解を介してCNF
を生成するが、他のCNF手法とは異なり、そのモデル(学習)密度は、ソース(事前)密度からニューラル
ネットワーク(NN)のダイバージェンスを引いたものとしてパラメータ化される。ダイバージェンスは局所的な線形
微分演算子であり、多様体上で容易に近似・計算することができる。したがって、他のCNFとは異なり、MFで
は常微分方程式(ODE)ソルバーを呼び出して順伝播や逆伝播する必要がない。さらに、モデル密度をODE
の解としてではなく、NNの発散として明示的に表現することで、忠実度の高い確率密度を容易に学習すること
ができる。理論的には、MFが適切な仮定の下で普遍的な確率密度近似モデルを構成することを証明する。
また、地球科学や気候科学における難しい合成幾何学や実世界のベンチマークにおいて、確率密度推定、サ
ンプルの品質、既存のCNFと比較した学習の複雑さにおいて、大幅な改善を達成することができた。
論文のアブストラクト(和訳)
Copyright © 2022 ARISE analytics reserved.
[公開情報]
4
?????????
Copyright © 2022 ARISE analytics reserved.
[公開情報]
5
簡単にまとめると...
画像の出典: https://arxiv.org/pdf/2108.08052.pdf
1
球体やウサギ(!?)の表面のような複雑
な空間の確率分布をモデリングできる
←のような確率分布もモデリングできる
2
計算量が減った
既存手法はモデル学習のイテレーションの度
に計算量が大きい方程式を解く必要があった
多様体上の確率分布の例
3
精度が高い
気候データや写真の再現で既存手法よりも
高い精度を記録
ただし、提案手法の理解には様々な前提知識が必要
Copyright © 2022 ARISE analytics reserved.
[公開情報]
6
必要知識
Normalizing Flow Continuous Normalizing Flow
Moser Flow
多様体での
Continuous Normalizing Flow
多様体
 複雑な分布をモデリング可能
 簡単な分布を複数回変換
 サンプリングが簡単
提案手法について理解するには、Normalizing Flowと多様体の知識が必要。
 変換フローを連続とみなす
 変換フローの導関数をモデリングすることで計
算が効率的に
 学習の計算量削減
 精度向上
 多様体上の分布をモデリング可能
 複雑な空間を表せる
 局所的にユークリッド空間とみな
せるので計算がしやすい
Copyright © 2022 ARISE analytics reserved.
[公開情報]
7
アジェンダ
論文の概要と必要な知識
1
Normalizing Flow
2
Continuous Normalizing Flow
3
多様体
4
Moser Flow(提案手法)
6
7 実験結果
多様体でのContinuous Normalizing Flow
5
8 まとめ
Copyright © 2022 ARISE analytics reserved.
[公開情報]
8
Normalizing Flow
学習対象となる複雑な確率分布を簡単な確率分布を変換することで再現するモデル。簡単な分布からサン
プルした値を変換することで、目的の分布のサンプルを得ることができる。
シンプルな分布 変換 複雑な分布
? ?
?
NNで変換ステップを学習
データの分布
(計算が難しい)
潜在変数の分布
(簡単に計算可能)
適当にサンプリング
学習データの分布上でサン
プルに相当するものを再現
𝑓1 𝑓2 𝑓3 𝑓4
Copyright © 2022 ARISE analytics reserved.
[公開情報]
9
確率密度関数の変換
確率変数の変換を利用すると、確率密度関数を変換することができる。
𝐱 = 𝑓 𝐳
𝑝𝐳(𝐳) = 𝑝𝐱(𝑓 (𝐳)) det
𝑑𝑓(𝐳)
𝑑𝐳
𝑝𝒙(𝐱) = 𝑝𝒛(𝑓−1
(𝐱)) det
𝑑𝑓−1
(𝐱)
𝑑𝐱
確率密度
イメージ
Normalizing Flowで学習
Copyright © 2022 ARISE analytics reserved.
[公開情報]
10
Normalizing Flowの定式化
ステップが増えた場合の計算効率はContinuous Normalizing Flowで解消
変換
 潜在変数zをデータの分布に変換す
る
 𝑓(𝐳)をNNで学習する
𝐱 = 𝑓(𝐳)
変換フロー
 変換を複数のステップに分解する
 NNの1つの層が1ステップの変換とみ
なせる
𝑓 = 𝑓1 ◦ 𝑓2 ◦ ⋯ ◦ 𝑓𝐾
生成モデル
での損失関数
(負の対数尤度)
 最尤推定で、変換後の分布をデータ
分布に近づける
 ただし、ステップ・データ次元が増える
と計算が大変に
−log 𝑝𝐱 𝐱 = − log 𝑝𝐱 (𝑓(𝐳))
= − log 𝑝𝐳 𝑓−1
𝐱 − log det
𝑑𝑓−1
(𝐱)
𝑑𝐱
逆変換
 逆変換を学習時に利用
 次元圧縮などにも活用可能
𝑓−1 = 𝑓1
−1
◦ 𝑓2
−1
◦ ⋯ ◦ 𝑓𝐾
−1
Copyright © 2022 ARISE analytics reserved.
[公開情報]
11
アジェンダ
論文の概要と必要な知識
1
Normalizing Flow
2
Continuous Normalizing Flow
3
多様体
4
Moser Flow(提案手法)
6
7 実験結果
多様体でのContinuous Normalizing Flow
5
8 まとめ
Copyright © 2022 ARISE analytics reserved.
[公開情報]
12
Continuous Normalizing Flow
Normalizing Flowでは離散的だった変換ステップを連続的なものにすることで、変換自体を微分可能とし
たモデル。変換の各ステップではなく、変換関数の変化(導関数)を学習する。
シンプルな分布 変換 複雑な分布
NNで変換の導関数を学習
データの分布
(計算が難しい)
潜在変数の分布
(簡単に計算可能)
適当にサンプリング
学習データの分布上でサン
プルに相当するものを再現
𝑓0 𝑓1
無限回の変換ステップがあるイメージ
𝑓0.5
… …
Copyright © 2022 ARISE analytics reserved.
[公開情報]
13
Normalizing Flowとの違い
※ Chen, Ricky TQ, et al. "Neural ordinary differential equations." Advances in neural information
processing systems 31 (2018).
Normalizing Flowでは変換が離散的であったために、ステップごとに計算やパラメータが必要だった。
Continuous Normalizing Flowでは変換を連続的にとらえ、導関数を学習することで効率を改善した。
Normalizing Flow Continuous Normalizing Flow
変換
ステップ
𝐳𝑖 = 𝑓𝑖(𝐳𝑖−1)
変換全体 𝐳𝐾 = 𝑓𝐾(𝑓𝐾−1(… 𝑓1(𝐳0)))
変換
ステップ
(厳密にはステップ
じゃない)
𝐳𝑡 = 𝐳𝑡−𝛥𝑡 + 𝑓𝑡(𝐳𝑡−𝛥𝑡)𝛥𝑡
変換全体 𝐳1 = 𝐳0 +
0
1
𝑓𝑡 𝐳𝑡 𝑑𝑡
学習対象 𝑓 = 𝑓1 ◦ 𝑓2 ◦ ⋯ ◦ 𝑓𝐾 学習対象 𝑓𝑡 𝐳𝑡 =
𝑑𝐳
𝑑𝑡
Neural ODE※という手法で導関数を学習
Copyright © 2022 ARISE analytics reserved.
[公開情報]
14
Neural ODE
ResNetのように、直接の変換ではなく差分を学習していくモデル。ただし、変換を連続的な変化とみなしてそ
の導関数を学習していく。変換時には常微分方程式(ODE)の数値的解法を利用する。
常微分方程式とは
𝑑𝑓 𝒙
𝑑𝒙
= 𝒚 or 𝒚 = 𝑓 𝒙 𝑑𝒙となるような方程式。複雑な式でも数値計算で解を得ることができる。
逆方向の変換
損失関数
(最尤推定)
勾配の計算
学習時
𝑓−1(𝐳1) = 𝐳1 +
1
0
𝑓𝑡 𝐳𝑡 𝑑𝑡  逆変換は積分の方向を変えるだけ
ℒ = − log 𝑝𝐳0
𝑓−1
(𝐳1) − log det
𝑑𝑓−1
(𝐳1)
𝑑𝐳1
 最尤推定の式はNFから変わらない
𝑑ℒ
𝑑𝜃
= −
1
0
𝑎𝑡
𝜕𝑓𝑡 𝑧𝑡
𝜕𝜃
𝑑𝑡 ただし、𝑎𝑡 =
𝜕ℒ
𝜕𝐳𝑡
 勾配の計算も常微分方程式で計算
可能
順方向の変換
生成時 𝑓(𝐳0) = 𝐳0 +
0
1
𝑓𝑡 𝐳𝑡 𝑑𝑡
 NNを数値積分して変換前の分布に
足す
Copyright © 2022 ARISE analytics reserved.
[公開情報]
15
Continuous Normalizing Flowの課題
1 ヤコビアンの計算が大変
計算が簡単になる変換フロー(ここでは割愛)もあるが、表現力が足りないことも
2 学習・生成時に毎回常微分方程式を解く必要がある
効率は良くなったが、やっぱり数値計算は重い
3 ユークリッド空間だけを想定している
実データは多様体上に分布していることも多い(位置情報など)
Copyright © 2022 ARISE analytics reserved.
[公開情報]
16
アジェンダ
論文の概要と必要な知識
1
Normalizing Flow
2
Continuous Normalizing Flow
3
多様体
4
Moser Flow(提案手法)
6
7 実験結果
多様体でのContinuous Normalizing Flow
5
8 まとめ
Copyright © 2022 ARISE analytics reserved.
[公開情報]
17
多様体
トーラス画像の出典: http://ja.wikipedia.org/wiki/トーラス
ユークリッド空間画像の出典: https://ja.wikipedia.org/wiki/ユークリッド空間
多様体は、局所的にはユークリッド空間とみなせるような図形のこと。多様体は次元を持つ。実データは多様
体上に分布していることも多い。
多様体の例 地球表面は2次元多様体
←ドーナツの表面は2
次元曲面だから2次
元多様体
(ドーナツの中身は3
次元多様体)
←ユークリッド空間は
多様体の特別な場
合 地球表面は球面だが、一部分だけに注目すると平
面の地図(=ユークリッド空間)で表せる
Copyright © 2022 ARISE analytics reserved.
[公開情報]
18
必要な多様体の知識
提案手法の理解に必要な知識をまとめた。厳密な理解はしてないので、雰囲気で説明。
接ベクトル  多様体上のある点を起点とするベクトルを、その点の接ベクトルという
接ベクトル平面
 ある点上で取りうる接ベクトルすべての集合を接ベクトル平面という
 多様体上の点𝑥における接ベクトル平面を𝑇𝑥ℳとあらわす
ベクトル場
 多様体上の各点に対し、その点上の接ベクトルが定まる対応のこと
 多様体ℳ上に定義できるベクトル場全体を𝒳 ℳ のようにあらわす
体積形式
 多様体上で積分する際の微小要素的なもので、𝑑𝑉のように表記する
 ある領域での体積を𝑉 𝒜 = 𝒜
𝑑𝑉 のように計算できる
多様体上の点・領域
 多様体上の点は𝑥 ∈ ℳのようにあらわせる
 領域は𝒜 ⊂ ℳのようにあらわせる
写像
 多様体ℳ上の自身への写像はΦ: ℳ → ℳのようになる
 𝜙: ℳ → ℝのような実数への写像を特に関数という
多様体  数式上ではℳのようにあらわす
局所座標系  多様体の特定の領域𝒜からユークリッド空間への写像𝜑: 𝒜 → ℝ𝑛
を、局所座標系という
発散
 ベクトル場の各点におけるベクトルの発生・収束を表すスカラー場
 div(𝑢)のようにあらわす
写像の微分  Φ:ℳ → ℳの𝑧 ∈ ℳでの微分は𝐷Φ𝑧: T𝑧ℳ → 𝑇Φ(𝑧)ℳのようにあらわせる
Copyright © 2022 ARISE analytics reserved.
[公開情報]
19
地球でのイメージ(多様体上の点と写像)
多様体上の点
(𝑥 ∈ ℳ)
局所座標上の
点
Φ: ℳ → ℳ
地球表面(多様体ℳ)
Φ′: ℝ2
→ ℝ2
局所座標系
Copyright © 2022 ARISE analytics reserved.
[公開情報]
20
地球でのイメージ(ベクトル場と接ベクトル)
接ベクトル平面の画像出典: https://ja.wikipedia.org/wiki/接ベクトル空間
接ベクトル𝑣
多様体ℳ上のベクトル場 接ベクトル平面
多様体上の点
(𝑥 ∈ ℳ)
接ベクトルがとりうる値の集合のイ
メージ
Copyright © 2022 ARISE analytics reserved.
[公開情報]
21
地球でのイメージ(ベクトル場の発散)
多様体ℳ上のベクトル場
点𝑥の周りのベクトル
(点𝑥の発散が正になる場合)
接ベクトル𝑣
多様体上の点
(𝑥 ∈ ℳ)
 発散は微小領域でのベクトルの流出量に
相当するスカラー値
 この場合は点𝑥に向いているベクトルに対し
て点𝑥から出るベクトルのほうが大きいので発
散は正
Copyright © 2022 ARISE analytics reserved.
[公開情報]
22
地球でのイメージ(写像のある点での微分)
写像の微分の出典: https://ja.wikipedia.org/wiki/写像の微分
点から点への写像の微分はベクトル
場からベクトル場への写像
Copyright © 2022 ARISE analytics reserved.
[公開情報]
23
アジェンダ
論文の概要と必要な知識
1
Normalizing Flow
2
Continuous Normalizing Flow
3
多様体
4
Moser Flow(提案手法)
6
7 実験結果
多様体でのContinuous Normalizing Flow
5
8 まとめ
Copyright © 2022 ARISE analytics reserved.
[公開情報]
24
多様体での確率密度関数の変換
多様体でも、確率変数を変換できれば、確率密度関数の変換が可能。
𝐱 = 𝑓(𝐳)
𝑝𝐳(𝐳) = 𝑝𝐱(𝐱) det
𝑑𝑓
𝑑𝐳 𝑝𝒙(𝐱) = 𝑝𝒛(𝑓−1(𝐱)) det
𝑑𝑓−1
𝑑𝐱
𝜈 = Φ ∗ 𝜇
= 𝜇 Φ 𝑧 det(𝐷Φz)
ユークリッド
空間
 変換後のある点の変
換前の点の確率は変
換関数の微分を利用
して計算可能
多様体
 Φ ∗ 𝜇を引き戻しという
 引き戻しは写像の微
分を利用して計算可
能
𝑥 = Φ(𝑧)
𝜇 = Φ−1
∗ 𝜈
= 𝜈 Φ−1
𝑥 det(𝐷Φx
−1
)
確率密度
イメージ
確率密度
イメージ
Copyright © 2022 ARISE analytics reserved.
[公開情報]
25
Continuous Normalizing Flowを多様体上で定義
※Rozen, Noam, et al. "Moser Flow: Divergence-based Generative Modeling on Manifolds." Advances in
Neural Information Processing Systems 34 (2021).
ユークリッド空間でのContinuous Normalizing Flowと同等な操作を多様体に拡張すると以下のようにな
る。
通常のCNF 多様体上に拡張したCNF※
 変換が連続的に変化して、t=1の時に目的の変換に
なると考える
 確率変数の微分となる関数を学習する
 変換写像が連続的に変化して、t=1の時に目的の
変換になると考える
 変換写像の微分となるベクトル場を学習する
𝑝𝒙(𝐱) = 𝑝𝒛(𝑓−1
(𝐱)) det
𝑑𝑓−1
𝑑x
確率密度
の変換
𝜇 = Φ−1
∗ 𝜈
= 𝜈 Φ−1
𝑥 det(𝐷Φx
−1
)
確率密度
の変換
𝑑𝐳𝑡
𝑑𝑡
= 𝑓′𝑡 𝒛𝑡 学習対象
𝑑
𝑑𝑡
Φ𝑡 = 𝑣𝑡(Φ𝑡)
学習対象
𝐳𝑡 = 𝑓𝑡 𝐳0
= 𝐳0 +
0
𝑡
𝑓𝑡
′
𝒛𝑡 𝑑𝑡
確率変数
の変換
𝐳𝑡 = Φ𝑡 𝐳0
=
0
𝑡
𝑣𝑡(Φ𝑡) 𝑑𝑡
確率変数
の変換
Copyright © 2022 ARISE analytics reserved.
[公開情報]
26
多様体に拡張したContinuous Normalizing Flowの課題
1 ヤコビアンの計算が大変
計算が簡単になる変換フロー(ここでは割愛)もあるが、表現力が足りないことも
2 学習・生成時に毎回常微分方程式を解く必要がある
効率は良くなったが、やっぱり数値計算は重い
3 ユークリッド空間だけを想定している
実データは多様体上に分布していることも多い(位置情報など)
Copyright © 2022 ARISE analytics reserved.
[公開情報]
27
アジェンダ
論文の概要と必要な知識
1
Normalizing Flow
2
Continuous Normalizing Flow
3
多様体
4
Moser Flow(提案手法)
6
7 実験結果
多様体でのContinuous Normalizing Flow
5
8 まとめ
Copyright © 2022 ARISE analytics reserved.
[公開情報]
28
Moser Flow※
※Rozen, Noam, et al. "Moser Flow: Divergence-based Generative Modeling on Manifolds."
Advances in Neural Information Processing Systems 34 (2021).
Moser Flowは確率密度の変換を簡単に表せるようなベクトル場を学習する。
多様体上に拡張したCNF Moser Flow
 CNFをそのまま多様体に拡張しただけだと、確率密度
の変換にヤコビアンが必要で計算が大変
 写像の微分となるベクトル場を学習する
 変換後の分布は変換前の分布からベクトル場の発散
を引くだけで計算可能→ヤコビアンの計算が不要
 発散を計算する前のベクトル場を学習する
𝜇 = Φ−1
∗ 𝜈
= 𝜈 Φ−1
𝑥 det(𝐷Φx
−1
)
確率密度
の変換
𝜇 = ν − div(𝑢)
確率密度
の変換
𝑑
𝑑𝑡
Φ𝑡 = 𝑣𝑡(Φ𝑡) 学習対象
𝑢 = 𝛼𝑡𝑣𝑡
ただし、
𝛼𝑡 = 1 − 𝑡 𝜈 + 𝑡𝜇,
𝑑
𝑑𝑡
Φ𝑡 = 𝑣𝑡 Φ𝑡
学習対象
𝐳𝑡 = Φ𝑡 𝐳0
=
0
𝑡
𝑣𝑡(Φ𝑡) 𝑑𝑡
確率変数
の変換
𝐳𝑡 = Φ𝑡 𝐳0
=
0
𝑡
𝑣𝑡(Φ𝑡) 𝑑𝑡
確率変数
の変換
Copyright © 2022 ARISE analytics reserved.
[公開情報]
29
Moserの定理
𝜈 = Φ ∗ 𝜇は次の式を利用することで解くことができる。
Moserの定理
提案手法はMoserが証明した定理を利用することで計算を簡単にしている。
5
6
7
2
3
1
4
Φ = Φ1
𝑑
𝑑𝑡
Φ𝑡 = 𝑣𝑡 Φ𝑡
Φt ∗ 𝛼𝑡 = 𝛼0
𝛼0 = 𝜈
𝛼1 = 𝜇
div 𝑢𝑡 = −
𝑑
𝑑𝑡
𝛼𝑡
𝑣𝑡 =
𝑢𝑡
𝛼𝑡
 変換写像を変化させていくと最終的に目的の変換になる
 変換写像の微分はあるベクトル場𝑣𝑡で表される
 変換が変化するので変換後の確率密度も変化する
 1番最初は簡単な分布𝜈になる
 最終的には目的の分布𝜇に変換される
 確率密度の変化をベクトル場𝑢𝑡の発散で表す
 𝑣𝑡は𝑢𝑡を𝛼𝑡で割ったもの
8
9
 変換前の分布𝜈の確率密度関数の体積形式を利用する
 変換後の分布𝜇の確率密度関数の体積形式を利用する
𝜈 = 𝜈𝑑𝑉
𝜇 = 𝜇𝑑𝑉
Copyright © 2022 ARISE analytics reserved.
[公開情報]
30
Moser Flowの導出
1 𝛼𝑡 = 1 − 𝑡 𝜈 + 𝑡𝜇  確率密度関数は線形に変化すると仮定する
2
𝑑
𝑑𝑡
𝛼𝑡 = 𝜇 − 𝜈  確率密度関数の変化はシンプルに表せる
4 div 𝑢 = 𝜈 − 𝜇  前ページの式8を利用して変形
5 𝜇 = div 𝑢 − 𝜈  𝜈を決定して、ベクトル場𝑢を学習すれば𝜇を近似できる
3 𝑢𝑡 = 𝑢  前ページのベクトル場𝑢は何でもいいので変化しないものに決定
簡単な分布から目的の分布まで確率密度関数
が線形に変化するときを考える
Copyright © 2022 ARISE analytics reserved.
[公開情報]
31
Moser Flowの最適化
データ𝒳 = 𝑥𝑖 𝑖=1
𝑚
⊂ ℳの確率密度𝜇を最尤推定する。 モンテカルロ用に用意した𝜂のサンプル𝒴 = 𝑦𝑗 𝑙=1
𝑙
を使って損失関数は近似計算可能。
損失関数
𝑙 𝜃 = −𝔼𝜇 log𝜇+ 𝑥 + 𝜆
ℳ
𝜇− 𝑥 𝑑𝑉
𝜇+ 𝑥 = max{𝜖, 𝜇(𝑥)}
𝜇− 𝑥 = 𝜖 − min{𝜖, 𝜇(𝑥)}
平均の近似 𝔼𝜇 log𝜇+ 𝑥 ≈
1
𝑚
𝑖=1
𝑚
log 𝜇+(𝑥𝑖)
積分の近似
ℳ
𝜇− 𝑥 𝑑𝑉 ≈
1
𝑙
𝑗=1
𝑙
𝜇−(𝑦𝑗)
𝜂 𝑦𝑗
𝜆はハイパーパラメータ
Copyright © 2022 ARISE analytics reserved.
[公開情報]
32
ユークリッド部分多様体での生成モデル
多様体上に分布しているデータ(地理関連データなど)でも、ユークリッド座標で表現されていることが多い。実
際にモデルを構築する場合、ユークリッド座標を多様体上に投影する必要がある。
損失関数 𝑙 𝜃 = −
1
𝑚
𝑖=1
𝑚
log max 𝜖, 𝜈 𝑥𝑖 − div𝐸𝑢 𝑥𝑖 +
𝜆−
′
𝑙
𝑗=1
𝑙
(𝜖 − min {𝜖, 𝜈 𝑦𝑗 − div𝐸𝑢(𝑦𝑗)})
ユークリッド空間か
ら多様体への投影
𝜋 𝑥 = min
𝑦∈ℳ
𝑥 − 𝑦
接ベクトル平面へ
の投影行列
𝑃𝑥 = 𝐼 − 𝑁𝑁T
ベクトル場
(学習対象)
𝑢 𝑥 = 𝑃𝜋 𝑥 𝑣𝜃(𝜋(𝑥))
多様体上で最も近い座標に投影
多様体上の点𝑥上のベクトルを点𝑥の
接ベクトル平面に投影
多様体上のベクトル場は上記の投影
を利用して表現する
(𝑣𝜃はMLPで学習)
上記のようなモデリングをすると、損失
関数も書き直せる
(𝜆−
′
はハイパーパラメータ)
Copyright © 2022 ARISE analytics reserved.
[公開情報]
33
アジェンダ
論文の概要と必要な知識
1
Normalizing Flow
2
Continuous Normalizing Flow
3
多様体
4
Moser Flow(提案手法)
6
7 実験結果
多様体でのContinuous Normalizing Flow
5
8 まとめ
Copyright © 2022 ARISE analytics reserved.
[公開情報]
34
2次元の分布を学習
画像の出典: https://arxiv.org/pdf/2108.08052.pdf
Copyright © 2022 ARISE analytics reserved.
[公開情報]
35
地球科学データを学習
画像の出典: https://arxiv.org/pdf/2108.08052.pdf
Copyright © 2022 ARISE analytics reserved.
[公開情報]
36
ウサギ表面上の分布を学習
画像の出典: https://arxiv.org/pdf/2108.08052.pdf
正解の分布
学習した分布
Copyright © 2022 ARISE analytics reserved.
[公開情報]
37
アジェンダ
論文の概要と必要な知識
1
Normalizing Flow
2
Continuous Normalizing Flow
3
多様体
4
Moser Flow(提案手法)
6
7 実験結果
多様体でのContinuous Normalizing Flow
5
8 まとめ
Copyright © 2022 ARISE analytics reserved.
[公開情報]
38
まとめ
1
2
3
課題 Moser Flowで解決
多様体での分布をモデリング可能
効率的に学習・サンプル生成が可能
他の手法よりも高い精度で分布をモデリング
多様体での分布のモデリングが難しかった
複雑な分布のモデリングの計算量が多い
複雑な分布のモデリング精度が低い

More Related Content

PPTX
[DL輪読会]World Models
PDF
[DL輪読会]Deep Learning 第15章 表現学習
PPTX
[DL輪読会]Flow-based Deep Generative Models
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
PPTX
[Ridge-i 論文よみかい] Wasserstein auto encoder
PPTX
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
PPTX
Curriculum Learning (関東CV勉強会)
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]World Models
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[Ridge-i 論文よみかい] Wasserstein auto encoder
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
Curriculum Learning (関東CV勉強会)
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...

What's hot (20)

PPTX
[DL輪読会]When Does Label Smoothing Help?
PPTX
[DL輪読会]相互情報量最大化による表現学習
PPTX
カルマンフィルタ入門
PDF
[DL輪読会]Relational inductive biases, deep learning, and graph networks
PDF
GAN(と強化学習との関係)
PDF
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
PDF
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
PDF
[DL輪読会]ICLR2020の分布外検知速報
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
PDF
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PPTX
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
PDF
MICの解説
PDF
時系列予測にTransformerを使うのは有効か?
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
PPTX
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
PDF
画像生成・生成モデル メタサーベイ
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]相互情報量最大化による表現学習
カルマンフィルタ入門
[DL輪読会]Relational inductive biases, deep learning, and graph networks
GAN(と強化学習との関係)
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
[DL輪読会]ICLR2020の分布外検知速報
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
非制約最小二乗密度比推定法 uLSIF を用いた外れ値検出
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
MICの解説
時系列予測にTransformerを使うのは有効か?
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
画像生成・生成モデル メタサーベイ
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Ad

Similar to 【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds (20)

PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
PPTX
第2回DARM勉強会
PDF
A Brief Survey of Schrödinger Bridge (Part I)
PDF
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
PDF
ディジタル信号処理の課題解説 その3
PDF
ベイズ統計によるデータ解析
PDF
深層生成モデルと世界モデル
PDF
PRML chap.10 latter half
PDF
Extract and edit
PPTX
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
PPTX
OpenNLP - MEM and Perceptron
PDF
深層生成モデルと世界モデル(2020/11/20版)
PDF
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
PPTX
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
PPTX
[DL輪読会]Neural Ordinary Differential Equations
PPTX
多目的強凸最適化のパレート集合のトポロジー
PDF
Prml 10 1
PDF
統計的学習の基礎 5章前半(~5.6)
PDF
Kansaimath_seminar
PDF
マルコフ連鎖モンテカルロ法入門-2
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
第2回DARM勉強会
A Brief Survey of Schrödinger Bridge (Part I)
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
ディジタル信号処理の課題解説 その3
ベイズ統計によるデータ解析
深層生成モデルと世界モデル
PRML chap.10 latter half
Extract and edit
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
OpenNLP - MEM and Perceptron
深層生成モデルと世界モデル(2020/11/20版)
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
[DL輪読会]Neural Ordinary Differential Equations
多目的強凸最適化のパレート集合のトポロジー
Prml 10 1
統計的学習の基礎 5章前半(~5.6)
Kansaimath_seminar
マルコフ連鎖モンテカルロ法入門-2
Ad

More from ARISE analytics (20)

PDF
【JSAI2024】学術論文の定量的評価と効果的な活用について Quantitative evaluation and effective utiliza...
PDF
【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
PDF
【JSAI2024】ブラックボックス大規模言語モデルにおけるHallucination検知手法の検討.pdf
PDF
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
PPTX
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
PPTX
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
PDF
めんどうな環境構築とはおさらば!Dockerの概要と使い方
PDF
【論文レベルで理解しよう!】​ 欠測値処理編​
PDF
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
PDF
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
PDF
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
PDF
教師なしGNNによるIoTデバイスの異常通信検知の検討
PPTX
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
PPTX
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
PPTX
【論文読み会】Autoregressive Diffusion Models.pptx
PPTX
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
PPTX
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
PPTX
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
PPTX
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
PPTX
【論文読み会】On the Expressivity of Markov Reward
【JSAI2024】学術論文の定量的評価と効果的な活用について Quantitative evaluation and effective utiliza...
【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
【JSAI2024】ブラックボックス大規模言語モデルにおけるHallucination検知手法の検討.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
めんどうな環境構築とはおさらば!Dockerの概要と使い方
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
教師なしGNNによるIoTデバイスの異常通信検知の検討
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】On the Expressivity of Markov Reward

【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds

  • 1. Copyright © 2022 ARISE analytics reserved. [公開情報] Moser Flow: Divergence-based Generative Modeling on Manifolds Marketing Solution Division 伊藤 光祐 2022/03/16
  • 2. Copyright © 2022 ARISE analytics reserved. [公開情報] 1 アジェンダ 論文の概要と必要な知識 1 Normalizing Flow 2 Continuous Normalizing Flow 3 多様体 4 Moser Flow(提案手法) 6 7 実験結果 多様体でのContinuous Normalizing Flow 5 8 まとめ
  • 3. Copyright © 2022 ARISE analytics reserved. [公開情報] 2 アジェンダ 論文の概要と必要な知識 1 Normalizing Flow 2 Continuous Normalizing Flow 3 多様体 4 Moser Flow(提案手法) 6 7 実験結果 多様体でのContinuous Normalizing Flow 5 8 まとめ
  • 4. Copyright © 2022 ARISE analytics reserved. [公開情報] 3 我々は、球体、円環、その他の陰伏曲面などの多様体によって記述される複雑な幾何学の生成モデルを学 習することに興味がある。既存の(ユークリッド)生成モデルを拡張した手法は、特定の幾何形状に限定され ており、一般に高い計算コストに悩まされている。我々は、 Continuous Normalizing Flow(CNF)に属す る新しいクラスの生成モデルであるMoser Flow(MF)を紹介する。MFもまた、変数変化式の解を介してCNF を生成するが、他のCNF手法とは異なり、そのモデル(学習)密度は、ソース(事前)密度からニューラル ネットワーク(NN)のダイバージェンスを引いたものとしてパラメータ化される。ダイバージェンスは局所的な線形 微分演算子であり、多様体上で容易に近似・計算することができる。したがって、他のCNFとは異なり、MFで は常微分方程式(ODE)ソルバーを呼び出して順伝播や逆伝播する必要がない。さらに、モデル密度をODE の解としてではなく、NNの発散として明示的に表現することで、忠実度の高い確率密度を容易に学習すること ができる。理論的には、MFが適切な仮定の下で普遍的な確率密度近似モデルを構成することを証明する。 また、地球科学や気候科学における難しい合成幾何学や実世界のベンチマークにおいて、確率密度推定、サ ンプルの品質、既存のCNFと比較した学習の複雑さにおいて、大幅な改善を達成することができた。 論文のアブストラクト(和訳)
  • 5. Copyright © 2022 ARISE analytics reserved. [公開情報] 4 ?????????
  • 6. Copyright © 2022 ARISE analytics reserved. [公開情報] 5 簡単にまとめると... 画像の出典: https://arxiv.org/pdf/2108.08052.pdf 1 球体やウサギ(!?)の表面のような複雑 な空間の確率分布をモデリングできる ←のような確率分布もモデリングできる 2 計算量が減った 既存手法はモデル学習のイテレーションの度 に計算量が大きい方程式を解く必要があった 多様体上の確率分布の例 3 精度が高い 気候データや写真の再現で既存手法よりも 高い精度を記録 ただし、提案手法の理解には様々な前提知識が必要
  • 7. Copyright © 2022 ARISE analytics reserved. [公開情報] 6 必要知識 Normalizing Flow Continuous Normalizing Flow Moser Flow 多様体での Continuous Normalizing Flow 多様体  複雑な分布をモデリング可能  簡単な分布を複数回変換  サンプリングが簡単 提案手法について理解するには、Normalizing Flowと多様体の知識が必要。  変換フローを連続とみなす  変換フローの導関数をモデリングすることで計 算が効率的に  学習の計算量削減  精度向上  多様体上の分布をモデリング可能  複雑な空間を表せる  局所的にユークリッド空間とみな せるので計算がしやすい
  • 8. Copyright © 2022 ARISE analytics reserved. [公開情報] 7 アジェンダ 論文の概要と必要な知識 1 Normalizing Flow 2 Continuous Normalizing Flow 3 多様体 4 Moser Flow(提案手法) 6 7 実験結果 多様体でのContinuous Normalizing Flow 5 8 まとめ
  • 9. Copyright © 2022 ARISE analytics reserved. [公開情報] 8 Normalizing Flow 学習対象となる複雑な確率分布を簡単な確率分布を変換することで再現するモデル。簡単な分布からサン プルした値を変換することで、目的の分布のサンプルを得ることができる。 シンプルな分布 変換 複雑な分布 ? ? ? NNで変換ステップを学習 データの分布 (計算が難しい) 潜在変数の分布 (簡単に計算可能) 適当にサンプリング 学習データの分布上でサン プルに相当するものを再現 𝑓1 𝑓2 𝑓3 𝑓4
  • 10. Copyright © 2022 ARISE analytics reserved. [公開情報] 9 確率密度関数の変換 確率変数の変換を利用すると、確率密度関数を変換することができる。 𝐱 = 𝑓 𝐳 𝑝𝐳(𝐳) = 𝑝𝐱(𝑓 (𝐳)) det 𝑑𝑓(𝐳) 𝑑𝐳 𝑝𝒙(𝐱) = 𝑝𝒛(𝑓−1 (𝐱)) det 𝑑𝑓−1 (𝐱) 𝑑𝐱 確率密度 イメージ Normalizing Flowで学習
  • 11. Copyright © 2022 ARISE analytics reserved. [公開情報] 10 Normalizing Flowの定式化 ステップが増えた場合の計算効率はContinuous Normalizing Flowで解消 変換  潜在変数zをデータの分布に変換す る  𝑓(𝐳)をNNで学習する 𝐱 = 𝑓(𝐳) 変換フロー  変換を複数のステップに分解する  NNの1つの層が1ステップの変換とみ なせる 𝑓 = 𝑓1 ◦ 𝑓2 ◦ ⋯ ◦ 𝑓𝐾 生成モデル での損失関数 (負の対数尤度)  最尤推定で、変換後の分布をデータ 分布に近づける  ただし、ステップ・データ次元が増える と計算が大変に −log 𝑝𝐱 𝐱 = − log 𝑝𝐱 (𝑓(𝐳)) = − log 𝑝𝐳 𝑓−1 𝐱 − log det 𝑑𝑓−1 (𝐱) 𝑑𝐱 逆変換  逆変換を学習時に利用  次元圧縮などにも活用可能 𝑓−1 = 𝑓1 −1 ◦ 𝑓2 −1 ◦ ⋯ ◦ 𝑓𝐾 −1
  • 12. Copyright © 2022 ARISE analytics reserved. [公開情報] 11 アジェンダ 論文の概要と必要な知識 1 Normalizing Flow 2 Continuous Normalizing Flow 3 多様体 4 Moser Flow(提案手法) 6 7 実験結果 多様体でのContinuous Normalizing Flow 5 8 まとめ
  • 13. Copyright © 2022 ARISE analytics reserved. [公開情報] 12 Continuous Normalizing Flow Normalizing Flowでは離散的だった変換ステップを連続的なものにすることで、変換自体を微分可能とし たモデル。変換の各ステップではなく、変換関数の変化(導関数)を学習する。 シンプルな分布 変換 複雑な分布 NNで変換の導関数を学習 データの分布 (計算が難しい) 潜在変数の分布 (簡単に計算可能) 適当にサンプリング 学習データの分布上でサン プルに相当するものを再現 𝑓0 𝑓1 無限回の変換ステップがあるイメージ 𝑓0.5 … …
  • 14. Copyright © 2022 ARISE analytics reserved. [公開情報] 13 Normalizing Flowとの違い ※ Chen, Ricky TQ, et al. "Neural ordinary differential equations." Advances in neural information processing systems 31 (2018). Normalizing Flowでは変換が離散的であったために、ステップごとに計算やパラメータが必要だった。 Continuous Normalizing Flowでは変換を連続的にとらえ、導関数を学習することで効率を改善した。 Normalizing Flow Continuous Normalizing Flow 変換 ステップ 𝐳𝑖 = 𝑓𝑖(𝐳𝑖−1) 変換全体 𝐳𝐾 = 𝑓𝐾(𝑓𝐾−1(… 𝑓1(𝐳0))) 変換 ステップ (厳密にはステップ じゃない) 𝐳𝑡 = 𝐳𝑡−𝛥𝑡 + 𝑓𝑡(𝐳𝑡−𝛥𝑡)𝛥𝑡 変換全体 𝐳1 = 𝐳0 + 0 1 𝑓𝑡 𝐳𝑡 𝑑𝑡 学習対象 𝑓 = 𝑓1 ◦ 𝑓2 ◦ ⋯ ◦ 𝑓𝐾 学習対象 𝑓𝑡 𝐳𝑡 = 𝑑𝐳 𝑑𝑡 Neural ODE※という手法で導関数を学習
  • 15. Copyright © 2022 ARISE analytics reserved. [公開情報] 14 Neural ODE ResNetのように、直接の変換ではなく差分を学習していくモデル。ただし、変換を連続的な変化とみなしてそ の導関数を学習していく。変換時には常微分方程式(ODE)の数値的解法を利用する。 常微分方程式とは 𝑑𝑓 𝒙 𝑑𝒙 = 𝒚 or 𝒚 = 𝑓 𝒙 𝑑𝒙となるような方程式。複雑な式でも数値計算で解を得ることができる。 逆方向の変換 損失関数 (最尤推定) 勾配の計算 学習時 𝑓−1(𝐳1) = 𝐳1 + 1 0 𝑓𝑡 𝐳𝑡 𝑑𝑡  逆変換は積分の方向を変えるだけ ℒ = − log 𝑝𝐳0 𝑓−1 (𝐳1) − log det 𝑑𝑓−1 (𝐳1) 𝑑𝐳1  最尤推定の式はNFから変わらない 𝑑ℒ 𝑑𝜃 = − 1 0 𝑎𝑡 𝜕𝑓𝑡 𝑧𝑡 𝜕𝜃 𝑑𝑡 ただし、𝑎𝑡 = 𝜕ℒ 𝜕𝐳𝑡  勾配の計算も常微分方程式で計算 可能 順方向の変換 生成時 𝑓(𝐳0) = 𝐳0 + 0 1 𝑓𝑡 𝐳𝑡 𝑑𝑡  NNを数値積分して変換前の分布に 足す
  • 16. Copyright © 2022 ARISE analytics reserved. [公開情報] 15 Continuous Normalizing Flowの課題 1 ヤコビアンの計算が大変 計算が簡単になる変換フロー(ここでは割愛)もあるが、表現力が足りないことも 2 学習・生成時に毎回常微分方程式を解く必要がある 効率は良くなったが、やっぱり数値計算は重い 3 ユークリッド空間だけを想定している 実データは多様体上に分布していることも多い(位置情報など)
  • 17. Copyright © 2022 ARISE analytics reserved. [公開情報] 16 アジェンダ 論文の概要と必要な知識 1 Normalizing Flow 2 Continuous Normalizing Flow 3 多様体 4 Moser Flow(提案手法) 6 7 実験結果 多様体でのContinuous Normalizing Flow 5 8 まとめ
  • 18. Copyright © 2022 ARISE analytics reserved. [公開情報] 17 多様体 トーラス画像の出典: http://ja.wikipedia.org/wiki/トーラス ユークリッド空間画像の出典: https://ja.wikipedia.org/wiki/ユークリッド空間 多様体は、局所的にはユークリッド空間とみなせるような図形のこと。多様体は次元を持つ。実データは多様 体上に分布していることも多い。 多様体の例 地球表面は2次元多様体 ←ドーナツの表面は2 次元曲面だから2次 元多様体 (ドーナツの中身は3 次元多様体) ←ユークリッド空間は 多様体の特別な場 合 地球表面は球面だが、一部分だけに注目すると平 面の地図(=ユークリッド空間)で表せる
  • 19. Copyright © 2022 ARISE analytics reserved. [公開情報] 18 必要な多様体の知識 提案手法の理解に必要な知識をまとめた。厳密な理解はしてないので、雰囲気で説明。 接ベクトル  多様体上のある点を起点とするベクトルを、その点の接ベクトルという 接ベクトル平面  ある点上で取りうる接ベクトルすべての集合を接ベクトル平面という  多様体上の点𝑥における接ベクトル平面を𝑇𝑥ℳとあらわす ベクトル場  多様体上の各点に対し、その点上の接ベクトルが定まる対応のこと  多様体ℳ上に定義できるベクトル場全体を𝒳 ℳ のようにあらわす 体積形式  多様体上で積分する際の微小要素的なもので、𝑑𝑉のように表記する  ある領域での体積を𝑉 𝒜 = 𝒜 𝑑𝑉 のように計算できる 多様体上の点・領域  多様体上の点は𝑥 ∈ ℳのようにあらわせる  領域は𝒜 ⊂ ℳのようにあらわせる 写像  多様体ℳ上の自身への写像はΦ: ℳ → ℳのようになる  𝜙: ℳ → ℝのような実数への写像を特に関数という 多様体  数式上ではℳのようにあらわす 局所座標系  多様体の特定の領域𝒜からユークリッド空間への写像𝜑: 𝒜 → ℝ𝑛 を、局所座標系という 発散  ベクトル場の各点におけるベクトルの発生・収束を表すスカラー場  div(𝑢)のようにあらわす 写像の微分  Φ:ℳ → ℳの𝑧 ∈ ℳでの微分は𝐷Φ𝑧: T𝑧ℳ → 𝑇Φ(𝑧)ℳのようにあらわせる
  • 20. Copyright © 2022 ARISE analytics reserved. [公開情報] 19 地球でのイメージ(多様体上の点と写像) 多様体上の点 (𝑥 ∈ ℳ) 局所座標上の 点 Φ: ℳ → ℳ 地球表面(多様体ℳ) Φ′: ℝ2 → ℝ2 局所座標系
  • 21. Copyright © 2022 ARISE analytics reserved. [公開情報] 20 地球でのイメージ(ベクトル場と接ベクトル) 接ベクトル平面の画像出典: https://ja.wikipedia.org/wiki/接ベクトル空間 接ベクトル𝑣 多様体ℳ上のベクトル場 接ベクトル平面 多様体上の点 (𝑥 ∈ ℳ) 接ベクトルがとりうる値の集合のイ メージ
  • 22. Copyright © 2022 ARISE analytics reserved. [公開情報] 21 地球でのイメージ(ベクトル場の発散) 多様体ℳ上のベクトル場 点𝑥の周りのベクトル (点𝑥の発散が正になる場合) 接ベクトル𝑣 多様体上の点 (𝑥 ∈ ℳ)  発散は微小領域でのベクトルの流出量に 相当するスカラー値  この場合は点𝑥に向いているベクトルに対し て点𝑥から出るベクトルのほうが大きいので発 散は正
  • 23. Copyright © 2022 ARISE analytics reserved. [公開情報] 22 地球でのイメージ(写像のある点での微分) 写像の微分の出典: https://ja.wikipedia.org/wiki/写像の微分 点から点への写像の微分はベクトル 場からベクトル場への写像
  • 24. Copyright © 2022 ARISE analytics reserved. [公開情報] 23 アジェンダ 論文の概要と必要な知識 1 Normalizing Flow 2 Continuous Normalizing Flow 3 多様体 4 Moser Flow(提案手法) 6 7 実験結果 多様体でのContinuous Normalizing Flow 5 8 まとめ
  • 25. Copyright © 2022 ARISE analytics reserved. [公開情報] 24 多様体での確率密度関数の変換 多様体でも、確率変数を変換できれば、確率密度関数の変換が可能。 𝐱 = 𝑓(𝐳) 𝑝𝐳(𝐳) = 𝑝𝐱(𝐱) det 𝑑𝑓 𝑑𝐳 𝑝𝒙(𝐱) = 𝑝𝒛(𝑓−1(𝐱)) det 𝑑𝑓−1 𝑑𝐱 𝜈 = Φ ∗ 𝜇 = 𝜇 Φ 𝑧 det(𝐷Φz) ユークリッド 空間  変換後のある点の変 換前の点の確率は変 換関数の微分を利用 して計算可能 多様体  Φ ∗ 𝜇を引き戻しという  引き戻しは写像の微 分を利用して計算可 能 𝑥 = Φ(𝑧) 𝜇 = Φ−1 ∗ 𝜈 = 𝜈 Φ−1 𝑥 det(𝐷Φx −1 ) 確率密度 イメージ 確率密度 イメージ
  • 26. Copyright © 2022 ARISE analytics reserved. [公開情報] 25 Continuous Normalizing Flowを多様体上で定義 ※Rozen, Noam, et al. "Moser Flow: Divergence-based Generative Modeling on Manifolds." Advances in Neural Information Processing Systems 34 (2021). ユークリッド空間でのContinuous Normalizing Flowと同等な操作を多様体に拡張すると以下のようにな る。 通常のCNF 多様体上に拡張したCNF※  変換が連続的に変化して、t=1の時に目的の変換に なると考える  確率変数の微分となる関数を学習する  変換写像が連続的に変化して、t=1の時に目的の 変換になると考える  変換写像の微分となるベクトル場を学習する 𝑝𝒙(𝐱) = 𝑝𝒛(𝑓−1 (𝐱)) det 𝑑𝑓−1 𝑑x 確率密度 の変換 𝜇 = Φ−1 ∗ 𝜈 = 𝜈 Φ−1 𝑥 det(𝐷Φx −1 ) 確率密度 の変換 𝑑𝐳𝑡 𝑑𝑡 = 𝑓′𝑡 𝒛𝑡 学習対象 𝑑 𝑑𝑡 Φ𝑡 = 𝑣𝑡(Φ𝑡) 学習対象 𝐳𝑡 = 𝑓𝑡 𝐳0 = 𝐳0 + 0 𝑡 𝑓𝑡 ′ 𝒛𝑡 𝑑𝑡 確率変数 の変換 𝐳𝑡 = Φ𝑡 𝐳0 = 0 𝑡 𝑣𝑡(Φ𝑡) 𝑑𝑡 確率変数 の変換
  • 27. Copyright © 2022 ARISE analytics reserved. [公開情報] 26 多様体に拡張したContinuous Normalizing Flowの課題 1 ヤコビアンの計算が大変 計算が簡単になる変換フロー(ここでは割愛)もあるが、表現力が足りないことも 2 学習・生成時に毎回常微分方程式を解く必要がある 効率は良くなったが、やっぱり数値計算は重い 3 ユークリッド空間だけを想定している 実データは多様体上に分布していることも多い(位置情報など)
  • 28. Copyright © 2022 ARISE analytics reserved. [公開情報] 27 アジェンダ 論文の概要と必要な知識 1 Normalizing Flow 2 Continuous Normalizing Flow 3 多様体 4 Moser Flow(提案手法) 6 7 実験結果 多様体でのContinuous Normalizing Flow 5 8 まとめ
  • 29. Copyright © 2022 ARISE analytics reserved. [公開情報] 28 Moser Flow※ ※Rozen, Noam, et al. "Moser Flow: Divergence-based Generative Modeling on Manifolds." Advances in Neural Information Processing Systems 34 (2021). Moser Flowは確率密度の変換を簡単に表せるようなベクトル場を学習する。 多様体上に拡張したCNF Moser Flow  CNFをそのまま多様体に拡張しただけだと、確率密度 の変換にヤコビアンが必要で計算が大変  写像の微分となるベクトル場を学習する  変換後の分布は変換前の分布からベクトル場の発散 を引くだけで計算可能→ヤコビアンの計算が不要  発散を計算する前のベクトル場を学習する 𝜇 = Φ−1 ∗ 𝜈 = 𝜈 Φ−1 𝑥 det(𝐷Φx −1 ) 確率密度 の変換 𝜇 = ν − div(𝑢) 確率密度 の変換 𝑑 𝑑𝑡 Φ𝑡 = 𝑣𝑡(Φ𝑡) 学習対象 𝑢 = 𝛼𝑡𝑣𝑡 ただし、 𝛼𝑡 = 1 − 𝑡 𝜈 + 𝑡𝜇, 𝑑 𝑑𝑡 Φ𝑡 = 𝑣𝑡 Φ𝑡 学習対象 𝐳𝑡 = Φ𝑡 𝐳0 = 0 𝑡 𝑣𝑡(Φ𝑡) 𝑑𝑡 確率変数 の変換 𝐳𝑡 = Φ𝑡 𝐳0 = 0 𝑡 𝑣𝑡(Φ𝑡) 𝑑𝑡 確率変数 の変換
  • 30. Copyright © 2022 ARISE analytics reserved. [公開情報] 29 Moserの定理 𝜈 = Φ ∗ 𝜇は次の式を利用することで解くことができる。 Moserの定理 提案手法はMoserが証明した定理を利用することで計算を簡単にしている。 5 6 7 2 3 1 4 Φ = Φ1 𝑑 𝑑𝑡 Φ𝑡 = 𝑣𝑡 Φ𝑡 Φt ∗ 𝛼𝑡 = 𝛼0 𝛼0 = 𝜈 𝛼1 = 𝜇 div 𝑢𝑡 = − 𝑑 𝑑𝑡 𝛼𝑡 𝑣𝑡 = 𝑢𝑡 𝛼𝑡  変換写像を変化させていくと最終的に目的の変換になる  変換写像の微分はあるベクトル場𝑣𝑡で表される  変換が変化するので変換後の確率密度も変化する  1番最初は簡単な分布𝜈になる  最終的には目的の分布𝜇に変換される  確率密度の変化をベクトル場𝑢𝑡の発散で表す  𝑣𝑡は𝑢𝑡を𝛼𝑡で割ったもの 8 9  変換前の分布𝜈の確率密度関数の体積形式を利用する  変換後の分布𝜇の確率密度関数の体積形式を利用する 𝜈 = 𝜈𝑑𝑉 𝜇 = 𝜇𝑑𝑉
  • 31. Copyright © 2022 ARISE analytics reserved. [公開情報] 30 Moser Flowの導出 1 𝛼𝑡 = 1 − 𝑡 𝜈 + 𝑡𝜇  確率密度関数は線形に変化すると仮定する 2 𝑑 𝑑𝑡 𝛼𝑡 = 𝜇 − 𝜈  確率密度関数の変化はシンプルに表せる 4 div 𝑢 = 𝜈 − 𝜇  前ページの式8を利用して変形 5 𝜇 = div 𝑢 − 𝜈  𝜈を決定して、ベクトル場𝑢を学習すれば𝜇を近似できる 3 𝑢𝑡 = 𝑢  前ページのベクトル場𝑢は何でもいいので変化しないものに決定 簡単な分布から目的の分布まで確率密度関数 が線形に変化するときを考える
  • 32. Copyright © 2022 ARISE analytics reserved. [公開情報] 31 Moser Flowの最適化 データ𝒳 = 𝑥𝑖 𝑖=1 𝑚 ⊂ ℳの確率密度𝜇を最尤推定する。 モンテカルロ用に用意した𝜂のサンプル𝒴 = 𝑦𝑗 𝑙=1 𝑙 を使って損失関数は近似計算可能。 損失関数 𝑙 𝜃 = −𝔼𝜇 log𝜇+ 𝑥 + 𝜆 ℳ 𝜇− 𝑥 𝑑𝑉 𝜇+ 𝑥 = max{𝜖, 𝜇(𝑥)} 𝜇− 𝑥 = 𝜖 − min{𝜖, 𝜇(𝑥)} 平均の近似 𝔼𝜇 log𝜇+ 𝑥 ≈ 1 𝑚 𝑖=1 𝑚 log 𝜇+(𝑥𝑖) 積分の近似 ℳ 𝜇− 𝑥 𝑑𝑉 ≈ 1 𝑙 𝑗=1 𝑙 𝜇−(𝑦𝑗) 𝜂 𝑦𝑗 𝜆はハイパーパラメータ
  • 33. Copyright © 2022 ARISE analytics reserved. [公開情報] 32 ユークリッド部分多様体での生成モデル 多様体上に分布しているデータ(地理関連データなど)でも、ユークリッド座標で表現されていることが多い。実 際にモデルを構築する場合、ユークリッド座標を多様体上に投影する必要がある。 損失関数 𝑙 𝜃 = − 1 𝑚 𝑖=1 𝑚 log max 𝜖, 𝜈 𝑥𝑖 − div𝐸𝑢 𝑥𝑖 + 𝜆− ′ 𝑙 𝑗=1 𝑙 (𝜖 − min {𝜖, 𝜈 𝑦𝑗 − div𝐸𝑢(𝑦𝑗)}) ユークリッド空間か ら多様体への投影 𝜋 𝑥 = min 𝑦∈ℳ 𝑥 − 𝑦 接ベクトル平面へ の投影行列 𝑃𝑥 = 𝐼 − 𝑁𝑁T ベクトル場 (学習対象) 𝑢 𝑥 = 𝑃𝜋 𝑥 𝑣𝜃(𝜋(𝑥)) 多様体上で最も近い座標に投影 多様体上の点𝑥上のベクトルを点𝑥の 接ベクトル平面に投影 多様体上のベクトル場は上記の投影 を利用して表現する (𝑣𝜃はMLPで学習) 上記のようなモデリングをすると、損失 関数も書き直せる (𝜆− ′ はハイパーパラメータ)
  • 34. Copyright © 2022 ARISE analytics reserved. [公開情報] 33 アジェンダ 論文の概要と必要な知識 1 Normalizing Flow 2 Continuous Normalizing Flow 3 多様体 4 Moser Flow(提案手法) 6 7 実験結果 多様体でのContinuous Normalizing Flow 5 8 まとめ
  • 35. Copyright © 2022 ARISE analytics reserved. [公開情報] 34 2次元の分布を学習 画像の出典: https://arxiv.org/pdf/2108.08052.pdf
  • 36. Copyright © 2022 ARISE analytics reserved. [公開情報] 35 地球科学データを学習 画像の出典: https://arxiv.org/pdf/2108.08052.pdf
  • 37. Copyright © 2022 ARISE analytics reserved. [公開情報] 36 ウサギ表面上の分布を学習 画像の出典: https://arxiv.org/pdf/2108.08052.pdf 正解の分布 学習した分布
  • 38. Copyright © 2022 ARISE analytics reserved. [公開情報] 37 アジェンダ 論文の概要と必要な知識 1 Normalizing Flow 2 Continuous Normalizing Flow 3 多様体 4 Moser Flow(提案手法) 6 7 実験結果 多様体でのContinuous Normalizing Flow 5 8 まとめ
  • 39. Copyright © 2022 ARISE analytics reserved. [公開情報] 38 まとめ 1 2 3 課題 Moser Flowで解決 多様体での分布をモデリング可能 効率的に学習・サンプル生成が可能 他の手法よりも高い精度で分布をモデリング 多様体での分布のモデリングが難しかった 複雑な分布のモデリングの計算量が多い 複雑な分布のモデリング精度が低い