【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES

DEEP LEARNING JP
[DL Papers]
“GIT RE-BASIN: MERGING MODELS MODULO
PERMU- TATION SYMMETRIES”
発表者：岩澤有祐
http://deeplearning.jp/

“Git Re-Basin: Merging Models Modulo Permutation Symmetries” , ICLR 2023 Under review
書誌情報
2
• 著者：Samuel K. Ainsworth, Jonathan Hayase,
Siddhartha Srinivasa (University of Washington)
• 概要
– なぜSGDが毎回同じような性能を達成するの
か？
– SGDで到達されるほとんどの解はPermutationを
除いて
Linear Mode Connectedであるから（右図）
• SGDとLMCに関連する論文として下記も簡単に紹
介
– “Unmasking the Lottery Ticket Hypothesis:
What's Encoded in a Winning Ticket's Mask?”
※他に断りがない限り本資料の図表は当該論文より

Outline
• 前提知識：Linear Mode Connectivity
– “Linear Mode Connectivity and the Lottery Ticket
Hypothesis”，ICML2020
• “Git Re-Basin: Merging Models Modulo
Permutation Symmetries”
• “Unmasking the Lottery Ticket Hypothesis:
3

Instability, Error Barrier
4
Linear Mode Connectivity and the Lottery Ticket Hypothesisより抜粋
• ある初期値W0から開始
• 異なるノイズ（サンプルの順序な
ど）を加えてW0から２つの重みを
作る
• W1とW2の間を線形補間したとき
の
性能の劣化がError Barrierと呼ぶ

Barrierの実際の例
5
• 別のデータセット，別のアーキテクチャを初期値から初め
て学習したときのBarrierの可視化（左はBarrierなし，右

Barrierの図示
6
W0
• W1とW2は間を補完しても性能が下がる点がない（同じ局所解周辺）
• W1とW3は間を保管すると性能が下がる（異なる局所解周辺）
=> Barrierがない状況はSGDがノイズに対して頑健（同じ解周辺に到達）を
W2
W3
W1

Linear Mode Connectivity
7
Definition: ε-Linear Mode Connected (LMC)
ある２つの重み𝒘𝟏 ，𝒘𝟐が次の性質を満たすときLMCと呼
ぶ．
𝐿 𝛼𝒘𝟏 + 1 − 𝛼 𝒘𝟐 ≤ 𝛼𝐿 𝒘𝟏 + 1 − 𝛼 𝐿 𝒘𝟏
Definition: Error Barrier
上記を満たす最小のεを𝒘𝟏 ，𝒘𝟐のError Barrierと呼ぶ

様々なアーキテクチャにおけるError Barrier
8
• 別のデータセット，別のアーキテクチャを初期値から初めて学習したときの
Barrierの可視化
• 簡単なタスク，単純なモデルではError Barrierがほぼゼロ
• ResNet等では初期値から始めるとBarrierが存在

RewindingとLMC
9
• 学習を最初からではなく途中からやりなおすことをRewindingと呼ぶ
• 大きめのモデルでも学習の途中でError Barrierがなくなる
=> SGDは学習途中からは安定に同じ局所解にたどり着いている

Outline
10

Permutation symmetries of Neural Networks
• NNの重みは入れ替えても機能的には不変
𝑧𝑙+1 = 𝑃𝑇
𝑃𝑧𝑙+1 = 𝑃𝑇
𝑃𝜎 𝑊𝑙𝑧𝑙 + 𝑏𝑙 = 𝑃𝑇
𝜎 𝑃𝑊𝑙𝑧𝑙 + 𝑃𝑏𝑙
• σ：活性化関数
• P：Permutation Matrix
11

“The Role of Permutation Invariance in Linear Mode Connectivity of Neural
Networks”, arxiv, 2021
12
Conjecture
“Most SGD solution belong to a set
whose elements can be permuted so
that no barrier exists on linear
interpolation between any two
permuted elements”
図は“The Role of Permutation Invariance in Linear Mode Connectivity of Neural Networks”より抜粋

参考：# Permutation Symmetries
13
“Git Re-Basin: Merging Models Modulo Permutation Symmetries”より抜粋
• 取りうるPermutation Symmetriesは膨大（前述の予測の厳密な検証は困
難）

Permutation Selection Method
• 方法１：Matching Activations
– データが必要だがSolverがある
• 方法２：Matching Weights
– データは必要ないが素朴には解けないので層ごとに行う
• 方法３：Straight Through Estimator Matching
14

Permutation後のError Barrier
15
• 4つのデータ，モデルでの検証（ザックリ右に行くほど難しい）
– 右２つは効率性の観点からWeight Matching (緑）のみを検証
• いずれもPermutationの修正のみでBarrierがあった２つのモデルのBarrierが
大幅に減少
– ※ MNIST, MLPとかは既存ではそもそもBarrierないことになっている気がするがそれは不
明

NNの幅とPermuted Error Barrier
16
• 幅（フィルタ数）を変更したときのPermutation後のError Barrier
• 幅を大きくすることが重要

参考：Permutation前のBarrierと幅と深さの関係
17
図は“The Role of Permutation Invariance in Linear Mode Connectivity of Neural Networks”より抜粋
• 幅（フィルタ数）を大きくするとそもそもError Barrierは減る
（SGDが同じ解に到達しやすくなる）
• 深さは増やすとError Barrierは大きくなる

LMCは何によって生じるのか
18
• MLPをMNIST（左）とCIFAR-10（右）で学習した際のBarrierの推移
• Loss Barrierは学習が進むに連れて小さくなる
※ 厳密な記載がないが多分Weight MatchingでPermutationを戻している
• モデルアーキテクチャ自体によって引き起こされているのではなくSGDによる

別データの重みをPermutation後にモデルをマージ
19
• 普通に別のデータで学習した重みを平均化すると性能は劣化する
• Weight Matching後の重みは平均化する事により性能が若干向上する
• ただし，普通にアンサンブルしたり全データで訓練する場合よりは性能落ちる

まとめ
• SGDが学習する解はPermutation Symmetryを除き同じ局
所解とLocally Connectedであるという仮説
[Entezari+2021]
• 本論文は膨大なPermutation空間を効率的に探索する方法を
提案し，上記仮説を検証
• クラス分類タスクにおいてはある程度妥当性があることを検
証
20

議論
• クラス分類以外での不安定性との関連
• 実際には学習はLMCが発生するより幅が狭いネットワーク
でも起こり，かつ深いネットワークでも起こっている？
– Deepがよくうまくいくことの説明にはあまりなっていない
• Permutation Symmetry以外のInvarianceが学習に与え
る影響
– 層を跨いだマッチング [Nguyen+2021]
– Re-scaling Invariance [Ainsworth+2018] 21

Outline
22

“Unmasking the Lottery Ticket Hypothesis” , ICLR 2023 Under review
書誌情報２
23
• 著者
– Mansheej Paul, Feng Chen, Brett W. Larsen, Jonathan Frankle, Surya Ganguli,
Gintare Karolina Dziugaite
– Stanford, Metaなど
• 概要
– 宝くじ仮説の実験では，もとよりかなり小さいパラメータで同等の性能を
達成するサブネット（Matching Networks)が存在することが示唆されてい
る
– ただし，小さなサブネットの発見はOne-Shotでは行えず，Iterativeな
Pruningが必要
– かつ，Iterative Pruningの際に重みを初期値に戻す必要がある
（Rewinding）
– これらがなぜ必要なのかについてLMCの観点から考察

Iterative Magnitude Pruning
1. NNをランダムに初期化（𝜽𝟎）． 𝒎𝟎
= 𝟏
2. NNを一定イテレーション訓練（𝜽𝒋）
3. For i in 0…L
1. 𝒎𝒊+𝟏
⊙ 𝜽𝒋を訓練
2. 重みの大きさ下位α%を刈り取るマスク𝒎𝒊+𝟏
を作成
4. 最終的な𝒎𝑳
⊙ 𝜽𝒋を訓練する
※上記の手続きで訓練したサブネットが普通に訓練したNNと
同程度の正解率を達成する場合Matching Networksと呼ばれ
る
24

IMP from LMC
25
• 各Levelでαだけ重みを残す場合のIterative Pruningの模式図
• 本論文では，各レベルでのMatching Networksがその前のNetworksと
Linearly ConnectedであることがIMPの成功に重要であることを検証

実験結果の抜粋
26
• 左：各レベル間でのLoss Barrier．マッチングに成功している場合（緑）は
Level間でLoss Barrierがない！中央は拡大図．
• 右：すべてのLevelでのLoss Barrier．全ペアでLoss Barrierがないわけで

なぜこのようになるのか？
27
• IMPで得られる摂動と同程度のランダムな摂動を加えた際のError Barrier
の比較
• 重みのPruneだけではなくランダムな摂動に対しても同様にLMC

どの程度刈り取っていいいのか
28
• ざっくりいうとパラメータの曲率とProjectionによって発生する距離に依存
して最大Prune Rateが決まる
• 完全にではないがMatchingの成否をある程度予測できる

なぜRewindが必要なのか
29
• Fine-Tuning：各レベルで重みと学習率を引き継ぐ
• Learning Rate Rewinding：各レベルで重みのみ引き継ぎ学習率は戻す
• Weight Rewinding：各レベルで重みも学習率も引き継がない
• Fine-Tuningだけ小さい値の重みが少ない => 刈り取ったときの影響（曲
率）が大きくなり，Pruningに失敗する

まとめ
• Winning Ticketの発見に使われるIMPがなぜ必要なのかにつ
いてLMCの観点から分析
• （１）Pruningの各レベルで得られる解は前のレベルとLMC．
ただしすべてのペアがつながっている訳では無い．
• （２）これはSGDの頑健性により起きている．
• （３）Rewindが必要なのはRewindをしないと値が小さなパ
ラメータがいなくなり削ることにより距離が大きく離れてし
まうから 30

【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES

More Related Content

What's hot (20)

Similar to 【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES (20)

More from Deep Learning JP (20)

Recently uploaded (10)

【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES

Editor's Notes