SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
“GIT RE-BASIN: MERGING MODELS MODULO
PERMU- TATION SYMMETRIES”
発表者:岩澤有祐
http://deeplearning.jp/
“Git Re-Basin: Merging Models Modulo Permutation Symmetries” , ICLR 2023 Under review
書誌情報
2
• 著者:Samuel K. Ainsworth, Jonathan Hayase,
Siddhartha Srinivasa (University of Washington)
• 概要
– なぜSGDが毎回同じような性能を達成するの
か?
– SGDで到達されるほとんどの解はPermutationを
除いて
Linear Mode Connectedであるから(右図)
• SGDとLMCに関連する論文として下記も簡単に紹
介
– “Unmasking the Lottery Ticket Hypothesis:
What's Encoded in a Winning Ticket's Mask?”
※他に断りがない限り本資料の図表は当該論文より
Outline
• 前提知識:Linear Mode Connectivity
– “Linear Mode Connectivity and the Lottery Ticket
Hypothesis”,ICML2020
• “Git Re-Basin: Merging Models Modulo
Permutation Symmetries”
• “Unmasking the Lottery Ticket Hypothesis:
What's Encoded in a Winning Ticket's Mask?”
3
Instability, Error Barrier
4
Linear Mode Connectivity and the Lottery Ticket Hypothesisより抜粋
• ある初期値W0から開始
• 異なるノイズ(サンプルの順序な
ど)を加えてW0から2つの重みを
作る
• W1とW2の間を線形補間したとき
の
性能の劣化がError Barrierと呼ぶ
Barrierの実際の例
5
• 別のデータセット,別のアーキテクチャを初期値から初め
て学習したときのBarrierの可視化(左はBarrierなし,右
Linear Mode Connectivity and the Lottery Ticket Hypothesisより抜粋
Barrierの図示
6
W0
• W1とW2は間を補完しても性能が下がる点がない(同じ局所解周辺)
• W1とW3は間を保管すると性能が下がる(異なる局所解周辺)
=> Barrierがない状況はSGDがノイズに対して頑健(同じ解周辺に到達)を
W2
W3
W1
Linear Mode Connectivity
7
Definition: ε-Linear Mode Connected (LMC)
ある2つの重み𝒘𝟏 ,𝒘𝟐が次の性質を満たすときLMCと呼
ぶ.
𝐿 𝛼𝒘𝟏 + 1 − 𝛼 𝒘𝟐 ≤ 𝛼𝐿 𝒘𝟏 + 1 − 𝛼 𝐿 𝒘𝟏
Definition: Error Barrier
上記を満たす最小のεを𝒘𝟏 ,𝒘𝟐のError Barrierと呼ぶ
様々なアーキテクチャにおけるError Barrier
8
• 別のデータセット,別のアーキテクチャを初期値から初めて学習したときの
Barrierの可視化
• 簡単なタスク,単純なモデルではError Barrierがほぼゼロ
• ResNet等では初期値から始めるとBarrierが存在
Linear Mode Connectivity and the Lottery Ticket Hypothesisより抜粋
RewindingとLMC
9
Linear Mode Connectivity and the Lottery Ticket Hypothesisより抜粋
• 学習を最初からではなく途中からやりなおすことをRewindingと呼ぶ
• 大きめのモデルでも学習の途中でError Barrierがなくなる
=> SGDは学習途中からは安定に同じ局所解にたどり着いている
Outline
• 前提知識:Linear Mode Connectivity
– “Linear Mode Connectivity and the Lottery Ticket
Hypothesis”,ICML2020
• “Git Re-Basin: Merging Models Modulo
Permutation Symmetries”
• “Unmasking the Lottery Ticket Hypothesis:
What's Encoded in a Winning Ticket's Mask?”
10
Permutation symmetries of Neural Networks
• NNの重みは入れ替えても機能的には不変
𝑧𝑙+1 = 𝑃𝑇
𝑃𝑧𝑙+1 = 𝑃𝑇
𝑃𝜎 𝑊𝑙𝑧𝑙 + 𝑏𝑙 = 𝑃𝑇
𝜎 𝑃𝑊𝑙𝑧𝑙 + 𝑃𝑏𝑙
• σ:活性化関数
• P:Permutation Matrix
11
“The Role of Permutation Invariance in Linear Mode Connectivity of Neural
Networks”, arxiv, 2021
12
Conjecture
“Most SGD solution belong to a set
whose elements can be permuted so
that no barrier exists on linear
interpolation between any two
permuted elements”
図は“The Role of Permutation Invariance in Linear Mode Connectivity of Neural Networks”より抜粋
参考:# Permutation Symmetries
13
“Git Re-Basin: Merging Models Modulo Permutation Symmetries”より抜粋
• 取りうるPermutation Symmetriesは膨大(前述の予測の厳密な検証は困
難)
Permutation Selection Method
• 方法1:Matching Activations
– データが必要だがSolverがある
• 方法2:Matching Weights
– データは必要ないが素朴には解けないので層ごとに行う
• 方法3:Straight Through Estimator Matching
14
Permutation後のError Barrier
15
• 4つのデータ,モデルでの検証(ザックリ右に行くほど難しい)
– 右2つは効率性の観点からWeight Matching (緑)のみを検証
• いずれもPermutationの修正のみでBarrierがあった2つのモデルのBarrierが
大幅に減少
– ※ MNIST, MLPとかは既存ではそもそもBarrierないことになっている気がするがそれは不
明
NNの幅とPermuted Error Barrier
16
• 幅(フィルタ数)を変更したときのPermutation後のError Barrier
• 幅を大きくすることが重要
参考:Permutation前のBarrierと幅と深さの関係
17
図は“The Role of Permutation Invariance in Linear Mode Connectivity of Neural Networks”より抜粋
• 幅(フィルタ数)を大きくするとそもそもError Barrierは減る
(SGDが同じ解に到達しやすくなる)
• 深さは増やすとError Barrierは大きくなる
LMCは何によって生じるのか
18
• MLPをMNIST(左)とCIFAR-10(右)で学習した際のBarrierの推移
• Loss Barrierは学習が進むに連れて小さくなる
※ 厳密な記載がないが多分Weight MatchingでPermutationを戻している
• モデルアーキテクチャ自体によって引き起こされているのではなくSGDによる
別データの重みをPermutation後にモデルをマージ
19
• 普通に別のデータで学習した重みを平均化すると性能は劣化する
• Weight Matching後の重みは平均化する事により性能が若干向上する
• ただし,普通にアンサンブルしたり全データで訓練する場合よりは性能落ちる
まとめ
• SGDが学習する解はPermutation Symmetryを除き同じ局
所解とLocally Connectedであるという仮説
[Entezari+2021]
• 本論文は膨大なPermutation空間を効率的に探索する方法を
提案し,上記仮説を検証
• クラス分類タスクにおいてはある程度妥当性があることを検
証
20
議論
• クラス分類以外での不安定性との関連
• 実際には学習はLMCが発生するより幅が狭いネットワーク
でも起こり,かつ深いネットワークでも起こっている?
– Deepがよくうまくいくことの説明にはあまりなっていない
• Permutation Symmetry以外のInvarianceが学習に与え
る影響
– 層を跨いだマッチング [Nguyen+2021]
– Re-scaling Invariance [Ainsworth+2018] 21
Outline
• 前提知識:Linear Mode Connectivity
– “Linear Mode Connectivity and the Lottery Ticket
Hypothesis”,ICML2020
• “Git Re-Basin: Merging Models Modulo
Permutation Symmetries”
• “Unmasking the Lottery Ticket Hypothesis:
What's Encoded in a Winning Ticket's Mask?”
22
“Unmasking the Lottery Ticket Hypothesis” , ICLR 2023 Under review
書誌情報2
23
• 著者
– Mansheej Paul, Feng Chen, Brett W. Larsen, Jonathan Frankle, Surya Ganguli,
Gintare Karolina Dziugaite
– Stanford, Metaなど
• 概要
– 宝くじ仮説の実験では,もとよりかなり小さいパラメータで同等の性能を
達成するサブネット(Matching Networks)が存在することが示唆されてい
る
– ただし,小さなサブネットの発見はOne-Shotでは行えず,Iterativeな
Pruningが必要
– かつ,Iterative Pruningの際に重みを初期値に戻す必要がある
(Rewinding)
– これらがなぜ必要なのかについてLMCの観点から考察
Iterative Magnitude Pruning
1. NNをランダムに初期化(𝜽𝟎). 𝒎𝟎
= 𝟏
2. NNを一定イテレーション訓練(𝜽𝒋)
3. For i in 0…L
1. 𝒎𝒊+𝟏
⊙ 𝜽𝒋を訓練
2. 重みの大きさ下位α%を刈り取るマスク𝒎𝒊+𝟏
を作成
4. 最終的な𝒎𝑳
⊙ 𝜽𝒋を訓練する
※上記の手続きで訓練したサブネットが普通に訓練したNNと
同程度の正解率を達成する場合Matching Networksと呼ばれ
る
24
IMP from LMC
25
• 各Levelでαだけ重みを残す場合のIterative Pruningの模式図
• 本論文では,各レベルでのMatching Networksがその前のNetworksと
Linearly ConnectedであることがIMPの成功に重要であることを検証
実験結果の抜粋
26
• 左:各レベル間でのLoss Barrier.マッチングに成功している場合(緑)は
Level間でLoss Barrierがない!中央は拡大図.
• 右:すべてのLevelでのLoss Barrier.全ペアでLoss Barrierがないわけで
なぜこのようになるのか?
27
• IMPで得られる摂動と同程度のランダムな摂動を加えた際のError Barrier
の比較
• 重みのPruneだけではなくランダムな摂動に対しても同様にLMC
どの程度刈り取っていいいのか
28
• ざっくりいうとパラメータの曲率とProjectionによって発生する距離に依存
して最大Prune Rateが決まる
• 完全にではないがMatchingの成否をある程度予測できる
なぜRewindが必要なのか
29
• Fine-Tuning:各レベルで重みと学習率を引き継ぐ
• Learning Rate Rewinding:各レベルで重みのみ引き継ぎ学習率は戻す
• Weight Rewinding:各レベルで重みも学習率も引き継がない
• Fine-Tuningだけ小さい値の重みが少ない => 刈り取ったときの影響(曲
率)が大きくなり,Pruningに失敗する
まとめ
• Winning Ticketの発見に使われるIMPがなぜ必要なのかにつ
いてLMCの観点から分析
• (1)Pruningの各レベルで得られる解は前のレベルとLMC.
ただしすべてのペアがつながっている訳では無い.
• (2)これはSGDの頑健性により起きている.
• (3)Rewindが必要なのはRewindをしないと値が小さなパ
ラメータがいなくなり削ることにより距離が大きく離れてし
まうから 30

More Related Content

PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
PDF
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
 
PPTX
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
Deep Learning JP
 
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
PPTX
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
Deep Learning JP
 
PDF
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
 
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
 
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
Deep Learning JP
 
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
 

What's hot (20)

PPTX
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
 
PPTX
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
PDF
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
 
PDF
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
PDF
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP
 
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
 
PDF
自然言語処理による議論マイニング
Naoaki Okazaki
 
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
 
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
 
PDF
【メタサーベイ】Video Transformer
cvpaper. challenge
 
PDF
【メタサーベイ】Neural Fields
cvpaper. challenge
 
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
 
PDF
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
Deep Learning JP
 
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
 
PPTX
近年のHierarchical Vision Transformer
Yusuke Uchida
 
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida
 
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
 
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
 
自然言語処理による議論マイニング
Naoaki Okazaki
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
 
【メタサーベイ】Video Transformer
cvpaper. challenge
 
【メタサーベイ】Neural Fields
cvpaper. challenge
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
Deep Learning JP
 
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
 
近年のHierarchical Vision Transformer
Yusuke Uchida
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida
 
Ad

Similar to 【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES (20)

PPTX
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
PDF
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Preferred Networks
 
PDF
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
Kensuke Otsuki
 
PDF
20170422 数学カフェ Part1
Kenta Oono
 
PDF
bigdata2012ml okanohara
Preferred Networks
 
PDF
PRML 第14章
Akira Miyazawa
 
PDF
ICML2017 参加報告会 山本康生
Yahoo!デベロッパーネットワーク
 
PPTX
0610 TECH & BRIDGE MEETING
健司 亀本
 
PDF
[読会]Long tail learning via logit adjustment
shima o
 
PDF
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
sleepy_yoshi
 
PDF
BLUE*アルゴリズム
nishio
 
PPTX
RBMを応用した事前学習とDNN学習
Masayuki Tanaka
 
PDF
A systematic study of the class imbalance problem in convolutional neural net...
Yuya Soneoka
 
PDF
NN, CNN, and Image Analysis
Yuki Shimada
 
PDF
レコメンドアルゴリズムの基本と周辺知識と実装方法
Takeshi Mikami
 
PDF
Unified Expectation Maximization
Koji Matsuda
 
PDF
データマイニング勉強会3
Yohei Sato
 
PDF
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
Takuma Yagi
 
PDF
Report2
YoshikazuHayashi3
 
PDF
Jubatusにおける大規模分散オンライン機械学習
Preferred Networks
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Preferred Networks
 
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
Kensuke Otsuki
 
20170422 数学カフェ Part1
Kenta Oono
 
bigdata2012ml okanohara
Preferred Networks
 
PRML 第14章
Akira Miyazawa
 
ICML2017 参加報告会 山本康生
Yahoo!デベロッパーネットワーク
 
0610 TECH & BRIDGE MEETING
健司 亀本
 
[読会]Long tail learning via logit adjustment
shima o
 
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
sleepy_yoshi
 
BLUE*アルゴリズム
nishio
 
RBMを応用した事前学習とDNN学習
Masayuki Tanaka
 
A systematic study of the class imbalance problem in convolutional neural net...
Yuya Soneoka
 
NN, CNN, and Image Analysis
Yuki Shimada
 
レコメンドアルゴリズムの基本と周辺知識と実装方法
Takeshi Mikami
 
Unified Expectation Maximization
Koji Matsuda
 
データマイニング勉強会3
Yohei Sato
 
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
Takuma Yagi
 
Jubatusにおける大規模分散オンライン機械学習
Preferred Networks
 
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 
PDF
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
 

Recently uploaded (10)

PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 

【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES

Editor's Notes

  • #2: Beyond Reward Based End-to-End RL: Representation Learning and Dataset Optimization Perspective
  • #5: Linear Mode Connectivity and the Lottery Ticket Hypothesisより抜粋
  • #15: Bをまず線形割当する
  • #23: The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks