SlideShare a Scribd company logo
第61回 CV勉強会@関東「CVPR2023読み会(前編)」
State Space Models
for Event Cameras
2024/07/07 takmin
自己紹介
2
株式会社ビジョン&ITラボ 代表取締役
皆川 卓也(みながわ たくや)
博士(工学)
「コンピュータビジョン勉強会@関東」主催
株式会社フューチャースタンダード 技術顧問
略歴:
1999-2003年
日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化)
http://visitlab.jp
事業内容
1. R&Dコンサルティング
2. 受託研究/開発
3. 開発マネジメント
4. 開発コンサルティング
5. ビジネス化コンサルティング
3
IoT管理ミドルウェア:シナリオエンジン
4
 ノーコードで人やモノなどを「動的に」管理するためのルールエンジ
ン
 「いつ」、「どこで」、「誰(何)が」、「何をした」かをトリガーに、サイ
ネージやAR、Webサーバーなどのアクションを制御できる。
 特許取得済み
アクション
人:歩く 人:歩く
AR探索アドベンチャー
5
 スマホでイラスト、ランド
マーク、ものなどを撮影
すると、キャラクターやア
イテムが現れてストー
リーが進むアドベン
チャーゲーム。
 アプリインストール不要
 シナリオエンジンにより、
ユーザの行動や天候、混
雑具合によって動的なス
トーリー変更が可能
拡張現実感(AR)
紹介する論文
7
 State Space Models for Event Cameras
 Nikola Zubic, Mathias Gehrig, Davide Scaramuzza
 Robotics and Perception Group, University of Zurich, Switzerland
 イベントカメラを用いた物体検出等を行う従来手法は、学習測度の
問題や、学習時と異なる周波数に対応できない問題を、状態空間
モデル(SSM)を導入することで解決
イベントカメラ
8
 輝度の変化のみ転送
 非同期なイベントシーケンスを発生
 低遅延、ブラー無し、High Dynamic Range
Related Work
9
 Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for
Object Detection with Event Cameras. Proceedings of the IEEE Computer
Society Conference on ComputerVision and Pattern Recognition (CVPR)
 VisionTransformer + LSTMを用いて、イベントカメラから物体検出
Related Work
10
 Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for
Object Detection with Event Cameras. Proceedings of the IEEE Computer
Society Conference on ComputerVision and Pattern Recognition (CVPR)
 VisionTransformer + LSTMを用いて、イベントカメラから物体検出
𝒆𝑘 = (𝑥𝑘, 𝑦𝑘, 𝑡𝑘, 𝑝𝑘)
画素の
座標
発生
時刻
変化方向
(正/負)
(2𝑇, 𝐻, 𝑊)とすることで、
画像として処理
Related Work
11
 Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for
Object Detection with Event Cameras. Proceedings of the IEEE Computer
Society Conference on ComputerVision and Pattern Recognition (CVPR)
 VisionTransformer + LSTMを用いて、イベントカメラから物体検出
空間内での
Local Window
Self-Attention
空間内での
Dilated
Attention
本手法
12
 LSTMを状態空間モデル(State Space Model)に置き換え
る
 RVT Block → SSM-ViT Block
SSM-ViT Block
状態空間モデル(SSM)の利用
13
SSM利用のメリット:
 既存手法と比べて、長い時系列データを扱える
 学習が高速
 学習時と推論時で異なる周波数を扱うことができる。
 今回、S4、S4D、S5というSSMを使用。
 次のスライドから、S4、S4D、S5に至るSSMの進化を簡単に解
説
HiPPO
14
 Gu,A., Dao,T., Ermon, S., Rudra,A., & Ré, C. (2020). HiPPO: Recurrent
memory with optimal polynomial projections.Advances in Neural Information
Processing Systems (NeurIPS).
 系列データを関数(直交多項式の和)で近似することで、理論上無限長の
系列を扱うことができる。
HiPPO
15
 Gu,A., Dao,T., Ermon, S., Rudra,A., & Ré, C. (2020). HiPPO: Recurrent
memory with optimal polynomial projections.Advances in Neural Information
Processing Systems (NeurIPS).
 系列データを関数(直交多項式の和)で近似することで、理論上無限長の
系列を扱うことができる。
任意の関数𝑓(𝑡)
からサンプリングし
た系列データ𝑓𝑖
系列データをN個の
直交多項式へ投影
𝜇(𝑡𝑖)
: 測度(=データへの重み)
基底関数(直交多項
式)の係数𝑐(𝑡)
係数𝑐(𝑡)を逐次的に更新
離散化
𝐴𝑘はサンプリング間隔∆t
に依存しない(学習時と推
論時に異なる周波数に対
応)
LSSL
16
 Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent,
Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural
Information Processing Systems (NeurIPS)
 HiPPOを状態空間モデルへ拡張
 逐次処理を畳み込み処理として並列化
LSSL
17
 Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent,
Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural
Information Processing Systems (NeurIPS)
 HiPPOを状態空間モデルへ拡張
 逐次処理を畳み込み処理として並列化
状態空間モデル
ሶ
𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡
𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡
入力
内部状態
出力
HiPPO
ሶ
𝑐 𝑡 = 𝐀𝑐 𝑡 + 𝐁𝑓 𝑡
LSSL
18
 Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent,
Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural
Information Processing Systems (NeurIPS)
 HiPPOを状態空間モデルへ拡張
 逐次処理を畳み込み処理として並列化
状態空間モデル
ሶ
𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡
𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡
入力
内部状態
出力
離散化状態空間モデル
𝑥𝑘 = ഥ
𝐀𝑥𝑘−1 + ഥ
𝐁𝑢𝑘
𝑦𝑘 = ҧ
𝐂𝑥𝑘 + ഥ
𝐃𝑢𝑘
LSSL
19
 Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent,
Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural
Information Processing Systems (NeurIPS)
 HiPPOを状態空間モデルへ拡張
 逐次処理を畳み込み処理として並列化
状態空間モデル
ሶ
𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡
𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡
入力
内部状態
出力
離散化状態空間モデル
𝑥𝑘 = ഥ
𝐀𝑥𝑘−1 + ഥ
𝐁𝑢𝑘
𝑦𝑘 = ҧ
𝐂𝑥𝑘 + ഥ
𝐃𝑢𝑘
離散化状態空間モデルを展開すると、畳み込み演算
に変換できる
(ഥ
𝐃𝑢𝑘はSkip Connectionとみなして省略)
𝑦𝑘 = ҧ
𝐂(ഥ
𝐀𝑥𝑘−1 + ഥ
𝐁𝑢𝑘)
↓
𝑦𝑘 = ҧ
𝐂ഥ
𝐀𝑥𝑘−1 + ҧ
𝐂ഥ
𝐁𝑢𝑘
↓
𝑦𝑘 = ҧ
𝐂ഥ
𝐀𝟐
𝑥𝑘−2 + ҧ
𝐂ഥ
𝐀ഥ
𝐁𝑢𝑘−1 + ҧ
𝐂ഥ
𝐁𝑢𝑘
↓
↓
𝑦𝑘 = ҧ
𝐂ഥ
𝐀𝒌ഥ
𝐁𝑢0 + ҧ
𝐂ഥ
𝐀𝒌−𝟏ഥ
𝐁𝑢1 + ⋯ + ҧ
𝐂ഥ
𝐀ഥ
𝐁𝑢𝑘−1 + ҧ
𝐂ഥ
𝐁𝑢𝑘
↓
𝑦 = ഥ
𝑲 ∗ 𝒖
ഥ
𝑲 = ҧ
𝐂ഥ
𝐁, ҧ
𝐂ഥ
𝑨ഥ
𝐁, … , ҧ
𝐂ഥ
𝐀𝐿−1ഥ
𝐁
…
S4
20
 Gu,A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long Sequences
With Structured State Spaces. International Conference on Learning
Representations (ICLR).
 畳み込みカーネルഥ
𝑲の計算を様々な数学的テクニックを用いて簡
略化
S4
21
 Gu,A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long SequencesWith
Structured State Spaces. International Conference on Learning Representations
(ICLR).
 畳み込みカーネル𝑲の計算を様々な数学的テクニックを用いて簡略化
Diagonal Plus Low-Rank
𝑨 = 𝚲 − 𝒑𝒒∗
対角行列と低階級の和
ሶ
𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡
𝑦 𝑡 = 𝐂𝑥 𝑡
周波数領域で畳
み込みカーネル
𝑲を生成
周波数領域で
𝒖と𝑲を乗算
(=時間領域で
畳み込み)
入力信号𝒖を
フーリエ変換
出信号𝒚を逆
フーリエ変換
S4D
22
 Gu,A., Gupta,A., Goel, K., & Ré, C. (2022). On the Parameterization and
Initialization of Diagonal State Space Models. Advances in Neural Information
Processing Systems (NeurIPS)
 HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして
も、実験的にうまくいくことがわかっている。
 この現象を数学的に解析し、S4より簡易な手法を提案
S4D
23
 Gu,A., Gupta,A., Goel, K., & Ré, C. (2022). On the Parameterization and
Initialization of Diagonal State Space Models. Advances in Neural Information
Processing Systems (NeurIPS)
 HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして
も、実験的にうまくいくことがわかっている。
 この現象を数学的に解析し、より簡易な手法を提案
対角行列
S5
24
 Smith, J.T. H.,Warrington,A., & Linderman, S.W. (2023). Simplified State Space Layers
for Sequence Modeling. International Conference on Learning Representation (ICLR)
 S4は入力𝒖のチャネルを個別に処理するのに対し、S5は全チャネルを一括で処理
 S4D同様DPLRの対角成分のみ使用
 畳み込み処理の代わりに再帰処理を並列化(Parallel Scan)
本手法
25
 LSTMを状態空間モデル(State Space Model)に置き換え
る
 RVT Block → SSM-ViT Block
SSM-ViT Block
Low-pass bandlimiting
26
 学習時よりも高い周波数の信号に対し推定を行う場合、
エイリアシングの問題が発生
 以下の2つの対策を取る
 Output Masking:
 畳み込みカーネル𝑲の周波数成分𝑓𝑛を選択的にマスクする(𝛼 = 1の
時、Nyquist limit)
 𝐶𝑛 = ൝
𝐶𝑛 if 𝑓𝑛 ≤
𝛼
2
,
0 otherwise,
 𝐇2 Norm
 損失関数に、畳み込みカーネル𝑲の𝜔𝑚𝑖𝑛以上の周波数スペクトラム
の和を加える
Experiments
27
 以下の2つのイベントカメラデータセットに対して評価
 Gen 1
 https://www.prophesee.ai/2020/01/24/prophesee-gen1-automotive-
detection-dataset/
 1 Mpx
 https://www.prophesee.ai/2020/11/24/automotive-megapixel-event-
based-dataset/
 ベースモデル:ViT-SSM-B
 軽量モデル:ViT-SSM-S
 学習はTimeWindow Size 50ms (20Hz)、binの数は10で
行った
Gen1/1 Mpxデータセットでの評価
28
 Competitiveな性能を非常に速い推論速度で達成
異なる周波数での評価
29
 周波数が上がるにつれ、他の手法が大幅に性能を落と
すのに対し、本手法での劣化はわずか
SSMs: initialization & bandlimiting
30
 SSMのモデルと初期化方法、周波数制限パラメータ毎の
比較(初期化法の詳細はS4Dの論文参照)
モデル名-初期化法
SSM Utilization Analysis
31
 各層のRVT BlockやSSM-ViT Blockの再帰性がどれだけ
性能に影響をしているかの評価
Evaluation at different frequencies
32
DSECデータセットでの評価
33
 1 Mpxデータセットで学習したモデルでDSECデータセットを評価
 結果動画
 https://youtu.be/WRZZJn6Me9M?si=g5JBNIccSr5sL6-F&t=175
結論
34
 イベントカメラの物体検出タスクに対して、Vision
TransformerとState Space Modelを利用することで、高周
波数帯で、従来法に比べて30 mAP以上高い精度と33%
の学習速度の向上を達成した。
 SSM-ViTモデルは、学習時とは異なる周波数での推論に
対しても、追加学習無しで適応可能。
 更にOutput Maskingと𝐇2 Norm調整によって特に高周
波で問題となるエイリアシングを抑えることができた。

More Related Content

PPTX
Soutenance Elhadj Bah | Diplôme d'ingénieur de conception en Informatique | E...
Elhadj Mamadou Aliou BAH
 
PDF
Processus de choix du prestataire informatique
CYB@RDECHE
 
PDF
Rapport PFE2021.pdf
CoulibalyYoussoufngo
 
PPT
Plan Lector Lineamientos Y Formulacion
CARLOS ANGELES
 
PPT
Introduction
Mohamed Ben Romdhane
 
PPTX
Diapo PFE
bhar amenallah
 
PPTX
Méthodes agiles vs méthodes classiques
Sirine Barguaoui
 
PPT
Presentation de projet Tableau de gestion des archives
Ets GeneralArchive
 
Soutenance Elhadj Bah | Diplôme d'ingénieur de conception en Informatique | E...
Elhadj Mamadou Aliou BAH
 
Processus de choix du prestataire informatique
CYB@RDECHE
 
Rapport PFE2021.pdf
CoulibalyYoussoufngo
 
Plan Lector Lineamientos Y Formulacion
CARLOS ANGELES
 
Introduction
Mohamed Ben Romdhane
 
Diapo PFE
bhar amenallah
 
Méthodes agiles vs méthodes classiques
Sirine Barguaoui
 
Presentation de projet Tableau de gestion des archives
Ets GeneralArchive
 

What's hot (20)

PDF
@ Informatica-primero-de-bachillerato
SaNc1968
 
PDF
M01 Metier et Formation
Chingongou ­
 
PPTX
Présentation PowerPoint " Conception et développement d'un portail web pour l...
Hajer Dahech
 
PPTX
Pizarra digital interactiva
Milenys Jimenez
 
PPTX
présentation soutenance PFE
Heithem Moumni
 
PDF
Rapport de fin formation
Ahmam Abderrahmane
 
PPTX
Présentation ica atom
ABATTACHE Mina
 
DOCX
Rapport-du-projet CNN.docx
khalil Ismail
 
PDF
Migration des données et portage du module GMAO de OpenERP 6.1 vers Odoo 8
Fouad ELOUAD
 
PDF
OpenERP - Gestion de prix de revient
Taieb Kristou
 
PDF
Les fondamentaux de la classe inversée
Mokhtar Ben Henda
 
PDF
Pfe conception et développement d'une application web GMAO JEE
Oussama Djerba
 
DOCX
Fiche projet animations pédagogiques + story board vierge
Bruno Méraut
 
PPTX
Diaspositiva de los principios de la evaluación
yulimedina
 
PDF
Silabo cd
JENRRYAURELIOCARRASC
 
DOCX
application mobile de gestion de panne de BTS
anis chamkhi
 
PPTX
3. Lectura de contexto PTAFI 3.0. en establecimiento
audry salcedo
 
PPTX
Présentation PFE Computer Vision
Rihab Ben Rhouma
 
PPTX
Présentation (Mémoire fin étude )
Ramzi Noumairi
 
PDF
Rapport PFE: PIM (Product Information Management) - A graduation project repo...
younes elmorabit
 
@ Informatica-primero-de-bachillerato
SaNc1968
 
M01 Metier et Formation
Chingongou ­
 
Présentation PowerPoint " Conception et développement d'un portail web pour l...
Hajer Dahech
 
Pizarra digital interactiva
Milenys Jimenez
 
présentation soutenance PFE
Heithem Moumni
 
Rapport de fin formation
Ahmam Abderrahmane
 
Présentation ica atom
ABATTACHE Mina
 
Rapport-du-projet CNN.docx
khalil Ismail
 
Migration des données et portage du module GMAO de OpenERP 6.1 vers Odoo 8
Fouad ELOUAD
 
OpenERP - Gestion de prix de revient
Taieb Kristou
 
Les fondamentaux de la classe inversée
Mokhtar Ben Henda
 
Pfe conception et développement d'une application web GMAO JEE
Oussama Djerba
 
Fiche projet animations pédagogiques + story board vierge
Bruno Méraut
 
Diaspositiva de los principios de la evaluación
yulimedina
 
application mobile de gestion de panne de BTS
anis chamkhi
 
3. Lectura de contexto PTAFI 3.0. en establecimiento
audry salcedo
 
Présentation PFE Computer Vision
Rihab Ben Rhouma
 
Présentation (Mémoire fin étude )
Ramzi Noumairi
 
Rapport PFE: PIM (Product Information Management) - A graduation project repo...
younes elmorabit
 
Ad

Similar to 第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras (20)

PDF
20170806 Discriminative Optimization
Takuya Minagawa
 
PPTX
survey on math transformer 2023 0628 sato
satoyuta0112
 
PDF
Semantic segmentation2
Takuya Minagawa
 
PDF
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project
 
PPTX
20190831 3 d_inaba_final
DaikiInaba
 
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
 
PPT
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki
 
PDF
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
Takuya Minagawa
 
PDF
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
Takuya Minagawa
 
PDF
全力解説!Transformer
Arithmer Inc.
 
PDF
20200704 bsp net
Takuya Minagawa
 
PDF
Non-autoregressive text generation
nlab_utokyo
 
PDF
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka
 
PPTX
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
Shoki Miyagawa
 
PDF
2020/07/04 BSP-Net (CVPR2020)
Takuya Minagawa
 
PDF
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Tatsuya Shirakawa
 
PDF
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
Recruit Lifestyle Co., Ltd.
 
PDF
Visual slam
Takuya Minagawa
 
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
PDF
object detection with lidar-camera fusion: survey (updated)
Takuya Minagawa
 
20170806 Discriminative Optimization
Takuya Minagawa
 
survey on math transformer 2023 0628 sato
satoyuta0112
 
Semantic segmentation2
Takuya Minagawa
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project
 
20190831 3 d_inaba_final
DaikiInaba
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
Takuya Minagawa
 
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
Takuya Minagawa
 
全力解説!Transformer
Arithmer Inc.
 
20200704 bsp net
Takuya Minagawa
 
Non-autoregressive text generation
nlab_utokyo
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka
 
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
Shoki Miyagawa
 
2020/07/04 BSP-Net (CVPR2020)
Takuya Minagawa
 
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Tatsuya Shirakawa
 
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
Recruit Lifestyle Co., Ltd.
 
Visual slam
Takuya Minagawa
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
object detection with lidar-camera fusion: survey (updated)
Takuya Minagawa
 
Ad

More from Takuya Minagawa (20)

PDF
「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話
Takuya Minagawa
 
PDF
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
Takuya Minagawa
 
PDF
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Takuya Minagawa
 
PDF
MobileNeRF
Takuya Minagawa
 
PDF
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
 
PDF
Learning to Solve Hard Minimal Problems
Takuya Minagawa
 
PDF
ConditionalPointDiffusion.pdf
Takuya Minagawa
 
PDF
楽しいコンピュータビジョンの受託仕事
Takuya Minagawa
 
PDF
20210711 deepI2P
Takuya Minagawa
 
PDF
20201010 personreid
Takuya Minagawa
 
PDF
20200910コンピュータビジョン今昔物語(JPTA講演資料)
Takuya Minagawa
 
PDF
20190825 vins mono
Takuya Minagawa
 
PDF
20190706cvpr2019_3d_shape_representation
Takuya Minagawa
 
PDF
20190307 visualslam summary
Takuya Minagawa
 
PDF
20190131 lidar-camera fusion semantic segmentation survey
Takuya Minagawa
 
PDF
run Keras model on opencv
Takuya Minagawa
 
PDF
20181130 lidar object detection survey
Takuya Minagawa
 
PDF
object detection with lidar-camera fusion: survey
Takuya Minagawa
 
PDF
3DFeat-Net
Takuya Minagawa
 
PDF
CVPR2018のPointCloudのCNN論文とSPLATNet
Takuya Minagawa
 
「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話
Takuya Minagawa
 
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
Takuya Minagawa
 
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Takuya Minagawa
 
MobileNeRF
Takuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
 
Learning to Solve Hard Minimal Problems
Takuya Minagawa
 
ConditionalPointDiffusion.pdf
Takuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
Takuya Minagawa
 
20210711 deepI2P
Takuya Minagawa
 
20201010 personreid
Takuya Minagawa
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
Takuya Minagawa
 
20190825 vins mono
Takuya Minagawa
 
20190706cvpr2019_3d_shape_representation
Takuya Minagawa
 
20190307 visualslam summary
Takuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
Takuya Minagawa
 
run Keras model on opencv
Takuya Minagawa
 
20181130 lidar object detection survey
Takuya Minagawa
 
object detection with lidar-camera fusion: survey
Takuya Minagawa
 
3DFeat-Net
Takuya Minagawa
 
CVPR2018のPointCloudのCNN論文とSPLATNet
Takuya Minagawa
 

Recently uploaded (11)

PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PDF
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 

第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras

  • 2. 自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわ たくや) 博士(工学) 「コンピュータビジョン勉強会@関東」主催 株式会社フューチャースタンダード 技術顧問 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) http://visitlab.jp
  • 3. 事業内容 1. R&Dコンサルティング 2. 受託研究/開発 3. 開発マネジメント 4. 開発コンサルティング 5. ビジネス化コンサルティング 3
  • 6. 紹介する論文 7  State Space Models for Event Cameras  Nikola Zubic, Mathias Gehrig, Davide Scaramuzza  Robotics and Perception Group, University of Zurich, Switzerland  イベントカメラを用いた物体検出等を行う従来手法は、学習測度の 問題や、学習時と異なる周波数に対応できない問題を、状態空間 モデル(SSM)を導入することで解決
  • 8. Related Work 9  Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR)  VisionTransformer + LSTMを用いて、イベントカメラから物体検出
  • 9. Related Work 10  Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR)  VisionTransformer + LSTMを用いて、イベントカメラから物体検出 𝒆𝑘 = (𝑥𝑘, 𝑦𝑘, 𝑡𝑘, 𝑝𝑘) 画素の 座標 発生 時刻 変化方向 (正/負) (2𝑇, 𝐻, 𝑊)とすることで、 画像として処理
  • 10. Related Work 11  Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR)  VisionTransformer + LSTMを用いて、イベントカメラから物体検出 空間内での Local Window Self-Attention 空間内での Dilated Attention
  • 11. 本手法 12  LSTMを状態空間モデル(State Space Model)に置き換え る  RVT Block → SSM-ViT Block SSM-ViT Block
  • 12. 状態空間モデル(SSM)の利用 13 SSM利用のメリット:  既存手法と比べて、長い時系列データを扱える  学習が高速  学習時と推論時で異なる周波数を扱うことができる。  今回、S4、S4D、S5というSSMを使用。  次のスライドから、S4、S4D、S5に至るSSMの進化を簡単に解 説
  • 13. HiPPO 14  Gu,A., Dao,T., Ermon, S., Rudra,A., & Ré, C. (2020). HiPPO: Recurrent memory with optimal polynomial projections.Advances in Neural Information Processing Systems (NeurIPS).  系列データを関数(直交多項式の和)で近似することで、理論上無限長の 系列を扱うことができる。
  • 14. HiPPO 15  Gu,A., Dao,T., Ermon, S., Rudra,A., & Ré, C. (2020). HiPPO: Recurrent memory with optimal polynomial projections.Advances in Neural Information Processing Systems (NeurIPS).  系列データを関数(直交多項式の和)で近似することで、理論上無限長の 系列を扱うことができる。 任意の関数𝑓(𝑡) からサンプリングし た系列データ𝑓𝑖 系列データをN個の 直交多項式へ投影 𝜇(𝑡𝑖) : 測度(=データへの重み) 基底関数(直交多項 式)の係数𝑐(𝑡) 係数𝑐(𝑡)を逐次的に更新 離散化 𝐴𝑘はサンプリング間隔∆t に依存しない(学習時と推 論時に異なる周波数に対 応)
  • 15. LSSL 16  Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化
  • 16. LSSL 17  Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 HiPPO ሶ 𝑐 𝑡 = 𝐀𝑐 𝑡 + 𝐁𝑓 𝑡
  • 17. LSSL 18  Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 離散化状態空間モデル 𝑥𝑘 = ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 𝑦𝑘 = ҧ 𝐂𝑥𝑘 + ഥ 𝐃𝑢𝑘
  • 18. LSSL 19  Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 離散化状態空間モデル 𝑥𝑘 = ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 𝑦𝑘 = ҧ 𝐂𝑥𝑘 + ഥ 𝐃𝑢𝑘 離散化状態空間モデルを展開すると、畳み込み演算 に変換できる (ഥ 𝐃𝑢𝑘はSkip Connectionとみなして省略) 𝑦𝑘 = ҧ 𝐂(ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘) ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝑥𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝟐 𝑥𝑘−2 + ҧ 𝐂ഥ 𝐀ഥ 𝐁𝑢𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝒌ഥ 𝐁𝑢0 + ҧ 𝐂ഥ 𝐀𝒌−𝟏ഥ 𝐁𝑢1 + ⋯ + ҧ 𝐂ഥ 𝐀ഥ 𝐁𝑢𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ 𝑦 = ഥ 𝑲 ∗ 𝒖 ഥ 𝑲 = ҧ 𝐂ഥ 𝐁, ҧ 𝐂ഥ 𝑨ഥ 𝐁, … , ҧ 𝐂ഥ 𝐀𝐿−1ഥ 𝐁 …
  • 19. S4 20  Gu,A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long Sequences With Structured State Spaces. International Conference on Learning Representations (ICLR).  畳み込みカーネルഥ 𝑲の計算を様々な数学的テクニックを用いて簡 略化
  • 20. S4 21  Gu,A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long SequencesWith Structured State Spaces. International Conference on Learning Representations (ICLR).  畳み込みカーネル𝑲の計算を様々な数学的テクニックを用いて簡略化 Diagonal Plus Low-Rank 𝑨 = 𝚲 − 𝒑𝒒∗ 対角行列と低階級の和 ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 周波数領域で畳 み込みカーネル 𝑲を生成 周波数領域で 𝒖と𝑲を乗算 (=時間領域で 畳み込み) 入力信号𝒖を フーリエ変換 出信号𝒚を逆 フーリエ変換
  • 21. S4D 22  Gu,A., Gupta,A., Goel, K., & Ré, C. (2022). On the Parameterization and Initialization of Diagonal State Space Models. Advances in Neural Information Processing Systems (NeurIPS)  HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして も、実験的にうまくいくことがわかっている。  この現象を数学的に解析し、S4より簡易な手法を提案
  • 22. S4D 23  Gu,A., Gupta,A., Goel, K., & Ré, C. (2022). On the Parameterization and Initialization of Diagonal State Space Models. Advances in Neural Information Processing Systems (NeurIPS)  HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして も、実験的にうまくいくことがわかっている。  この現象を数学的に解析し、より簡易な手法を提案 対角行列
  • 23. S5 24  Smith, J.T. H.,Warrington,A., & Linderman, S.W. (2023). Simplified State Space Layers for Sequence Modeling. International Conference on Learning Representation (ICLR)  S4は入力𝒖のチャネルを個別に処理するのに対し、S5は全チャネルを一括で処理  S4D同様DPLRの対角成分のみ使用  畳み込み処理の代わりに再帰処理を並列化(Parallel Scan)
  • 24. 本手法 25  LSTMを状態空間モデル(State Space Model)に置き換え る  RVT Block → SSM-ViT Block SSM-ViT Block
  • 25. Low-pass bandlimiting 26  学習時よりも高い周波数の信号に対し推定を行う場合、 エイリアシングの問題が発生  以下の2つの対策を取る  Output Masking:  畳み込みカーネル𝑲の周波数成分𝑓𝑛を選択的にマスクする(𝛼 = 1の 時、Nyquist limit)  𝐶𝑛 = ൝ 𝐶𝑛 if 𝑓𝑛 ≤ 𝛼 2 , 0 otherwise,  𝐇2 Norm  損失関数に、畳み込みカーネル𝑲の𝜔𝑚𝑖𝑛以上の周波数スペクトラム の和を加える
  • 26. Experiments 27  以下の2つのイベントカメラデータセットに対して評価  Gen 1  https://www.prophesee.ai/2020/01/24/prophesee-gen1-automotive- detection-dataset/  1 Mpx  https://www.prophesee.ai/2020/11/24/automotive-megapixel-event- based-dataset/  ベースモデル:ViT-SSM-B  軽量モデル:ViT-SSM-S  学習はTimeWindow Size 50ms (20Hz)、binの数は10で 行った
  • 29. SSMs: initialization & bandlimiting 30  SSMのモデルと初期化方法、周波数制限パラメータ毎の 比較(初期化法の詳細はS4Dの論文参照) モデル名-初期化法
  • 30. SSM Utilization Analysis 31  各層のRVT BlockやSSM-ViT Blockの再帰性がどれだけ 性能に影響をしているかの評価
  • 31. Evaluation at different frequencies 32
  • 32. DSECデータセットでの評価 33  1 Mpxデータセットで学習したモデルでDSECデータセットを評価  結果動画  https://youtu.be/WRZZJn6Me9M?si=g5JBNIccSr5sL6-F&t=175
  • 33. 結論 34  イベントカメラの物体検出タスクに対して、Vision TransformerとState Space Modelを利用することで、高周 波数帯で、従来法に比べて30 mAP以上高い精度と33% の学習速度の向上を達成した。  SSM-ViTモデルは、学習時とは異なる周波数での推論に 対しても、追加学習無しで適応可能。  更にOutput Maskingと𝐇2 Norm調整によって特に高周 波で問題となるエイリアシングを抑えることができた。