第61回CV勉強会「CVPR2024読み会」（前編）発表資料：State Space Models for Event Cameras

第61回 CV勉強会@関東「CVPR2023読み会(前編)」
State Space Models
for Event Cameras
2024/07/07 takmin

自己紹介
2
株式会社ビジョン＆ITラボ代表取締役
皆川卓也（みながわたくや）
博士（工学）
「コンピュータビジョン勉強会＠関東」主催
株式会社フューチャースタンダード技術顧問
略歴：
1999-2003年
日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得（2014年）
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事（2018年法人化）
http://visitlab.jp

事業内容
1. Ｒ＆Ｄコンサルティング
2. 受託研究/開発
3. 開発マネジメント
4. 開発コンサルティング
5. ビジネス化コンサルティング
3

IoT管理ミドルウェア：シナリオエンジン
4
 ノーコードで人やモノなどを「動的に」管理するためのルールエンジ
ン
 「いつ」、「どこで」、「誰（何）が」、「何をした」かをトリガーに、サイ
ネージやAR、Webサーバーなどのアクションを制御できる。
 特許取得済み
アクション
人：歩く人：歩く

AR探索アドベンチャー
5
 スマホでイラスト、ランド
マーク、ものなどを撮影
すると、キャラクターやア
イテムが現れてストー
リーが進むアドベン
チャーゲーム。
 アプリインストール不要
 シナリオエンジンにより、
ユーザの行動や天候、混
雑具合によって動的なス
トーリー変更が可能
拡張現実感(AR)

紹介する論文
7
 State Space Models for Event Cameras
 Nikola Zubic, Mathias Gehrig, Davide Scaramuzza
 Robotics and Perception Group, University of Zurich, Switzerland
 イベントカメラを用いた物体検出等を行う従来手法は、学習測度の
問題や、学習時と異なる周波数に対応できない問題を、状態空間
モデル（SSM）を導入することで解決

イベントカメラ
8
 輝度の変化のみ転送
 非同期なイベントシーケンスを発生
 低遅延、ブラー無し、High Dynamic Range

Related Work
9
 Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for
Object Detection with Event Cameras. Proceedings of the IEEE Computer
Society Conference on ComputerVision and Pattern Recognition (CVPR)
 VisionTransformer + LSTMを用いて、イベントカメラから物体検出

Related Work
10
𝒆𝑘 = (𝑥𝑘, 𝑦𝑘, 𝑡𝑘, 𝑝𝑘)
画素の
座標
発生
時刻
変化方向
（正/負）
(2𝑇, 𝐻, 𝑊)とすることで、
画像として処理

Related Work
11
空間内での
Local Window
Self-Attention
空間内での
Dilated
Attention

本手法
12
 LSTMを状態空間モデル（State Space Model）に置き換え
る
 RVT Block → SSM-ViT Block
SSM-ViT Block

状態空間モデル（SSM）の利用
13
SSM利用のメリット：
 既存手法と比べて、長い時系列データを扱える
 学習が高速
 学習時と推論時で異なる周波数を扱うことができる。
 今回、S4、S4D、S5というSSMを使用。
 次のスライドから、S4、S4D、S5に至るSSMの進化を簡単に解
説

HiPPO
14
 Gu,A., Dao,T., Ermon, S., Rudra,A., & Ré, C. (2020). HiPPO: Recurrent
memory with optimal polynomial projections.Advances in Neural Information
Processing Systems (NeurIPS).
 系列データを関数（直交多項式の和）で近似することで、理論上無限長の
系列を扱うことができる。

HiPPO
15
 Gu,A., Dao,T., Ermon, S., Rudra,A., & Ré, C. (2020). HiPPO: Recurrent
memory with optimal polynomial projections.Advances in Neural Information
Processing Systems (NeurIPS).
 系列データを関数（直交多項式の和）で近似することで、理論上無限長の
系列を扱うことができる。
任意の関数𝑓(𝑡)
からサンプリングし
た系列データ𝑓𝑖
系列データをN個の
直交多項式へ投影
𝜇(𝑡𝑖)
: 測度（=データへの重み）
基底関数（直交多項
式）の係数𝑐(𝑡)
係数𝑐(𝑡)を逐次的に更新
離散化
𝐴𝑘はサンプリング間隔∆t
に依存しない（学習時と推
論時に異なる周波数に対
応）

LSSL
16
 Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent,
Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural
Information Processing Systems (NeurIPS)
 HiPPOを状態空間モデルへ拡張
 逐次処理を畳み込み処理として並列化

LSSL
17
状態空間モデル
ሶ
𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡
𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡
入力
内部状態
出力
HiPPO
ሶ
𝑐 𝑡 = 𝐀𝑐 𝑡 + 𝐁𝑓 𝑡

LSSL
18
ሶ
入力
内部状態
出力
離散化状態空間モデル
𝑥𝑘 = ഥ
𝐀𝑥𝑘−1 + ഥ
𝐁𝑢𝑘
𝑦𝑘 = ҧ
𝐂𝑥𝑘 + ഥ
𝐃𝑢𝑘

LSSL
19
ሶ
入力
内部状態
出力
離散化状態空間モデル
𝑥𝑘 = ഥ
𝐁𝑢𝑘
𝑦𝑘 = ҧ
𝐂𝑥𝑘 + ഥ
𝐃𝑢𝑘
離散化状態空間モデルを展開すると、畳み込み演算
に変換できる
(ഥ
𝐃𝑢𝑘はSkip Connectionとみなして省略)
𝑦𝑘 = ҧ
𝐂(ഥ
𝐁𝑢𝑘)
↓
𝑦𝑘 = ҧ
𝐂ഥ
𝐀𝑥𝑘−1 + ҧ
𝐂ഥ
𝐁𝑢𝑘
↓
𝑦𝑘 = ҧ
𝐂ഥ
𝐀𝟐
𝑥𝑘−2 + ҧ
𝐂ഥ
𝐀ഥ
𝐁𝑢𝑘−1 + ҧ
𝐂ഥ
𝐁𝑢𝑘
↓
↓
𝑦𝑘 = ҧ
𝐂ഥ
𝐀𝒌ഥ
𝐁𝑢0 + ҧ
𝐂ഥ
𝐀𝒌−𝟏ഥ
𝐁𝑢1 + ⋯ + ҧ
𝐂ഥ
𝐀ഥ
𝐁𝑢𝑘−1 + ҧ
𝐂ഥ
𝐁𝑢𝑘
↓
𝑦 = ഥ
𝑲 ∗ 𝒖
ഥ
𝑲 = ҧ
𝐂ഥ
𝐁, ҧ
𝐂ഥ
𝑨ഥ
𝐁, … , ҧ
𝐂ഥ
𝐀𝐿−1ഥ
𝐁
…

S4
20
 Gu,A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long Sequences
With Structured State Spaces. International Conference on Learning
Representations (ICLR).
 畳み込みカーネルഥ
𝑲の計算を様々な数学的テクニックを用いて簡
略化

S4
21
 Gu,A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long SequencesWith
Structured State Spaces. International Conference on Learning Representations
(ICLR).
 畳み込みカーネル𝑲の計算を様々な数学的テクニックを用いて簡略化
Diagonal Plus Low-Rank
𝑨 = 𝚲 − 𝒑𝒒∗
対角行列と低階級の和
ሶ
𝑦 𝑡 = 𝐂𝑥 𝑡
周波数領域で畳
み込みカーネル
𝑲を生成
周波数領域で
𝒖と𝑲を乗算
（＝時間領域で
畳み込み）
入力信号𝒖を
フーリエ変換
出信号𝒚を逆
フーリエ変換

S4D
22
 Gu,A., Gupta,A., Goel, K., & Ré, C. (2022). On the Parameterization and
Initialization of Diagonal State Space Models. Advances in Neural Information
Processing Systems (NeurIPS)
 HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして
も、実験的にうまくいくことがわかっている。
 この現象を数学的に解析し、S4より簡易な手法を提案

S4D
23
 Gu,A., Gupta,A., Goel, K., & Ré, C. (2022). On the Parameterization and
Initialization of Diagonal State Space Models. Advances in Neural Information
Processing Systems (NeurIPS)
 HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして
も、実験的にうまくいくことがわかっている。
 この現象を数学的に解析し、より簡易な手法を提案
対角行列

S5
24
 Smith, J.T. H.,Warrington,A., & Linderman, S.W. (2023). Simplified State Space Layers
for Sequence Modeling. International Conference on Learning Representation (ICLR)
 S4は入力𝒖のチャネルを個別に処理するのに対し、S5は全チャネルを一括で処理
 S4D同様DPLRの対角成分のみ使用
 畳み込み処理の代わりに再帰処理を並列化（Parallel Scan）

本手法
25
 LSTMを状態空間モデル（State Space Model）に置き換え
る
 RVT Block → SSM-ViT Block
SSM-ViT Block

Low-pass bandlimiting
26
 学習時よりも高い周波数の信号に対し推定を行う場合、
エイリアシングの問題が発生
 以下の２つの対策を取る
 Output Masking:
 畳み込みカーネル𝑲の周波数成分𝑓𝑛を選択的にマスクする(𝛼 = 1の
時、Nyquist limit)
 𝐶𝑛 = ൝
𝐶𝑛 if 𝑓𝑛 ≤
𝛼
2
,
0 otherwise,
 𝐇2 Norm
 損失関数に、畳み込みカーネル𝑲の𝜔𝑚𝑖𝑛以上の周波数スペクトラム
の和を加える

Experiments
27
 以下の２つのイベントカメラデータセットに対して評価
 Gen 1
 https://www.prophesee.ai/2020/01/24/prophesee-gen1-automotive-
detection-dataset/
 1 Mpx
 https://www.prophesee.ai/2020/11/24/automotive-megapixel-event-
based-dataset/
 ベースモデル：ViT-SSM-B
 軽量モデル：ViT-SSM-S
 学習はTimeWindow Size 50ms (20Hz)、binの数は10で
行った

Gen1/1 Mpxデータセットでの評価
28
 Competitiveな性能を非常に速い推論速度で達成

異なる周波数での評価
29
 周波数が上がるにつれ、他の手法が大幅に性能を落と
すのに対し、本手法での劣化はわずか

SSMs: initialization & bandlimiting
30
 SSMのモデルと初期化方法、周波数制限パラメータ毎の
比較（初期化法の詳細はS4Dの論文参照）
モデル名-初期化法

SSM Utilization Analysis
31
 各層のRVT BlockやSSM-ViT Blockの再帰性がどれだけ
性能に影響をしているかの評価

Evaluation at different frequencies
32

DSECデータセットでの評価
33
 1 Mpxデータセットで学習したモデルでDSECデータセットを評価
 結果動画
 https://youtu.be/WRZZJn6Me9M?si=g5JBNIccSr5sL6-F&t=175

結論
34
 イベントカメラの物体検出タスクに対して、Vision
TransformerとState Space Modelを利用することで、高周
波数帯で、従来法に比べて30 mAP以上高い精度と33%
の学習速度の向上を達成した。
 SSM-ViTモデルは、学習時とは異なる周波数での推論に
対しても、追加学習無しで適応可能。
 更にOutput Maskingと𝐇2 Norm調整によって特に高周
波で問題となるエイリアシングを抑えることができた。

第61回CV勉強会「CVPR2024読み会」（前編）発表資料：State Space Models for Event Cameras

More Related Content

What's hot (20)

Similar to 第61回CV勉強会「CVPR2024読み会」（前編）発表資料：State Space Models for Event Cameras (20)

More from Takuya Minagawa (20)

Recently uploaded (11)

第61回CV勉強会「CVPR2024読み会」（前編）発表資料：State Space Models for Event Cameras