Tracking Anything
with
Decoupled Video Segmentation
大島慈温(名工大玉木研)
2024/3/25
Ho Kei Cheng, Seoung Wug Oh, Brian Price, Alexander Schwing, Joon-Young Lee
ICCV2023
物体追跡のためのビデオセグメンテーション
物体追跡のためのビデオセグメンテーション
◼従来手法
• ほとんどがend-to-endモデルで学習
• ビデオレベルの学習データが必要
• データセットの作成コストが大きい
• 大規模な語彙数への拡張が困難
◼本研究の目標
• 特に以下の場合に高い性能を実現
• 学習データが少ない
• 大規模な語彙数
• オープンワールド
end-to-endの例 [Wang+, CVPR2021]
入力 出力
end-to-endモデルの関連研究
◼ VisTR [Wang+, CVPR2021]
• ビデオインスタンスセグメン
テーション手法
• Transformerを組み込む
• シンプルで高速な単一モデル
その他:[Hwang+, NeurIPS2021], [Wang+, CVPR2021], [Bertasius&Torresani, CVPR2020], [Cheng+, arXiv, 2021],
[Choudhuri+, CVPR2023], [Choudhuri+, ICCV2021]
画像セグメンテーションの関連研究
◼Mask2Former [Cheng+, CVPR2022]
• 様々なタスク(パノプティック,インスタンス,セマンティック)に対応可能
• 各タスク特化のモデルを上回る性能
• 本研究のバックボーンとして用いる
◼ その他: SAM [Kirillov+, arXiv, 2023]
提案手法の概要
◼DEVA (Decoupled Video Segmentation)
• 2つのモデルを分離して学習(後述)
• 画像セグメンテーションモデル
• 時間伝搬モデル
• 双方向時間伝搬を行う(後述)
• クリップ内コンセンサス
• マージング
2つのモデルを分離して学習
◼画像セグメンテーションモデル
• ターゲットタスクに特化したモデル
• 学習コストが小さい
• 既存のモデルを利用(SAM [Kirillov+, arXiv, 2023], Mask2Former [Cheng+, CVPR2022]等)
2つのモデルを分離して学習
◼時間伝搬モデル
• タスクに非依存な外部データで学習
• 一度の学習で,複数のタスク間で使用可能
• 既存のモデルを利用(Xmem [Cheng&Schwing, ECCV2022]) 時刻
双方向時間伝搬を行う
◼クリップ内コンセンサス
• 近未来の数フレーム分のセグメンテーションを統合
• コンセンサス:統合結果
• ノイズ除去のため 時刻
双方向時間伝搬を行う
◼マージング
• 伝搬結果と近未来のコンセンサスを統合
• 新しいオブジェクトに対応
• 数フレームに一度実行 時刻
◼クリップの画像セグメンテーションから時刻 𝑡 のコンセンサスを出力
• クリップ:時刻 𝑡 のフレームを含めた近未来の𝑛フレームで構成
• オンライン設定: 𝑛 = 1(時刻 𝑡 のフレームのみ)
• セミオンライン設定:𝑛 > 1(数フレームだけ未来のフレームを含む設定)
◼クリップ内の空間のずれ修正
• フレームごとに時間伝搬モデルを利用
◼領域の取捨選択
• 孤立した領域を除去
• 重なった領域を統合
クリップ内コンセンサス
マージング
◼時間伝搬したセグメンテーション結果と未来のコンセンサスを結合
• 二つのセグメンテーション結果は異なる情報を持つと仮定
• 領域を取捨選択して出力
• 孤立した領域を除去しない
• 重なった領域を統合
まだオブジェクトとして
検知できていない
(黒色)
実験概要
◼以下のデータセットを用いた場合の結果
• 大規模なビデオパノプティック
セグメンテーションデータセット
• VIPSeg [Miao+, CVPR2022]
• オープンワールドビデオ
セグメンテーションデータセット
• BURST [Athar+, WACV2023]
◼以下の目的で使用した場合の結果
• 参照ビデオセグメンテーション
• 教師なしビデオオブジェクトのセグメンテーション
◼Ablation Study
VIPSeg [Miao+, CVPR2022]
BURST [Athar+, WACV2023]
実験設定(共通)
◼時間伝搬モデル
• XMem [Cheng&Schwing, ECCV2022]に基づく
• クラス非依存的に右のデータセットを学習
◼各パラメータについて
• クリップ内コンセンサス
• 5フレーム毎に結合
• セミオンライン設定
• クリップサイズ:𝑛 = 3
• オンライン設定
• クリップサイズ:𝑛 = 1
• 画像セグメンテーション
データセット
• [Shi+, TPAMI2015]
• [Wang+, CVPR2017]
• [Zeng+, ICCV2019]
• FSS-1000
[Li+, CVPR2020]
• Casdepsp
[Cheng+, CVPR2020]
• ビデオオブジェクトセグメ
ンテーションデータセット
• YouTube-vos
[Xu, ECCV2018]
• [Perazzi+, CVPR2016]
• [Qi+, IJCV2022]
実験概要
◼以下のデータセットを用いた場合の結果
• 大規模なビデオパノプティックセグメンテーションデータセット
• VIPSeg [Miao+, CVPR2022]
• オープンワールドビデオセグメンテーションデータセット
• BURST [Athar+, WACV2023]
◼以下の目的で使用した場合の結果
• 参照ビデオセグメンテーション
• 教師なしビデオオブジェクトのセグメンテーション
◼Ablation Study
実験(VIPSeg: 1)
◼指標1
• VPQ (Video Panoptic
Quality)[Kim+, CVPR2020]
• 値が高いほど性能が高い
◼指標2
• STQ (Segmentation and Tracking Quality)
[Weber+, NeurlPS2021]
• 値が高いほど性能が高い
実験(VIPSeg: 2)
◼学習データの使用割合に対するVPQの増加グラフ
• ベースライン:end-to-end
• ベースラインに対する相対的評価
◼ 結果
• 対象の学習データが少ない場合
でも比較的高性能
• レアクラスでは大幅に改善
※使用モデル:Video-K-net
実験(BURST)
◼セグメンテーションモデル
• Mask2Former
[Cheng+, CVPR2022]
• EntitySeg [Qi+, arXiv, 2021]
• どちらも事前学習済み
◼ 指標
• Open World Tracking Accuracy
(OWTA)
[Athar+, WACV2023]
• 高い方が性能がよい
実験概要
◼以下のデータセットを用いた場合の結果
• 大規模なビデオパノプティックセグメンテーションデータセット
• VIPSeg [Miao+, CVPR2022]
• オープンワールドビデオセグメンテーションデータセット
• BURST [Athar+, WACV2023]
◼以下の目的で使用した場合の結果
• 参照ビデオセグメンテーション
• 教師なしビデオオブジェクトのセグメンテーション
◼Ablation Study
実験(参照ビデオセグメンテーション)
◼定義
• テキスト入力から対象のセグメン
テーションを行う
◼データセット
• 既存のものを言語表現で拡張
• Ref-DAVIS17
[Khoreva+, ACCV2019]
• Ref-YouTubeVOS
[Seo+, ECCV2020]
◼セグメンテーションモデル
• ReferFormer [Wu+, CVPR2022]
◼指標
• J&F [Wu+, CVPR2022]
◼結果
• いずれのデータセットでも
競合手法の中で最も高い性能
実験(教師なしビデオオブジェクトのセグメンテーション)
◼定義
• ビデオ中の顕著なオブジェクトから
セグメンテーションを行う
◼データセット
• DAVIS-16 [Perazzi+, CVPR2016]
• 単一オブジェクト
• DAVIS-17 [Caelles+, CVPR2019]
• 複数オブジェクト
◼セグメンテーションモデル
• DIS [Qin+, ECCV2022]
• 単一オブジェクト用
• EntitySeg [Qi+, arXiv2021]
• 複数オブジェクト用
◼指標
• J&F [Wu+, CVPR2022]
◼結果
• いずれのデータセットでも
競合手法の中で最も高い性能
※ - は該当の手法では値が出ないことを示す
実験概要
◼以下のデータセットを用いた場合の結果
• 大規模なビデオパノプティックセグメンテーションデータセット
• VIPSeg [Miao+, CVPR2022]
• オープンワールドビデオセグメンテーションデータセット
• BURST [Athar+, WACV2023]
◼以下の目的で使用した場合の結果
• 参照ビデオセグメンテーション
• 教師なしビデオオブジェクトのセグメンテーション
◼Ablation Study
Ablation study
◼ハイパーパラメータの検討
• 使用データセット:VIPSeg [Miao+, CVPR2022]
• 使用モデル:Mask2Former-R50 [Cheng+, CVPR2022]
• クリップサイズ,マージの間隔,クリップ内コンセンサスによる空間ずれ修正
◼結果
• クリップサイズ大,マージ頻度増加,
空間ずれ修正有
→性能上昇,一方で計算速度低下
• パフォーマンスとスピードの
バランスをとる必要
結論
◼DEVAの特徴
• モデルを分離して学習
• 画像セグメンテーションモデル,普遍的な時間伝搬モデル
• end-to-endのアプローチに比べて学習コストが小さい
• 双方向時間伝搬の利用
• ノイズの影響を低減
• 新規オブジェクトを検出可能
• ただしパフォーマンスと計算速度のバランスを取ることが大切
◼DEVAの評価
• 学習データが少なく,大規模な語彙,オープンワールドといった状況下で,
より優れた手法
補足
◼クリップの画像セグメンテーションから時刻 𝑡 のコンセンサスを出力
• クリップは時刻 𝑡 のフレームを含めた未来の𝑛フレームで構成
• オンライン設定: 𝑛 = 1(時刻 𝑡 のフレームのみ)
• セミオンライン設定:𝑛 > 1(数フレームだけ未来のフレームを含む設定)
◼セグメンテーション間の空間のずれ修正
• フレームごとに時間伝搬モデルを利用
◼コンセンサス(𝑪𝑡)の出力
• 候補P:𝑷 = ‫ڂ‬𝑖=0
𝑛−1 ෣
𝑆𝑒𝑔𝑡+𝑖 = {𝑝𝑖, 0 < 𝑖 ≤ |𝑷|} ( 𝑖 はあるセグメント)
• 𝑪𝑡: 𝑪𝑡= {𝑝𝑖|𝑣𝑖
∗
=1} = {𝑐𝑡, 0< 𝑡 ≤ |𝑪| }
• 𝑣∗
:
補足:クリップ内コンセンサス
補足:マージング
◼時間伝搬したセグメンテーションとコンセンサスを結合
• 以降, 時間伝搬したセグメンテーション 𝑡 (𝑹𝑡)中のあるセグメントを𝑟𝑖,
コンセンサス 𝑡 (𝑪𝑡)中のあるセグメントを𝑐𝑗 とする
◼𝑟𝑖と𝑐𝑗 を関連付ける
• 𝑎𝑖𝑗という指標を導入
• 𝑟𝑖と𝑐𝑗に関連がある場合1, ない場合0
◼最終的なセグメンテーション 𝑡 (𝑴𝑡)は次のように表される
𝑴𝑡 = 𝑟𝑖 ∪ 𝑐𝑗 𝑎𝑖𝑗 = 1 ∪ {𝑟𝑖|∀𝑗𝑎𝑖𝑗 = 0} ∪ 𝑐𝑗 ∀𝑖𝑎𝑖𝑗 = 0
• 重複したセグメントは面積の小さいものを優先する

More Related Content

PDF
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PDF
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
PPTX
2012 kanemotolablecture1
PDF
ICCV 2019 論文紹介 (26 papers)
PDF
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
PDF
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
PDF
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
PDF
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
2012 kanemotolablecture1
ICCV 2019 論文紹介 (26 papers)
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...

Similar to 論文紹介:Tracking Anything with Decoupled Video Segmentation (20)

PDF
Compressed Video Action Recognition
PDF
転生したらQAエンジニアが不在のスクラムチームでスクラムマスターをすることになった件 ~チームでアジャイル品質・アジャイルテスティングに向き合う肝はコミュ...
PDF
Towards Performant Video Recognition
PDF
[DL Hacks]Self-Attention Generative Adversarial Networks
PDF
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
PDF
CVPR 2011 ImageNet Challenge 文献紹介
PPTX
[DL輪読会]A closer look at few shot classification
PPTX
A closer look at few shot classification
PDF
ケーススタディ/テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第47回】
PDF
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
PDF
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
PDF
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
PDF
固定BBの速度計測から得られた知見
PPTX
[DL輪読会]Deep Face Recognition: A Survey
PDF
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
PDF
Active Learning の基礎と最近の研究
PPTX
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
PDF
PPTX
事例からわかる!テスト自動化導入パターン
PDF
テストスイートアーキテクチャへのアーキテクチャ検証手法ATAMの 適用
Compressed Video Action Recognition
転生したらQAエンジニアが不在のスクラムチームでスクラムマスターをすることになった件 ~チームでアジャイル品質・アジャイルテスティングに向き合う肝はコミュ...
Towards Performant Video Recognition
[DL Hacks]Self-Attention Generative Adversarial Networks
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
CVPR 2011 ImageNet Challenge 文献紹介
[DL輪読会]A closer look at few shot classification
A closer look at few shot classification
ケーススタディ/テスト 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第47回】
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
固定BBの速度計測から得られた知見
[DL輪読会]Deep Face Recognition: A Survey
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
Active Learning の基礎と最近の研究
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
事例からわかる!テスト自動化導入パターン
テストスイートアーキテクチャへのアーキテクチャ検証手法ATAMの 適用
Ad

More from Toru Tamaki (20)

PDF
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
PDF
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
PDF
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
PDF
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
PDF
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
PDF
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
PDF
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
PDF
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
PDF
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
PDF
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
PDF
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
PDF
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
PDF
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
PDF
論文紹介:On Feature Normalization and Data Augmentation
PDF
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
PDF
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
PDF
論文紹介:2D Pose-guided Complete Silhouette Estimation of Human Body in Occlusion
PDF
論文紹介:Multi-class Video Co-segmentation with a Generative Multi-video Model
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
論文紹介:On Feature Normalization and Data Augmentation
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
論文紹介:2D Pose-guided Complete Silhouette Estimation of Human Body in Occlusion
論文紹介:Multi-class Video Co-segmentation with a Generative Multi-video Model
Ad

論文紹介:Tracking Anything with Decoupled Video Segmentation