田中裕大(名工大玉木・丁研)
2025/11/11
InternVideo2:
Scaling Foundation Models
for Multimodal Video Understanding
Yi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He, Chenting Wang, Guo Chen,
Baoqi Pei, Ziang Yan, Rongkun Zheng, Jilan Xu, Zun Wang, Yansong Shi, Tianxiang
Jiang, Songze Li, Hongjie Zhang, Yifei Huang, Yu Qiao, Yali Wang, Limin Wang
ECCV2024
概要
◼動画基盤モデルとは
• 大規模な動画データを用いた事前
学習済み動画エンコーダ
• 多様な下流タスクに転用可能
◼InternVideo [Wang+, arXiv2022]
• 動画とテキストの対照学習
• 動作認識などタスクに転用
• 動画エンコーダのみ
◼InternVideo2
• 大規模なデータセットで学習
• データ数:4億200万件以上
• 3段階の漸進的学習スキーム
• 60以上の動画関連タスクで最先端性能
• LLMと接続した学習
• 言語生成もできる
• 対話的タスクにも対応
関連研究
◼動画基盤モデル
• UMT [Li+, ICCV2023]
• 2つの学習方法を組み合わせる
• 動画ーテキストの対照学習
• マスキングビデオモデリング
• VAST [Chen+, NIPS2023]
• 音声,動画,発話データセット
• マルチモーダル基盤モデル
◼マルチモーダル大規模言語モデル
• LLaVA [Liu+, NeurIPS2023] /
InstructBLIP [Dai+, NeurIPS2023]
• 視覚支持調整データセット
• VideoChat [Li+, arXiv2023] /
VideoChatGPT [Maaz+, ACL2024] /
Valley [Luo+, arXiv2023]
• video中心のMLLM
• 指示データを使用してビデオエン
コーダをLLMに接続
動画エンコーダ
◼ ベース
• Vision Transformer [Dosovitskiy+, arXiv2021]
• 知識蒸留のための投影層を持つ
◼ 手順
1. 入力
• 動画を8フレームにサンプリングして
それのみ使用
• 14×14のトークンに区切る
2. マスク
• 得られたトークンを埋め込み,
そのうちのある割合でマスクされる
• アテンションプーリングを使用
3. 投影層
• 教師エンコーダの知識転移
• 学習の一部のみで使用
[Dosovitskiy+, arXiv2021]
学習フレームワーク
◼3段階の漸進的学習スキーム
stage 学習 入力 出力 モデルの表記
1 時空間トークン再構成 Video 埋め込み 𝐈𝐧𝐭𝐞𝐫𝐧𝐕𝐢𝐝𝐞𝐨𝟐s1
2 video-audio-speech-
languageの対照学習
Video+Text / Image+Text /
Audio+Text / Video+Audio+Text
埋め込み/
類似度
𝐈𝐧𝐭𝐞𝐫𝐧𝐕𝐢𝐝𝐞𝐨𝟐s𝟐
3 LLMとの接続による共
同学習
Video+Instruction Text 𝐈𝐧𝐭𝐞𝐫𝐧𝐕𝐢𝐝𝐞𝐨𝟐s𝟑
Stage1:時空間トークン再構成
◼手順
1. 動画をサンプリング
2. フレームごとに80%のトークンを
マスク
• 教師エンコーダが情報のすくない
トークンをマスク
3. マスクされていない部分を再構成
• 各教師エンコーダごとの表現
を統合
◼損失関数
◼教師エンコーダ
• InternVL-6B [Chen+, CVPR2024]
• VideoMAEv2-g [Wang+, CVPR2023]
教師エンコーダによ
るトークン再構成
InternVideo2による
トークン再構成
Stage2:動画と音声,発話,テキストの統合
◼異なるモダリティをテキストを
介して統合する
• 動画とそれを説明するテキストの埋め
込みの類似度が高くなるように学習
• 画像や音声についても同様に説明する
テキストとの類似度が高くなるよう学習
◼使用するデータ
• 動画+テキスト
• 画像+テキスト
• 音声+テキスト
• (動画+音声)+テキスト
◼エンコーダ
• 音声: BEATs [Chen+, ICLM2023]
• テキスト: BERT-Large [Devlin+,
NAACL2019]の最初の19層
Stage2:動画と音声,発話,テキストの統合
◼損失関数
• ℒ𝐶𝑂𝑁 :各ペアデータの類似度
• ℒ𝑀𝐴𝐶 :動画とテキストのペアデータを尤度推定
• ℒ𝑀𝐿𝑀 : 動画のテキストについて𝑗より前の単語に基づいて𝑗番目の単語の尤度推定
Stage3:ビデオ中心の入力による次トークンの予測
◼手順
• InternVideoをQformer [Li+, ICLM2022]を介してLLMと接続
• 動画を見てそれに対するテキストを生成
◼漸進的学習スキーム
• 入力動画のサンプリング数を調整
• 最初は8フレーム
• 次は16フレーム
学習使用データセット
◼合計で4億200万件以上の動画データセット
動作認識タスク
◼データセット
• Kinetics400/600/700 [Carreira+, CVPR
2017][Carreira+, arXiv2018][Carreira+, arXiv2022]
• Moments in Time V1 [Monfort+, TPAMI2020]
• Something-Something V2 [Goyal+,
ICCV2017]
• UCF [Soomro+, arXiv2012]
• HMDB [Kuehne+, ICCV2011]
• Charades [Gao+, ICCV 2017]
• ActivityNet [Heilbron+, CVPR2015]
• HACS [Zhao+, ICCV2019]
◼設定
1. 全体をファインチューニング
2. 注意プーリング層を追加学習
3. タスクヘッドのみ学習
4. ゼロショット
◼評価指標
• top-1 accuracy
動作認識タスク
1. ファインチューニング
• 𝐈𝐧𝐭𝐞𝐫𝐧𝐕𝐢𝐝𝐞𝐨𝟐s𝟏
• stage1まで学習済みのモデル
動作認識タスク
2. 注意プーリング層を追加学習
• 𝐈𝐧𝐭𝐞𝐫𝐧𝐕𝐢𝐝𝐞𝐨𝟐s𝟐
• Stage2まで学習済みのモデル
動作認識タスク
3. タスクヘッドのみ学習
• stage2まで学習したモデルが最も性能が高い
動作認識タスク
4. ゼロショット
• 𝐈𝐧𝐭𝐞𝐫𝐧𝐕𝐢𝐝𝐞𝐨𝟐𝒄𝒍𝒊𝒑
• 𝐈𝐧𝐭𝐞𝐫𝐧𝐕𝐢𝐝𝐞𝐨𝟐s𝟐からvideoとtext
エンコーダのみを取り出した部分
Video Retrieval
◼Video Retrievalとは
• テキストを入力し一致する動画を
検索 (T2V)
• 動画を入力しそれに一致するテキスト
を検索 (V2T)
◼データセット
• MSR-VTT [Tao+, CVPR2016]
• LSMDC [Rohrbach+, CVPR2015]
• DiDeMo [Hendricks+, ICCV2017]
• MSVD [Hendria, arXiv2023]
• ActivityNet [Heilbron+, CVPR2015]
• VATEX [Wang+, ICCV2019]
◼評価指標
• R@1
• 正しい動画(テキスト)を出力し
た割合
◼入力動画
• 動画から8フレームを均一にサンプ
リング
Video Retrieval
◼T2V
◼V2T
複数選択Video QA
◼VideoChat2 [Li+, CVPR2024]に
InternVideo2を組み込みほかの
MLLMと比較
◼データセット
• MVBench [Li+, CVPR2024]
• Egoschema [Mangala+, NeurIPS2023]
• Perception Test [Patraucean+, NeurIPS2023]
◼評価指標
• Accuracy (%)
◼結果
• Egoschema以外では最も高い
• Egoschemaはほかのデータセット
と比べより長い動画理解が必要
• 短時間の微細な理解に優れている
定性的評価
動画エンコーダのスケール(1B vs 6B)の比較
◼タスクとデータセット
• 動作認識
• Kinetics400 [Carreira+, CVPR 2017]
• Something-Something V2 [Goyal+,
ICCV2017]
• Moments in Time V1 [Monfort+,
TPAMI2020]
• 動画検索
• MSR-VTT [Tao+, CVPR2016]
• LSMDC [Rohrbach+, CVPR2015]
• DiDeMo [Hendricks+, ICCV2017]
• MSVD [Hendria, arXiv2023]
• ActivityNet [Heilbron+, CVPR2015]
• VATEX [Wang+, ICCV2019]
◼結果
• ゼロショット
• 顕著な増加
• ファインチューニング
• 大きく向上せず
まとめ
◼InternVideo2
• ViTベースの動画基盤モデル
• 動画のエンコードだけでなくLLMに接続して言語生成も可能
◼学習
• 3段階の漸進的学習スキームを採用
◼タスク
• 約60個の動画関連タスクで最高水準の性能を達成
• 対話的タスクも転用可能

論文紹介:InternVideo2: Scaling Foundation Models for Multimodal Video Understanding