0
CVPR2025 聴講報告
Sony Corporation
Yuki Ono
Image: https://www.nashvillemusiccitycenter.com/
1
• 学会概要
• 学会トレンド分析
• 動画AI動向
– 動画AIのブレークスルーと進化: DiT
– 動画生成系技術トレンド
– 動画認識系技術トレンド
– 4D Vision技術トレンド
• 3D Vision動向
– 3D Gaussian Splatting
– DUSt3R登場後の進展
• 基盤モデル・統一モデル動向
– 基盤モデル・統一モデルの実用的定義
– CVPR2025における基盤・統一モデル
• World Model動向
– CVPR2025におけるWorld Model動向
目次
2
• 開催概要
– Computer Visionのトップカンファレンス
– 6/11-15 @ Nashville TN (USA)
• 統計
– 採択率 22.1% (2878/13008本)
学会概要: Computer Vision and Pattern Recognition
https://x.com/CVPR/status/1933520566553882800
https://x.com/CVPR/status/1933523839188939236
参加者数は微減
去年はシアトルの好立地が参加者・スポンサーともに集めやすかった?
投稿数が指数関数的に増加しており、レビューワ負担増加
コミッティとして様々な対策を施し、レビュー品質は改善している
学会トレンド分析
論文タイトルより作成
imageとvideoの頻度が逆転
CVPR2025
CVPR2024
4
Paper Topics Top Ranking
Rank 変動 CVPR2025 CVPR2024
1 ±0 Image and video synthesis and generation Image and video synthesis and generation
2 ±0 3D from multi-view and sensors 3D from multi-view and sensors
3 +5 Multi-modal learning Humans: Face, body, pose, gesture, movement
4 -1 Humans: Face, body, pose, gesture, movement Vision, language, and reasoning
5 ±0 Low-level vision Low-level vision
6 -2 Vision, language, and reasoning Recognition: Categorization, detection, retrieval
7 ±0 Transfer, meta, low-shot, continual, or long-tail
learning
Transfer, meta, low-shot, continual, or long-tail
learning
8 -2 Recognition: Categorization, detection, retrieval Multi-modal learning
9 +6 Medical and biological vision, cell microscopy Segmentation, grouping and shape analysis
10 +1 Dataset and evaluation 3D from single images
生成AI / 3D Visionなど大勢は去年から変動なし
Multi-modal learning / Medical visionは去年から大きく躍進
5
0
100
200
300
400
2023 2024 2025
Transformer CNN Mamba
注目Keywordの遷移
縦軸は各keywordをタイトルまたは要旨に含むCVPR採択論文数
0
50
100
150
200
250
2023 2024 2025
NeRF 3D Gaussian Splatting
0
200
400
600
800
2023 2024 2025
diffusion GAN
0
50
100
150
2023 2024 2025
Foundation model World model
0
200
400
600
800
1000
2023 2024 2025
depth 3D
0
100
200
300
400
500
2023 2024 2025
recognition detection segmentation track
0
100
200
300
400
500
2023 2024 2025
human ego
人間特化のタスクは
鈍化傾向
NeRF → 3DGSに代替完了 Diffusionの成長は鈍化
Foundation model系が
一定の存在感
Mambaの急成長
全体としてArchを唄う論文は減少
0
100
200
300
400
500
2023 2024 2025
video(title) image(title)
Videoの存在感増大 3D/Depth関係研究の成長 認識系タスクはtracking以外減少
6
• タイトルに含まれる単語のなかで2024年比での増減を比較
Keyword増減比較
増加数 2025 > 2024
+108 video
+102 gaussian
+89 generation
+71 model
+70 splatting
+59 models
+57 large
+52 image
+51 multimodal
+39 understanding
減少数 2025 < 2024
-60 neural
-34 human
-34 fields
-30 radiance
-27 learning
-26 segmentation
-22 unsupervised
-20 domain
-18 adaptation
-16 pose
✓ Video含めた複数モーダルに
関する研究が加速
✓ NeRFから3DGSへの置き換えが進む
7
CVPR2025採択論文 被引用数ランキング
被引用数はsemantic scholarをもとに算出
Rank 被引用数 タイトル
1 350Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
2 91Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
3 83Structured 3D Latents for Scalable and Versatile 3D Generation
4 81Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
5 81StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
6 75OmniGen: Unified Image Generation
7 66MambaVision: A Hybrid Mamba-Transformer Vision Backbone
8 64DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos
9 60VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos
10 55MambaOut: Do We Really Need Mamba for Vision?
11 51OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning
12 50NVILA: Efficient Frontier Visual Language Models
12 50Tora: Trajectory-oriented Diffusion Transformer for Video Generation
14 45Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
15 45Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis
8
CVPR2025採択論文 AIランキング (Gemini 2.5 Pro Deep Research利用)
受賞リストやgithub, hugging faceなどのスター数, キュレーションサイトでの取り扱い, 発表形式などを総合的に勘案して算出
Rank タイトル
1 VGGT: Visual Geometry Grounded Transformer
2 Navigation World Models
3 MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos
4 FoundationStereo: Zero-Shot Stereo Matching
5 Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
6 DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos
7 3D Student Splatting and Scooping
8 MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis
9 DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment
10 ShowUI: One Vision-Language-Action Model for GUI Visual Agent
11 Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
12 Magma: A Foundation Model for Multimodal AI Agents
12 Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
14 Zero-Shot Monocular Scene Flow Estimation in the Wild
15 MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors
9
CVPR2025採択論文で引用された過去論文 被引用数ランキング
被引用数はsemantic scholarをもとに算出, 2021年以降の論文に限定
Rank 被引用数 タイトル
1 707 Learning Transferable Visual Models From Natural Language Supervision (2021)
2 566 High-Resolution Image Synthesis with Latent Diffusion Models (2021)
3 2603D Gaussian Splatting for Real-Time Radiance Field Rendering (2023)
4 249Visual Instruction Tuning (2023)
5 247Segment Anything (2023)
6 233GPT-4 Technical Report (2023)
7 225Adding Conditional Control to Text-to-Image Diffusion Models (2023)
8 215BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (2023)
9 204LoRA: Low-Rank Adaptation of Large Language Models (2021)
10 189DINOv2: Learning Robust Visual Features without Supervision (2023)
11 184Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (2022)
12 179SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis (2023)
13 174Scalable Diffusion Models with Transformers (2022)
14 158Classifier-Free Diffusion Guidance (2022)
15 153Emerging Properties in Self-Supervised Vision Transformers (2021)
10
CVPR2025採択論文で引用された過去論文 被引用数ランキング
被引用数はsemantic scholarをもとに算出, 2021年以降の論文に限定
Rank 被引用数 タイトル
1 707 Learning Transferable Visual Models From Natural Language Supervision (2021)
2 566 High-Resolution Image Synthesis with Latent Diffusion Models (2021)
3 2603D Gaussian Splatting for Real-Time Radiance Field Rendering (2023)
4 249Visual Instruction Tuning (2023)
5 247Segment Anything (2023)
6 233GPT-4 Technical Report (2023)
7 225Adding Conditional Control to Text-to-Image Diffusion Models (2023)
8 215BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (2023)
9 204LoRA: Low-Rank Adaptation of Large Language Models (2021)
10 189DINOv2: Learning Robust Visual Features without Supervision (2023)
11 184Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (2022)
12 179SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis (2023)
13 174Scalable Diffusion Models with Transformers (2022)
14 158Classifier-Free Diffusion Guidance (2022)
15 153Emerging Properties in Self-Supervised Vision Transformers (2021)
3DGSがTop Referに登場 / GPT-4, DINOv2, DiTなどの基盤モデルも多くの論文で引用される
動画AI動向
– 動画生成系技術のトレンド
– 動画認識系技術のトレンド
– 4D Vision技術のトレンド
12
CVPR2025投稿期間中の動画AI関連の出来事
2023.11
CVPR2024
投稿締切
2024.11
CVPR2025
投稿締切
2024.2 2024.5 2024.7
PikaLabs
テキストから動画生成
“Pika 1.0”を一般公開
OpenAI
最大1分の高品質な動画を
生成可能な”Sora”を発表
Runway
“Gen-3 Alpha”発表
映画製作向け制御機能を実現
2024.6
米国著作権局
報告書“著作権とAI”
第1章デジタルレプリカ公開
2024.10
Meta
テキストから動画・画像・
音声を生成可能な
“Movie Gen”を発表
OpenAI
生成AI画像検出ツール提供
コンテンツ認証規格”C2PA”に参画
“Sora”の登場で動画生成の品質が一気に向上・その後各社での競争が激化
足元では着実に著作権保護関係の規格・法整備が進む
Google
1分以上の高品質な動画を
生成可能な”Veo”を発表
キープレイヤーによる
動画市場への参入・競争激化
着実な法整備とキープレイヤー
による先行した規格整備・参画
13
動画AIブレークスルーのポイントと進化: Diffusion Transformer (DiT)
OpenAI Sora[2]で同様の構成が言及され一気に注目を集める
DiT論文[1]の引用数年次遷移
2024/2→
Sora発表
DiT論文
発表
[1] Wiliam Peebles et al., “Scalable Diffusion Models with Transformers,” ICCV, 2023.
[2] https://openai.com/index/video-generation-models-as-world-simulators/
Unetベースの独自アーキが主流だったDiffusionを
Transformerベースのシンプルな構成でscalingできることを実証[1]
Soraでの動画生成におけるインパクトと
DiTによるシンプルな構成での実証で
多くの研究者が動画分野に参入
14
CVPR2025における動画生成系技術のトレンド
長尺動画生成 インタラクション 編集性向上
[1] Roberto Henschel et al., “StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text,” CVPR, 2025.
[2] Zhenghao Zhang et al., “Tora: Trajectory-oriented Diffusion Transformer for Video Generation”, CVPR, 2025.
[3] Shaoteng Liu et al., “Generative Video Propagation”, CVPR, 2025.
[1] [2] [3]
Sora / Veoのように
1分程度の一貫性のある
動画生成を実現
ユーザインタラクションを反映した
コンテンツ生成を実現
映像制作を意識し、制作過程で
使いやすい機能を実現
15
CVPR2025における動画生成系技術のトレンド:長尺動画生成
StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
Roberto Henschel et al. (Picsart AI Research et al.)
2分程度の一貫した動画を生成するために、①初期フレーム生成、
②短期記憶(CAM)と長期記憶 (APM)での条件付け生成、
③chunkごとのブレンディングおよび高画質化の3ステージに分けて処理
CAMで直前のチャンク(8frame)の特徴をAttentionで
抽出し次のチャンクの生成に利用
APMで最初のアンカーフレームから抽出したCLIP特徴量とテキストを
生成プロセス全体にわたって参照することで一貫性を維持
Streaming T2V Stageで生成された高解像度動画変換モデルをつかって
チャンクごとに高画質化。チャンク間の継ぎ目が目立たないように
オーバーラップさせたチャンクのノイズ共有と潜在表現をランダムにブレンド
16
CVPR2025における動画生成系技術のトレンド:インタラクション
Tora: Trajectory-oriented Diffusion Transformer for Video Generation
Zhenghao Zhang et al. (Alibaba Cloud Computing et al.)
動画: https://github.com/alibaba/Tora
DiTベースの動画生成としては初のユーザが指定した軌道に沿った
動画を生成するモデルを提案
DiT(OpenSora)のスケーラビリティを生かして、
最大で204frame/720pの解像度で生成可能
OpenSoraのアーキテクチャの上に、ユーザ指定した軌道情報を3D VAEベースの
Trajectory Extractorで動画パッチと同一の洗剤空間に写像
Motion-Guidance FuserにおいてAdaptive Normベースの処理ブロックで
DiTブロック内に取り込む
17
CVPR2025における動画生成系技術のトレンド:編集性向上
Generative Video Propagation
Shaoteng Liu et al. (CHUK, Adobe Research et al.)
編集対象となる元の動画と、編集済みの最初の1フレームを与えた時に
後続のフレームすべてに対して一貫して編集意図を適用する
動画1のオブジェクトを動画2に貼り付けた動画を”編集前”、動画2を”編集後”として学習
1frame目を先頭に、I2V modelで逐次フレームを生成する中で、編集前画像の特徴量を
注入することで、編集過程で変えるところ・変えないところのバランスをとる
18
CVPR2025における動画認識系技術のトレンド
長尺動画理解 動画処理の効率化 ベンチマーク整備
[1] Ziyang Wang et al., “VIDEOTREE: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos,” CVPR, 2025.
[2] Senqiao Yang et al., “VisionZip: Longer is Better but Not Necessary in Vision Language Models,” CVPR, 2025.
[3] Chaoyou Fu et al., “Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis”, CVPR, 2025.
[2] [3]
数分~数十分程度の長尺動画に
おける理解を行うMLLMの研究
動画像処理で増大するトークン数を
効率的に削減し、処理速度向上
動画理解の能力を評価・比較する
ための環境整備が進む
[1]
画像分野が飽和したことで認識系も動画にシフト
長尺化・効率化・ベンチマーク整備などで研究が進む
19
CVPR2025における動画認識系技術のトレンド:長尺動画理解
VIDEOTREE: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos
Ziyang Wang et al. (UNC Chapel Hill)
冗長性の高い長尺動画を効率的に理解するために、Training-Freeな
枠組み”VideoTree”を提案
クラスタリングと各クラスタでのGPT4への問い合わせで関係性を構造化
画像特徴量にしたがってビデオフレームを十分な粒度までクラスタ化し
各クラスタでキャプションを抽出、GPT4で関係性をスコアリング
関係性の高いクラスタをさらにサブクラスタに分類し、最終的に
キャプションを時系列順に並べて質問に回答させる
20
CVPR2025における動画認識系技術のトレンド:動画処理の効率化
VisionZip: Longer is Better but Not Necessary in Vision Language Models
Senqiao Yang et al. (CUHK et al.)
画像や動画では視覚トークン数は増大傾向にあるが、
大きな冗長性があることを発見
主要なトークンを選択・統合する学習フリーな手法を提案し、
動画ベンチマークにおいてトークン数を93%以上削減できることを実証
Attention機構においてごく一部のトークンに情報が集中する傾向にあることを突き止め、
Attentionスコアが高い支配的トークンと、それ以外のトークンで類似性に基づいて
統合した文脈トークンに分けて情報を集約することで計算量を削減
21
CVPR2025における動画認識系技術のトレンド:ベンチマーク整備
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
Chaoyou Fu et al. (Nanjing University et al.)
MLLMの動画解析能力を評価するための初の包括的なベンチマーク
多様な動画種類・動画期間、映像・字幕・音声が統合されたデータモダリティ、
専門家による高品質なアノテーションが特徴
論文中ではGemini1.5 Proが
平均正答率75%でTop
Open / Closed modelのギャップが
浮き彫りになる
最新ではGemini 2.5 Proが84.8%を達成
22
CVPR2025における4D (3D+time) Vision技術のトレンド
4Dコンテンツ・シーン生成 4Dセンシング
[1] Rundi Wu et al, “CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models,” CVPR, 2025.
[2] David Yifan Yao et al., “Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video,” CVPR, 2025.
[3] Wenbo Hu et al., “DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos,” CVPR, 2025.
[4] Jiahao Shao et al., “Learning Temporally Consistent Video Depth from Video Diffusion Priors,” CVPR, 2025.
CAT4D[1] Uni4D[2]
DepthCrafter [3]
ChronoDepth [4]
動的な3Dオブジェクトや3Dシーンを生成 時間方向に一貫したDepth推定などを実現
23
CVPR2025における4D Vision技術のトレンド: 4Dシーン生成
Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video
David Yifan Yao et al. (University of Illinois at Urbana-Champaign et al.)
既存のVision基盤モデルを活用し、多段階の最適化により
単一のビデオからカメラポーズ、動的シーンの3D再構成、モーショントラッキングを
統合的に実現する
各モデルをつかって動的オブジェクトのセグメンテーション、ビデオ深度、2Dトラッキングを抽出し
カメラ初期化 → バンドル調整 → 非剛体バンドル調整の順で最適化を実施し
4Dシーン再構築を実現
タスク 手法 役割
動的オブ
ジェクト認
識
RAM (Recognize
Anything Model)
ビデオ中の物体に対して大まかなタグを生成
GPT-4 RAMが生成したタグから動物体を判定
Grounding-SAM 動物体タグに基づきビデオの初期フレームでその物体
の領域をセグメンテーション
DEVA 初期マスクをビデオ全体にわたって追跡
ビデオ深度
推定
UniDepthv2 各フレームの深度マップを推定
モーショント
ラック
CoTracker3 ビデオ内の画素を全体にわたって追跡し2D対応関係
を算出
24
CVPR2025における4D Vision技術のトレンド: 4Dセンシング
DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos
Wenbo Hu et al. (Tencent AI Lab et al.)
ビデオ拡散モデルを活用し、時間方向に
一貫性のある単眼デプス推定を実現
同時期の手法であるChronoDepthに比べて
長い(110frame)フレームを推定可能で、それらを
結合することで任意長に対応可能
ビデオ拡散モデルを次の3段階にわけて学習
① リアルデータで短区間での深度推定をモデル全体に対して学習
②リアルデータで時間層のみを長区間でファインチューン
③合成データで空間層のみをファインチューン
3D Vision動向
– 3D Gaussian Splattingの進展
– DUSt3R登場後の進展
26
3D Vision重要技術① 3D Gaussian Splatting (3DGS)
2.6倍
3DGS関連論文のarxiv投稿数四半期遷移
CVPR2024
投稿区間
CVPR2025
投稿区間
3DGSは研究・産業応用と合わせて進展が加速
LumaAI (クリエイティブ向け)
PolyCam (エンタープライズ・AEC向け)
コンテンツ生成
Apple(Vision Pro), Meta (Quest), Qualcomm
アセット管理・ゲームエンジン
Adobe (Firefly), Unity, UE
HW / OS
学術界の動向 産業界の動向
各レイヤー内での競争激化・方向性の明確化
レイヤー間での提携が進む
27
CVPR2025における3DGS技術のトレンド
基本アルゴリズム 効率化・圧縮 編集・制御性
[1] Jialin Zhu et al., “3D Student Splatting and Scooping,” CVPR, 2025.
[2] Guofeng Feng et al., “FlashGS: Efficient 3D Gaussian Splatting for Large-scale and High-resolution Rendering,” CVPR, 2025.
[3] Jianfeng Xiang et al., “Structured 3D Latents for Scalable and Versatile 3D Generation,” CVPR, 2025.
3DGSのPrimitiveを改善し
ベースライン性能を向上
Viewingの高画質化・モバイル化に向けた
更なる高速化・サイズ圧縮を研究
Blenderなどのワークフローに
適合するファイル形式での提供
既存のデバイス・3DCGワークフローに適合可能な手法が進展
[2] [3]
[1]
28
CVPR2025における3DGS技術のトレンド: 基本アルゴリズム
3D Student Splatting and Scooping
Jialin Zhu et al. (University College London et al.)
3DGSの構成要素であるガウシアンに対して、
①スチューデント分布での表現力の向上
②負の重み導入によるガウシアン同士の減算処理
により、パラメータ効率よく3D形状が表現可能
29
CVPR2025における3DGS技術のトレンド: 効率化・圧縮
FlashGS: Efficient 3D Gaussian Splatting for Large-scale and High-resolution Rendering
Guofeng Feng et al. (University of Chinese Academy of Sciences et al.)
CUDA実装の最適化により3DGSにおける冗長性の排除と負荷分散を実施
画質を落とすことなく7.2倍の高速化を実現
正確かつ高速な交差判定、ガウス投影サイズに応じた動的なスレッド割り当て、
SWパイプライン導入によるレンダリングの遅延削減などを導入し
3DGS自体の近似はせずに根本的に遅延削減を実現
30
CVPR2025における3DGS技術のトレンド: 編集・制御性
Structured 3D Latents for Scalable and Versatile 3D Generation
Jianfeng Xiang et al. (Tsinghua University et al.)
[1] https://microsoft.github.io/TRELLIS/
Blenderなどで使われるファイル形式での
出力で3DCGワークフローに適合可能
多視点画像からStructured 3D Latents (SLAT)と呼ばれるスパースなボクセルグリッドと各グリッドの
潜在特徴量を獲得し、3DGSやMeshなど各種3D表現へのデコーダーを大規模3Dモデルデータで学習
その後、Rectified flowモデルによりテキストからSLATを生成する拡散モデルを学習することで
テキストから3Dモデルを生成するネットワークを実現
31
3D Vision重要技術② DUSt3R登場後の進展
CVPR2024からみる
Vision最先端トレンドより
DUSt3Rに触発され3D Visionが活性化, CVPR2025でも注目論文が多数登場
[1] Brandon Smart et al., “Splatt3R: Zero-shot Gaussian Splatting from Uncalibrated Image Pairs,” arxiv, 2024.
[2] Bardienus Duisterhof et al., “MASt3R-SfM: a Fully-Integrated Solution for Unconstrained Structure-from-Motion,” arxiv, 2024.
[3] Junyi Zhang et al., “MONST3R: A Simple Approach for Estimating Geometry in the Presence of Motion,” ICLR, 2025.
DUST3Rの引用数年次遷移
Splatt3R
MASt3R+3DGSでPose Freeで
新視点画像を生成[1]
MASt3R-SfM
MASt3RをベースにSfMパイプラインを
見直し精緻な3次元復元を実現[2]
MonST3R
DUSt3RのPoint mapをタイムステップ
ごとに推定することで動的シーンでの
4次元再構成を実現[3]
32
CVPR2025におけるDUSt3R後継論文
VGGT: Visual Geometry Grounded Transformer
Jianyuan Wang et al. (University of Oxford and Meta AI)
1枚から数百枚の画像を入力とし、各画像のカメラパラメータ、ポイントマップ、
デプスマップ、3D Point Trackを一括で推論するNetworkを提案
DINO特徴量にカメラトークンを追加し、Self/Cross Attentionで処理
出力はCamera Pose / Depth / Point map / Point Trackと冗長性があるが
この冗長性が学習精度を高めていることをAblation Studyで検証
従来のSfMのバンドル調整やDUSt3Rの後処理が不要で
Feedforward処理で算出可能なため、超高速
33
CVPR2025におけるDUSt3R後継論文
MUSt3R: Multi-view Network for Stereo 3D Reconstruction
Yohann Cabon et al. (Naver Labs Europe and EPFL)
SLAMやSfMなど大規模な画像セットを用いた処理を想定し、DUSt3Rの特徴だったペアワイズ入力を廃止し、
任意のビュー数を扱える対称構造+メモリ機構の導入で計算量を抑えつつ、3次元復元を実現
Networkを単一ヘッドの構成にし、基準画像座標系のグローバルポイントマップと
各画像座標系のローカルポイントマップをそれぞれ算出
画像追加時に過去処理画像の特徴量をメモリとして保持し、クロスアテンションに活用
因果推論によりO(n)の計算量で処理が可能
34
CVPR2025におけるDUSt3R後継論文
MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors
Riku Murai et al. (Imperial College London)
SLAMの肝であるマッチングにおいて、MASt3Rの出力である
Point map同士の角度誤差最小化によってピクセル対応関係を算出
GPU上で並列処理可能で、2msで高速に算出可能
最新のKeyframeと現在フレームの相対ポーズをMASt3Rに入力し、
そのPointmapから相対ポーズを算出
PointMap自身はSLAMがもつmapに統合され、洗練される
Loop Closeが検出されたときにそのペア間でMASt3Rで検証し、妥当性を確認し、
グラフ最適化を逐次実施
基盤モデル・統一モデル動向
– 基盤・統一モデルの定義
– CVPR2025における基盤・統一モデル
36
基盤モデル・統一モデルの実用的定義
基盤モデルとは、広範なデータで(通常は自己教師あり学習を大規模に用いて)
学習され、広範な下流タスクに適応可能なあらゆるモデル (Stanford HAI)
SSLや学習済みモデルの利用に
より、未ラベルのデータ活用で
大規模学習を実施
基盤モデル
学習とその結果として生じるポテンシャルで定義されるパラダイム
統一モデル
推論時の明示的な機能に
よって定義されるパラダイム
[1] Kaiming He et al., “Masked Autoencoders Are Scalable Vision Learners,” CVPR, 2022.
[2] Wiliam Peebles et al., “Scalable Diffusion Models with Transformers,” ICCV, 2023.
[3] Senqiao Yang et al., “VisionZip: Longer is Better but Not Necessary in Vision Language Models,” CVPR, 2025.
[4] Shuzhe Wang et al., “DUSt3R: Geometric 3D Vision Made Easy,” CVPR, 2024.
データ・アーキの大規模化により
性能向上が発現
I/F統一などで多様なタスクを
一つのモデルで実現
Backbone/Encoderとしてモデルの
一部に組み込んだ時に、
多様なタスクで高い性能を発揮
モデルのScaling則が
成立
多様なタスクで
backboneとして機能
単一モデルで
多様なタスクを推論
Internet-scaleの
大規模データでの学習
[1] [2] [3] [4]
37
CVPR2025における基盤モデル
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
Matt Deitke et al. (Allen Institute for AI et al.)
GPTやGeminiなど先端のVLMの多くがクローズドモデルであり、Openモデルの多くも
学習においてそれらの合成データに依存している
完全なオープンモデルを提供するために、既存VLMを使用せずに収集した
データセット”PixMo”とそれを用いて学習した”MolMoを提案”
ViTとLLMをコネクタで接続する標準的な設計を踏襲
画像処理において重複マルチクロップやテキスト限定ドロップアウトなどの
工夫で精度を改善
ベンチマークにおいてOpen modelのなかではトップ、
Closed modelにおいてもGPT-4oに次ぐ2位を記録
39
CVPR2025における基盤モデル
FoundationStereo: Zero-Shot Stereo Matching
Bowen Wen et al. (NVIDIA)
ステレオ深度推定において
特定ドメインへのFinetuneなしで高い汎化性能を持つ
基盤モデルFoundationStereoを提案
Omniverseで生成された100万組のステレオ画像ペアを使って
自己キュレーションしながらモデルとデータセット双方を
反復的に改良させていく
Sim2Realのギャップを埋めるために、学習済みDepthAnything v2 + Side-tuning CNNの
構成で特徴量を抽出
APC Filtering + Disparity Transformerで局所・大域双方の特徴量を効率的にとらえ、
RAFTベースのGPUで反復的に視差を推定する
40
CVPR2025における統一モデル
Matrix3D: Large Photogrammetry Model All-in-One
Yuanxun Lu et al. (Nanjing University, Apple et al.)
カメラポーズ推定やデプス推定、新視点合成など3D Vision系のタスクが
推論可能な統一モデル Matrix3Dを提案
1枚から少数枚の画像が与えられた場合、自身で
必要な枚数の視点画像やカメラポーズ、デプスを生成し、
3DGSの最適化プロセスを通じて3Dアセットを生成することが可能
各モダリティ特化のEncoderを通じてDiTベースの拡散モデルに入力
学習においては、特定のモダリティ画像全体をマスキングしながら
条件付き学習をすることで、任意の入力で所望の出力を得る
World Model動向
– CVPR2025 Tutorial / Workshop
– CVPR2025 本会議
42
動画 + 3D + 基盤モデル → World Model
動画AI / 3D Vision / 基盤モデルの技術成熟に伴い、
実世界を理解し未来を予測する”World Model” への研究が加速
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond
https://github.com/GigaAI-research/General-World-Models-Survey
World Model関連論文のarxiv投稿数四半期遷移
43
World Model関連の2024~2025年の出来事
2024.2 2025.6
2024.3 2025.1
2024.12 2025.5
主要キー企業・キープレイヤーがそれぞれの”World Model”を提唱し始める
2025 ~ 2026に向けて更なる競争激化が予想される
2024.9
OpenAI Sora
動画生成 = World Sim.
と位置づけてリリース
Google DeepMind
動画からプレイ可能な2D世界を
生成する“Genie”を発表
Yann LeCun
JEPAアーキテクチャ提唱
Fei-Fei Li
空間知能開発にむけて
World Labs設立
Google DeepMind
Genie2を発表し
3D基盤ワールドモデルに更新
NVIDIA
CESでCosmos
Platformを発表
Google DeepMind
Universal AI Assistant
に向けた道筋を提唱
Meta AI
V-JEPA2をリリース
44
CVPR2025におけるWorld Model動向: Tutorial / Workshop
Tutorial: From Video Generation to World Model
https://world-model-tutorial.github.io/
Workshop: WorldModelBench
https://worldmodelbench.github.io/
近年の動画生成AIの発展から物理ベース・
インタラクティブな世界モデルへの研究動向を紹介
WorldScoreなど世界モデルに向けたBenchmarkや
世界モデル研究について議論
CVPRとしては初めてのWorld Model関連のtutorial / workshopが開催される
45
CVPR2025におけるWorld Model動向: 本会議
Navigation World Models
Amir Bar et al. (Meta et al.)
過去の画像とナビゲーション行動に基づき未来の画像を予測する
制御可能な動画生成モデルNWMを提案
NWMをWorld modelとして利用することで、柔軟な計画方法を実証
画像生成において、過去画像や行動を条件付けする
Conditional DiT (CDiT)を提案
過去画像を単純に入力トークンに加える方式に比べて
高効率で高精度な画像生成が可能
46
CVPR2025におけるWorld Model動向: 本会議
DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
Guosheng Zhao et al. (Chinese Academy of Sciences et al.)
自動運転のための多様な軌道のシミュレーション映像の生成が不可欠だが
既存の4DGSではオリジナルが直線映像が多く、生成映像に破綻が発生
同一時刻の別の地点での画像をWorld Modelで生成し、それを
4DGSの学習に加えることで、多様な軌道・視点の映像が破綻なく生成可能
(上段) オリジナルの軌道をもとに多様な軌道を生成し安全性を検証
1st Frameと3D BBox, HDMapで条件付けされた拡散モデルで任意視点の画像を生成
(下段) 4DGSの学習において、オリジナル画像に加えて同時刻のWorld Model画像も一緒に
学習することで、軌道や視点変更での映像品質を向上させる
47
• 動画AI動向
– OpenAI Sora / DiTの登場で多くの研究者が動画分野に参入
– 生成:長尺動画生成・インタラクション・編集性向上
– 理解:長尺動画理解・動画処理の効率化・ベンチマーク整備
– 4D Vision:4Dコンテンツ生成・4Dセンシング
• 3D Vision動向
– 3DGS:基本アルゴリズム・効率化と圧縮・編集と制御性
– DUSt3R後の進展:VGGTをはじめ注目度の高い論文が登場
• 基盤モデル・統一モデル動向
– Open vs. Closedの競争、各種モーダル向けの基盤モデルの研究
• World Model動向
– 動画 + 3D + 基盤モデル → World Model
まとめ

【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report

  • 1.
    0 CVPR2025 聴講報告 Sony Corporation YukiOno Image: https://www.nashvillemusiccitycenter.com/
  • 2.
    1 • 学会概要 • 学会トレンド分析 •動画AI動向 – 動画AIのブレークスルーと進化: DiT – 動画生成系技術トレンド – 動画認識系技術トレンド – 4D Vision技術トレンド • 3D Vision動向 – 3D Gaussian Splatting – DUSt3R登場後の進展 • 基盤モデル・統一モデル動向 – 基盤モデル・統一モデルの実用的定義 – CVPR2025における基盤・統一モデル • World Model動向 – CVPR2025におけるWorld Model動向 目次
  • 3.
    2 • 開催概要 – ComputerVisionのトップカンファレンス – 6/11-15 @ Nashville TN (USA) • 統計 – 採択率 22.1% (2878/13008本) 学会概要: Computer Vision and Pattern Recognition https://x.com/CVPR/status/1933520566553882800 https://x.com/CVPR/status/1933523839188939236 参加者数は微減 去年はシアトルの好立地が参加者・スポンサーともに集めやすかった? 投稿数が指数関数的に増加しており、レビューワ負担増加 コミッティとして様々な対策を施し、レビュー品質は改善している
  • 4.
  • 5.
    4 Paper Topics TopRanking Rank 変動 CVPR2025 CVPR2024 1 ±0 Image and video synthesis and generation Image and video synthesis and generation 2 ±0 3D from multi-view and sensors 3D from multi-view and sensors 3 +5 Multi-modal learning Humans: Face, body, pose, gesture, movement 4 -1 Humans: Face, body, pose, gesture, movement Vision, language, and reasoning 5 ±0 Low-level vision Low-level vision 6 -2 Vision, language, and reasoning Recognition: Categorization, detection, retrieval 7 ±0 Transfer, meta, low-shot, continual, or long-tail learning Transfer, meta, low-shot, continual, or long-tail learning 8 -2 Recognition: Categorization, detection, retrieval Multi-modal learning 9 +6 Medical and biological vision, cell microscopy Segmentation, grouping and shape analysis 10 +1 Dataset and evaluation 3D from single images 生成AI / 3D Visionなど大勢は去年から変動なし Multi-modal learning / Medical visionは去年から大きく躍進
  • 6.
    5 0 100 200 300 400 2023 2024 2025 TransformerCNN Mamba 注目Keywordの遷移 縦軸は各keywordをタイトルまたは要旨に含むCVPR採択論文数 0 50 100 150 200 250 2023 2024 2025 NeRF 3D Gaussian Splatting 0 200 400 600 800 2023 2024 2025 diffusion GAN 0 50 100 150 2023 2024 2025 Foundation model World model 0 200 400 600 800 1000 2023 2024 2025 depth 3D 0 100 200 300 400 500 2023 2024 2025 recognition detection segmentation track 0 100 200 300 400 500 2023 2024 2025 human ego 人間特化のタスクは 鈍化傾向 NeRF → 3DGSに代替完了 Diffusionの成長は鈍化 Foundation model系が 一定の存在感 Mambaの急成長 全体としてArchを唄う論文は減少 0 100 200 300 400 500 2023 2024 2025 video(title) image(title) Videoの存在感増大 3D/Depth関係研究の成長 認識系タスクはtracking以外減少
  • 7.
    6 • タイトルに含まれる単語のなかで2024年比での増減を比較 Keyword増減比較 増加数 2025> 2024 +108 video +102 gaussian +89 generation +71 model +70 splatting +59 models +57 large +52 image +51 multimodal +39 understanding 減少数 2025 < 2024 -60 neural -34 human -34 fields -30 radiance -27 learning -26 segmentation -22 unsupervised -20 domain -18 adaptation -16 pose ✓ Video含めた複数モーダルに 関する研究が加速 ✓ NeRFから3DGSへの置き換えが進む
  • 8.
    7 CVPR2025採択論文 被引用数ランキング 被引用数はsemantic scholarをもとに算出 Rank被引用数 タイトル 1 350Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis 2 91Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation 3 83Structured 3D Latents for Scalable and Versatile 3D Generation 4 81Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces 5 81StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text 6 75OmniGen: Unified Image Generation 7 66MambaVision: A Hybrid Mamba-Transformer Vision Backbone 8 64DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos 9 60VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos 10 55MambaOut: Do We Really Need Mamba for Vision? 11 51OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning 12 50NVILA: Efficient Frontier Visual Language Models 12 50Tora: Trajectory-oriented Diffusion Transformer for Video Generation 14 45Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding 15 45Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis
  • 9.
    8 CVPR2025採択論文 AIランキング (Gemini2.5 Pro Deep Research利用) 受賞リストやgithub, hugging faceなどのスター数, キュレーションサイトでの取り扱い, 発表形式などを総合的に勘案して算出 Rank タイトル 1 VGGT: Visual Geometry Grounded Transformer 2 Navigation World Models 3 MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos 4 FoundationStereo: Zero-Shot Stereo Matching 5 Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models 6 DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos 7 3D Student Splatting and Scooping 8 MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis 9 DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment 10 ShowUI: One Vision-Language-Action Model for GUI Visual Agent 11 Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis 12 Magma: A Foundation Model for Multimodal AI Agents 12 Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models 14 Zero-Shot Monocular Scene Flow Estimation in the Wild 15 MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors
  • 10.
    9 CVPR2025採択論文で引用された過去論文 被引用数ランキング 被引用数はsemantic scholarをもとに算出,2021年以降の論文に限定 Rank 被引用数 タイトル 1 707 Learning Transferable Visual Models From Natural Language Supervision (2021) 2 566 High-Resolution Image Synthesis with Latent Diffusion Models (2021) 3 2603D Gaussian Splatting for Real-Time Radiance Field Rendering (2023) 4 249Visual Instruction Tuning (2023) 5 247Segment Anything (2023) 6 233GPT-4 Technical Report (2023) 7 225Adding Conditional Control to Text-to-Image Diffusion Models (2023) 8 215BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (2023) 9 204LoRA: Low-Rank Adaptation of Large Language Models (2021) 10 189DINOv2: Learning Robust Visual Features without Supervision (2023) 11 184Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (2022) 12 179SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis (2023) 13 174Scalable Diffusion Models with Transformers (2022) 14 158Classifier-Free Diffusion Guidance (2022) 15 153Emerging Properties in Self-Supervised Vision Transformers (2021)
  • 11.
    10 CVPR2025採択論文で引用された過去論文 被引用数ランキング 被引用数はsemantic scholarをもとに算出,2021年以降の論文に限定 Rank 被引用数 タイトル 1 707 Learning Transferable Visual Models From Natural Language Supervision (2021) 2 566 High-Resolution Image Synthesis with Latent Diffusion Models (2021) 3 2603D Gaussian Splatting for Real-Time Radiance Field Rendering (2023) 4 249Visual Instruction Tuning (2023) 5 247Segment Anything (2023) 6 233GPT-4 Technical Report (2023) 7 225Adding Conditional Control to Text-to-Image Diffusion Models (2023) 8 215BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (2023) 9 204LoRA: Low-Rank Adaptation of Large Language Models (2021) 10 189DINOv2: Learning Robust Visual Features without Supervision (2023) 11 184Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (2022) 12 179SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis (2023) 13 174Scalable Diffusion Models with Transformers (2022) 14 158Classifier-Free Diffusion Guidance (2022) 15 153Emerging Properties in Self-Supervised Vision Transformers (2021) 3DGSがTop Referに登場 / GPT-4, DINOv2, DiTなどの基盤モデルも多くの論文で引用される
  • 12.
  • 13.
    12 CVPR2025投稿期間中の動画AI関連の出来事 2023.11 CVPR2024 投稿締切 2024.11 CVPR2025 投稿締切 2024.2 2024.5 2024.7 PikaLabs テキストから動画生成 “Pika1.0”を一般公開 OpenAI 最大1分の高品質な動画を 生成可能な”Sora”を発表 Runway “Gen-3 Alpha”発表 映画製作向け制御機能を実現 2024.6 米国著作権局 報告書“著作権とAI” 第1章デジタルレプリカ公開 2024.10 Meta テキストから動画・画像・ 音声を生成可能な “Movie Gen”を発表 OpenAI 生成AI画像検出ツール提供 コンテンツ認証規格”C2PA”に参画 “Sora”の登場で動画生成の品質が一気に向上・その後各社での競争が激化 足元では着実に著作権保護関係の規格・法整備が進む Google 1分以上の高品質な動画を 生成可能な”Veo”を発表 キープレイヤーによる 動画市場への参入・競争激化 着実な法整備とキープレイヤー による先行した規格整備・参画
  • 14.
    13 動画AIブレークスルーのポイントと進化: Diffusion Transformer(DiT) OpenAI Sora[2]で同様の構成が言及され一気に注目を集める DiT論文[1]の引用数年次遷移 2024/2→ Sora発表 DiT論文 発表 [1] Wiliam Peebles et al., “Scalable Diffusion Models with Transformers,” ICCV, 2023. [2] https://openai.com/index/video-generation-models-as-world-simulators/ Unetベースの独自アーキが主流だったDiffusionを Transformerベースのシンプルな構成でscalingできることを実証[1] Soraでの動画生成におけるインパクトと DiTによるシンプルな構成での実証で 多くの研究者が動画分野に参入
  • 15.
    14 CVPR2025における動画生成系技術のトレンド 長尺動画生成 インタラクション 編集性向上 [1]Roberto Henschel et al., “StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text,” CVPR, 2025. [2] Zhenghao Zhang et al., “Tora: Trajectory-oriented Diffusion Transformer for Video Generation”, CVPR, 2025. [3] Shaoteng Liu et al., “Generative Video Propagation”, CVPR, 2025. [1] [2] [3] Sora / Veoのように 1分程度の一貫性のある 動画生成を実現 ユーザインタラクションを反映した コンテンツ生成を実現 映像制作を意識し、制作過程で 使いやすい機能を実現
  • 16.
    15 CVPR2025における動画生成系技術のトレンド:長尺動画生成 StreamingT2V: Consistent, Dynamic,and Extendable Long Video Generation from Text Roberto Henschel et al. (Picsart AI Research et al.) 2分程度の一貫した動画を生成するために、①初期フレーム生成、 ②短期記憶(CAM)と長期記憶 (APM)での条件付け生成、 ③chunkごとのブレンディングおよび高画質化の3ステージに分けて処理 CAMで直前のチャンク(8frame)の特徴をAttentionで 抽出し次のチャンクの生成に利用 APMで最初のアンカーフレームから抽出したCLIP特徴量とテキストを 生成プロセス全体にわたって参照することで一貫性を維持 Streaming T2V Stageで生成された高解像度動画変換モデルをつかって チャンクごとに高画質化。チャンク間の継ぎ目が目立たないように オーバーラップさせたチャンクのノイズ共有と潜在表現をランダムにブレンド
  • 17.
    16 CVPR2025における動画生成系技術のトレンド:インタラクション Tora: Trajectory-oriented DiffusionTransformer for Video Generation Zhenghao Zhang et al. (Alibaba Cloud Computing et al.) 動画: https://github.com/alibaba/Tora DiTベースの動画生成としては初のユーザが指定した軌道に沿った 動画を生成するモデルを提案 DiT(OpenSora)のスケーラビリティを生かして、 最大で204frame/720pの解像度で生成可能 OpenSoraのアーキテクチャの上に、ユーザ指定した軌道情報を3D VAEベースの Trajectory Extractorで動画パッチと同一の洗剤空間に写像 Motion-Guidance FuserにおいてAdaptive Normベースの処理ブロックで DiTブロック内に取り込む
  • 18.
    17 CVPR2025における動画生成系技術のトレンド:編集性向上 Generative Video Propagation ShaotengLiu et al. (CHUK, Adobe Research et al.) 編集対象となる元の動画と、編集済みの最初の1フレームを与えた時に 後続のフレームすべてに対して一貫して編集意図を適用する 動画1のオブジェクトを動画2に貼り付けた動画を”編集前”、動画2を”編集後”として学習 1frame目を先頭に、I2V modelで逐次フレームを生成する中で、編集前画像の特徴量を 注入することで、編集過程で変えるところ・変えないところのバランスをとる
  • 19.
    18 CVPR2025における動画認識系技術のトレンド 長尺動画理解 動画処理の効率化 ベンチマーク整備 [1]Ziyang Wang et al., “VIDEOTREE: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos,” CVPR, 2025. [2] Senqiao Yang et al., “VisionZip: Longer is Better but Not Necessary in Vision Language Models,” CVPR, 2025. [3] Chaoyou Fu et al., “Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis”, CVPR, 2025. [2] [3] 数分~数十分程度の長尺動画に おける理解を行うMLLMの研究 動画像処理で増大するトークン数を 効率的に削減し、処理速度向上 動画理解の能力を評価・比較する ための環境整備が進む [1] 画像分野が飽和したことで認識系も動画にシフト 長尺化・効率化・ベンチマーク整備などで研究が進む
  • 20.
    19 CVPR2025における動画認識系技術のトレンド:長尺動画理解 VIDEOTREE: Adaptive Tree-basedVideo Representation for LLM Reasoning on Long Videos Ziyang Wang et al. (UNC Chapel Hill) 冗長性の高い長尺動画を効率的に理解するために、Training-Freeな 枠組み”VideoTree”を提案 クラスタリングと各クラスタでのGPT4への問い合わせで関係性を構造化 画像特徴量にしたがってビデオフレームを十分な粒度までクラスタ化し 各クラスタでキャプションを抽出、GPT4で関係性をスコアリング 関係性の高いクラスタをさらにサブクラスタに分類し、最終的に キャプションを時系列順に並べて質問に回答させる
  • 21.
    20 CVPR2025における動画認識系技術のトレンド:動画処理の効率化 VisionZip: Longer isBetter but Not Necessary in Vision Language Models Senqiao Yang et al. (CUHK et al.) 画像や動画では視覚トークン数は増大傾向にあるが、 大きな冗長性があることを発見 主要なトークンを選択・統合する学習フリーな手法を提案し、 動画ベンチマークにおいてトークン数を93%以上削減できることを実証 Attention機構においてごく一部のトークンに情報が集中する傾向にあることを突き止め、 Attentionスコアが高い支配的トークンと、それ以外のトークンで類似性に基づいて 統合した文脈トークンに分けて情報を集約することで計算量を削減
  • 22.
    21 CVPR2025における動画認識系技術のトレンド:ベンチマーク整備 Video-MME: The First-EverComprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis Chaoyou Fu et al. (Nanjing University et al.) MLLMの動画解析能力を評価するための初の包括的なベンチマーク 多様な動画種類・動画期間、映像・字幕・音声が統合されたデータモダリティ、 専門家による高品質なアノテーションが特徴 論文中ではGemini1.5 Proが 平均正答率75%でTop Open / Closed modelのギャップが 浮き彫りになる 最新ではGemini 2.5 Proが84.8%を達成
  • 23.
    22 CVPR2025における4D (3D+time) Vision技術のトレンド 4Dコンテンツ・シーン生成4Dセンシング [1] Rundi Wu et al, “CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models,” CVPR, 2025. [2] David Yifan Yao et al., “Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video,” CVPR, 2025. [3] Wenbo Hu et al., “DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos,” CVPR, 2025. [4] Jiahao Shao et al., “Learning Temporally Consistent Video Depth from Video Diffusion Priors,” CVPR, 2025. CAT4D[1] Uni4D[2] DepthCrafter [3] ChronoDepth [4] 動的な3Dオブジェクトや3Dシーンを生成 時間方向に一貫したDepth推定などを実現
  • 24.
    23 CVPR2025における4D Vision技術のトレンド: 4Dシーン生成 Uni4D:Unifying Visual Foundation Models for 4D Modeling from a Single Video David Yifan Yao et al. (University of Illinois at Urbana-Champaign et al.) 既存のVision基盤モデルを活用し、多段階の最適化により 単一のビデオからカメラポーズ、動的シーンの3D再構成、モーショントラッキングを 統合的に実現する 各モデルをつかって動的オブジェクトのセグメンテーション、ビデオ深度、2Dトラッキングを抽出し カメラ初期化 → バンドル調整 → 非剛体バンドル調整の順で最適化を実施し 4Dシーン再構築を実現 タスク 手法 役割 動的オブ ジェクト認 識 RAM (Recognize Anything Model) ビデオ中の物体に対して大まかなタグを生成 GPT-4 RAMが生成したタグから動物体を判定 Grounding-SAM 動物体タグに基づきビデオの初期フレームでその物体 の領域をセグメンテーション DEVA 初期マスクをビデオ全体にわたって追跡 ビデオ深度 推定 UniDepthv2 各フレームの深度マップを推定 モーショント ラック CoTracker3 ビデオ内の画素を全体にわたって追跡し2D対応関係 を算出
  • 25.
    24 CVPR2025における4D Vision技術のトレンド: 4Dセンシング DepthCrafter:Generating Consistent Long Depth Sequences for Open-world Videos Wenbo Hu et al. (Tencent AI Lab et al.) ビデオ拡散モデルを活用し、時間方向に 一貫性のある単眼デプス推定を実現 同時期の手法であるChronoDepthに比べて 長い(110frame)フレームを推定可能で、それらを 結合することで任意長に対応可能 ビデオ拡散モデルを次の3段階にわけて学習 ① リアルデータで短区間での深度推定をモデル全体に対して学習 ②リアルデータで時間層のみを長区間でファインチューン ③合成データで空間層のみをファインチューン
  • 26.
    3D Vision動向 – 3DGaussian Splattingの進展 – DUSt3R登場後の進展
  • 27.
    26 3D Vision重要技術① 3DGaussian Splatting (3DGS) 2.6倍 3DGS関連論文のarxiv投稿数四半期遷移 CVPR2024 投稿区間 CVPR2025 投稿区間 3DGSは研究・産業応用と合わせて進展が加速 LumaAI (クリエイティブ向け) PolyCam (エンタープライズ・AEC向け) コンテンツ生成 Apple(Vision Pro), Meta (Quest), Qualcomm アセット管理・ゲームエンジン Adobe (Firefly), Unity, UE HW / OS 学術界の動向 産業界の動向 各レイヤー内での競争激化・方向性の明確化 レイヤー間での提携が進む
  • 28.
    27 CVPR2025における3DGS技術のトレンド 基本アルゴリズム 効率化・圧縮 編集・制御性 [1]Jialin Zhu et al., “3D Student Splatting and Scooping,” CVPR, 2025. [2] Guofeng Feng et al., “FlashGS: Efficient 3D Gaussian Splatting for Large-scale and High-resolution Rendering,” CVPR, 2025. [3] Jianfeng Xiang et al., “Structured 3D Latents for Scalable and Versatile 3D Generation,” CVPR, 2025. 3DGSのPrimitiveを改善し ベースライン性能を向上 Viewingの高画質化・モバイル化に向けた 更なる高速化・サイズ圧縮を研究 Blenderなどのワークフローに 適合するファイル形式での提供 既存のデバイス・3DCGワークフローに適合可能な手法が進展 [2] [3] [1]
  • 29.
    28 CVPR2025における3DGS技術のトレンド: 基本アルゴリズム 3D StudentSplatting and Scooping Jialin Zhu et al. (University College London et al.) 3DGSの構成要素であるガウシアンに対して、 ①スチューデント分布での表現力の向上 ②負の重み導入によるガウシアン同士の減算処理 により、パラメータ効率よく3D形状が表現可能
  • 30.
    29 CVPR2025における3DGS技術のトレンド: 効率化・圧縮 FlashGS: Efficient3D Gaussian Splatting for Large-scale and High-resolution Rendering Guofeng Feng et al. (University of Chinese Academy of Sciences et al.) CUDA実装の最適化により3DGSにおける冗長性の排除と負荷分散を実施 画質を落とすことなく7.2倍の高速化を実現 正確かつ高速な交差判定、ガウス投影サイズに応じた動的なスレッド割り当て、 SWパイプライン導入によるレンダリングの遅延削減などを導入し 3DGS自体の近似はせずに根本的に遅延削減を実現
  • 31.
    30 CVPR2025における3DGS技術のトレンド: 編集・制御性 Structured 3DLatents for Scalable and Versatile 3D Generation Jianfeng Xiang et al. (Tsinghua University et al.) [1] https://microsoft.github.io/TRELLIS/ Blenderなどで使われるファイル形式での 出力で3DCGワークフローに適合可能 多視点画像からStructured 3D Latents (SLAT)と呼ばれるスパースなボクセルグリッドと各グリッドの 潜在特徴量を獲得し、3DGSやMeshなど各種3D表現へのデコーダーを大規模3Dモデルデータで学習 その後、Rectified flowモデルによりテキストからSLATを生成する拡散モデルを学習することで テキストから3Dモデルを生成するネットワークを実現
  • 32.
    31 3D Vision重要技術② DUSt3R登場後の進展 CVPR2024からみる Vision最先端トレンドより DUSt3Rに触発され3DVisionが活性化, CVPR2025でも注目論文が多数登場 [1] Brandon Smart et al., “Splatt3R: Zero-shot Gaussian Splatting from Uncalibrated Image Pairs,” arxiv, 2024. [2] Bardienus Duisterhof et al., “MASt3R-SfM: a Fully-Integrated Solution for Unconstrained Structure-from-Motion,” arxiv, 2024. [3] Junyi Zhang et al., “MONST3R: A Simple Approach for Estimating Geometry in the Presence of Motion,” ICLR, 2025. DUST3Rの引用数年次遷移 Splatt3R MASt3R+3DGSでPose Freeで 新視点画像を生成[1] MASt3R-SfM MASt3RをベースにSfMパイプラインを 見直し精緻な3次元復元を実現[2] MonST3R DUSt3RのPoint mapをタイムステップ ごとに推定することで動的シーンでの 4次元再構成を実現[3]
  • 33.
    32 CVPR2025におけるDUSt3R後継論文 VGGT: Visual GeometryGrounded Transformer Jianyuan Wang et al. (University of Oxford and Meta AI) 1枚から数百枚の画像を入力とし、各画像のカメラパラメータ、ポイントマップ、 デプスマップ、3D Point Trackを一括で推論するNetworkを提案 DINO特徴量にカメラトークンを追加し、Self/Cross Attentionで処理 出力はCamera Pose / Depth / Point map / Point Trackと冗長性があるが この冗長性が学習精度を高めていることをAblation Studyで検証 従来のSfMのバンドル調整やDUSt3Rの後処理が不要で Feedforward処理で算出可能なため、超高速
  • 34.
    33 CVPR2025におけるDUSt3R後継論文 MUSt3R: Multi-view Networkfor Stereo 3D Reconstruction Yohann Cabon et al. (Naver Labs Europe and EPFL) SLAMやSfMなど大規模な画像セットを用いた処理を想定し、DUSt3Rの特徴だったペアワイズ入力を廃止し、 任意のビュー数を扱える対称構造+メモリ機構の導入で計算量を抑えつつ、3次元復元を実現 Networkを単一ヘッドの構成にし、基準画像座標系のグローバルポイントマップと 各画像座標系のローカルポイントマップをそれぞれ算出 画像追加時に過去処理画像の特徴量をメモリとして保持し、クロスアテンションに活用 因果推論によりO(n)の計算量で処理が可能
  • 35.
    34 CVPR2025におけるDUSt3R後継論文 MASt3R-SLAM: Real-Time DenseSLAM with 3D Reconstruction Priors Riku Murai et al. (Imperial College London) SLAMの肝であるマッチングにおいて、MASt3Rの出力である Point map同士の角度誤差最小化によってピクセル対応関係を算出 GPU上で並列処理可能で、2msで高速に算出可能 最新のKeyframeと現在フレームの相対ポーズをMASt3Rに入力し、 そのPointmapから相対ポーズを算出 PointMap自身はSLAMがもつmapに統合され、洗練される Loop Closeが検出されたときにそのペア間でMASt3Rで検証し、妥当性を確認し、 グラフ最適化を逐次実施
  • 36.
  • 37.
    36 基盤モデル・統一モデルの実用的定義 基盤モデルとは、広範なデータで(通常は自己教師あり学習を大規模に用いて) 学習され、広範な下流タスクに適応可能なあらゆるモデル (Stanford HAI) SSLや学習済みモデルの利用に より、未ラベルのデータ活用で 大規模学習を実施 基盤モデル 学習とその結果として生じるポテンシャルで定義されるパラダイム 統一モデル 推論時の明示的な機能に よって定義されるパラダイム [1]Kaiming He et al., “Masked Autoencoders Are Scalable Vision Learners,” CVPR, 2022. [2] Wiliam Peebles et al., “Scalable Diffusion Models with Transformers,” ICCV, 2023. [3] Senqiao Yang et al., “VisionZip: Longer is Better but Not Necessary in Vision Language Models,” CVPR, 2025. [4] Shuzhe Wang et al., “DUSt3R: Geometric 3D Vision Made Easy,” CVPR, 2024. データ・アーキの大規模化により 性能向上が発現 I/F統一などで多様なタスクを 一つのモデルで実現 Backbone/Encoderとしてモデルの 一部に組み込んだ時に、 多様なタスクで高い性能を発揮 モデルのScaling則が 成立 多様なタスクで backboneとして機能 単一モデルで 多様なタスクを推論 Internet-scaleの 大規模データでの学習 [1] [2] [3] [4]
  • 38.
    37 CVPR2025における基盤モデル Molmo and PixMo:Open Weights and Open Data for State-of-the-Art Vision-Language Models Matt Deitke et al. (Allen Institute for AI et al.) GPTやGeminiなど先端のVLMの多くがクローズドモデルであり、Openモデルの多くも 学習においてそれらの合成データに依存している 完全なオープンモデルを提供するために、既存VLMを使用せずに収集した データセット”PixMo”とそれを用いて学習した”MolMoを提案” ViTとLLMをコネクタで接続する標準的な設計を踏襲 画像処理において重複マルチクロップやテキスト限定ドロップアウトなどの 工夫で精度を改善 ベンチマークにおいてOpen modelのなかではトップ、 Closed modelにおいてもGPT-4oに次ぐ2位を記録
  • 39.
    39 CVPR2025における基盤モデル FoundationStereo: Zero-Shot StereoMatching Bowen Wen et al. (NVIDIA) ステレオ深度推定において 特定ドメインへのFinetuneなしで高い汎化性能を持つ 基盤モデルFoundationStereoを提案 Omniverseで生成された100万組のステレオ画像ペアを使って 自己キュレーションしながらモデルとデータセット双方を 反復的に改良させていく Sim2Realのギャップを埋めるために、学習済みDepthAnything v2 + Side-tuning CNNの 構成で特徴量を抽出 APC Filtering + Disparity Transformerで局所・大域双方の特徴量を効率的にとらえ、 RAFTベースのGPUで反復的に視差を推定する
  • 40.
    40 CVPR2025における統一モデル Matrix3D: Large PhotogrammetryModel All-in-One Yuanxun Lu et al. (Nanjing University, Apple et al.) カメラポーズ推定やデプス推定、新視点合成など3D Vision系のタスクが 推論可能な統一モデル Matrix3Dを提案 1枚から少数枚の画像が与えられた場合、自身で 必要な枚数の視点画像やカメラポーズ、デプスを生成し、 3DGSの最適化プロセスを通じて3Dアセットを生成することが可能 各モダリティ特化のEncoderを通じてDiTベースの拡散モデルに入力 学習においては、特定のモダリティ画像全体をマスキングしながら 条件付き学習をすることで、任意の入力で所望の出力を得る
  • 41.
    World Model動向 – CVPR2025Tutorial / Workshop – CVPR2025 本会議
  • 42.
    42 動画 + 3D+ 基盤モデル → World Model 動画AI / 3D Vision / 基盤モデルの技術成熟に伴い、 実世界を理解し未来を予測する”World Model” への研究が加速 Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond https://github.com/GigaAI-research/General-World-Models-Survey World Model関連論文のarxiv投稿数四半期遷移
  • 43.
    43 World Model関連の2024~2025年の出来事 2024.2 2025.6 2024.32025.1 2024.12 2025.5 主要キー企業・キープレイヤーがそれぞれの”World Model”を提唱し始める 2025 ~ 2026に向けて更なる競争激化が予想される 2024.9 OpenAI Sora 動画生成 = World Sim. と位置づけてリリース Google DeepMind 動画からプレイ可能な2D世界を 生成する“Genie”を発表 Yann LeCun JEPAアーキテクチャ提唱 Fei-Fei Li 空間知能開発にむけて World Labs設立 Google DeepMind Genie2を発表し 3D基盤ワールドモデルに更新 NVIDIA CESでCosmos Platformを発表 Google DeepMind Universal AI Assistant に向けた道筋を提唱 Meta AI V-JEPA2をリリース
  • 44.
    44 CVPR2025におけるWorld Model動向: Tutorial/ Workshop Tutorial: From Video Generation to World Model https://world-model-tutorial.github.io/ Workshop: WorldModelBench https://worldmodelbench.github.io/ 近年の動画生成AIの発展から物理ベース・ インタラクティブな世界モデルへの研究動向を紹介 WorldScoreなど世界モデルに向けたBenchmarkや 世界モデル研究について議論 CVPRとしては初めてのWorld Model関連のtutorial / workshopが開催される
  • 45.
    45 CVPR2025におけるWorld Model動向: 本会議 NavigationWorld Models Amir Bar et al. (Meta et al.) 過去の画像とナビゲーション行動に基づき未来の画像を予測する 制御可能な動画生成モデルNWMを提案 NWMをWorld modelとして利用することで、柔軟な計画方法を実証 画像生成において、過去画像や行動を条件付けする Conditional DiT (CDiT)を提案 過去画像を単純に入力トークンに加える方式に比べて 高効率で高精度な画像生成が可能
  • 46.
    46 CVPR2025におけるWorld Model動向: 本会議 DriveDreamer4D:World Models Are Effective Data Machines for 4D Driving Scene Representation Guosheng Zhao et al. (Chinese Academy of Sciences et al.) 自動運転のための多様な軌道のシミュレーション映像の生成が不可欠だが 既存の4DGSではオリジナルが直線映像が多く、生成映像に破綻が発生 同一時刻の別の地点での画像をWorld Modelで生成し、それを 4DGSの学習に加えることで、多様な軌道・視点の映像が破綻なく生成可能 (上段) オリジナルの軌道をもとに多様な軌道を生成し安全性を検証 1st Frameと3D BBox, HDMapで条件付けされた拡散モデルで任意視点の画像を生成 (下段) 4DGSの学習において、オリジナル画像に加えて同時刻のWorld Model画像も一緒に 学習することで、軌道や視点変更での映像品質を向上させる
  • 47.
    47 • 動画AI動向 – OpenAISora / DiTの登場で多くの研究者が動画分野に参入 – 生成:長尺動画生成・インタラクション・編集性向上 – 理解:長尺動画理解・動画処理の効率化・ベンチマーク整備 – 4D Vision:4Dコンテンツ生成・4Dセンシング • 3D Vision動向 – 3DGS:基本アルゴリズム・効率化と圧縮・編集と制御性 – DUSt3R後の進展:VGGTをはじめ注目度の高い論文が登場 • 基盤モデル・統一モデル動向 – Open vs. Closedの競争、各種モーダル向けの基盤モデルの研究 • World Model動向 – 動画 + 3D + 基盤モデル → World Model まとめ