Unboxed:
Geometrically and Temporally Consistent
Video Outpainting
村川卓也(名工大玉木研)
2025/7/10
Zhongrui Yu, Martina Megaro-Boldini,
Robert W. Sumner, Abdelaziz Djelouah
CVPR2025
Video outpainting
◼時空間的一貫性を保ちながら動画像のフレーム外を拡張する手法
◼画像のoutpaintingと比較して計算コストが大幅に増加
概要
◼従来手法のvideo outpainting
• 生成領域の物体生成に弱い
• 物体の重複,形状が不安定,消失
• 高解像度化への制約
• 生成時間とVRAM使用量の増加
◼提案手法
• 3段階の生成
• 時間的一貫性の改善
• 最大VRAM使用量の低下
入力動画(左)と提案手法とMOTIA [Wang+, ECCV2024]の比較
◼Dehan [Dehan+, CVPR2022]
• オプティカルフローを用いた背景の生成に特化
• 視点の動きが激しい動画や動く物体の生成が困難
◼M3DDM [Fan+, ACM MM2023]
• Diffusionと3D U-Netを用いたvideo outpainting
• 動画全体から抽出したフレームによる時間的一貫性の
改善
• フレーム外情報が少ない動画の生成が困難
◼MOTIA [Wang+, ECCV2024]
• 生成前に入力動画でファインチューニングを行い,
学習動画と異なるドメインの動画の生成に対応
• 他手法と比較して生成時間とVRAM使用量が大幅に増加
• 動的オブジェクトが重複して出現することがある
関連研究
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成
1. 背景等の静的領域の生成と3D Gaussian Splattingの更新
2. 動的オブジェクトのinpainting
3. Diffusionを用いた生成品質の改善
3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成
1. 背景等の静的領域の生成と3D Gaussian Splattingの更新
2. 動的オブジェクトのinpainting
3. Diffusionを用いた生成品質の改善
3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成
1. 背景等の静的領域の生成と3D Gaussian Splattingの更新
2. 動的オブジェクトのinpainting
3. Diffusionを用いた生成品質の改善
3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成
1. 背景等の静的領域の生成と3D Gaussian Splattingの更新
2. 動的オブジェクトのinpainting
3. Diffusionを用いた生成品質の改善
3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成
1. 背景等の静的領域の生成と3D Gaussian Splattingの更新
2. 動的オブジェクトのinpainting
3. Diffusionを用いた生成品質の改善
3段階生成の概要
◼3D Gaussian Splatting
• 3Dガウス分布を使用して2次元の
入力動画の3次元復元を行う
3D Gaussian SplattingとInpainting
◼Inpainting
• フレーム内のマスク部分や欠損部分
を生成
[Suvorov+, arXiv2021]
[Kerbl+, arXiv2023]
◼動的オブジェクトをマスク
1. SAM2 [Ravi+, arXiv2024]でセグメンテーション
2. エピポーラ誤差で動的オブジェクトのセグメント
を判別してマスク
◼3D Gaussian Splatting (GS) [Kerbl+,
SIGGRAPH 2024]で3次元再構成
前処理
◼静的領域の生成と3D GSの更新
1. Stable Diffusion XL [Podell, arXiv2023]でフレーム外
をimage outpainting
2. 画像再構成損失(L1, SSIM)と深度損失
[Piccinelli+, CVPR2024]を最適化
3. 生成領域を3D GSモデルに反映
生成1:静的領域の生成
◼動的オブジェクトのinpainting
• 前処理の段階でSAM2によって検出した動的オブジェクトを補完
• 2Dトラッキングのbboxで生成領域を指定
• 入力フレームの動的オブジェクトにマスクをして生成することでSDXLをファイ
ンチューニング
生成2:動的オブジェクトの生成
◼改善点
• 静的領域:現実のわずかな動き(葉っぱの動き等)
• 動的オブジェクト:生成2の時点で時間的一貫性に欠ける
◼Diffusionを用いた生成品質の改善
• 各フレームに少量のノイズを付与
• 静的領域/動的オブジェクトで異なる
更新量を与えるマスクでノイズ除去
• 静的領域:小さな変化
• 動的オブジェクト:大きな変化
生成3:Diffusionを用いた生成品質の改善
◼データセット
• DAVIS [Perazzi+, CVPR2016]
• YouTube-VOS [Xu+, arXiv2018]
◼実験方法
• 各動画の左右25%, 66%をマスク
• 25%, 66%で得られた値を平均
実験設定
◼評価指標
• PSNR↑
• 生成後の画像の類似度
• SSIM↑
• 生成後の構造的な見た目の類似度
• LPIPS↓ [Zhang+, CVPR2018]
• 視覚的類似度
• FVD↓ [Unterthiner+, arXiv2018]
• 生成動画と入力動画の特徴分布の距離
• Ewarp↓ [Lai+, ECCV2018]
• ワープ誤差による時間的一貫性の定量
化
◼従来手法
• 生成失敗,ぼやけた生成
• 元フレームと生成領域の境界が
不自然
• 生成領域の物体の形状が不安定
◼提案手法
• 元フレームと生成領域の一貫性
の向上
• 物体の自然な生成
定性的比較1
◼難易度の高い動画で比較
• 物体が複数出現
• 複雑な背景
定性的比較2
◼従来手法
• ぼやけた生成
• 物体の消失や重複
• 元フレームと生成領域の境界
が不自然
◼提案手法
• 複数物体の生成に対応
• 自然な背景の生成
◼従来手法と比較して大幅に改善
• DAVISデータセットのLPIPS以外の全ての指標で最も良い値を記録
• DAVISデータセットのLPIPSはMOTIAを実行して得られた値よりも改善
定量的比較
◼定性的比較
• フルパイプラインが静的・動的
領域の両方で時間的一貫性が保
たれている
◼定量的比較
• フルパイプラインが全ての評価
指標で最高値を記録
Ablation study
◼投票による主観評価
• 37名, 619票のアンケートにより生成品質を主観的に評価
• 評価項目
• 現実感
• 時間的一貫性
• 全体的な視覚品質(色再現性,境界の滑らかさ,ぼけ具合など)
• 全ての項目で提案手法は80%以上の票を獲得
User study
◼従来手法と比較して最大VRAM使用量が減少
• 生成領域が拡大してもVRAM使用量が変わらない
◼生成時間は増加
生成時間と最大VRAM使用量
OOM (Out of Memory)
40GB V100 GPU x1を使用
◼3段階の生成
1. 背景等の静的領域の生成と3D Gaussian Splattingの更新
2. 動的オブジェクトのinpainting
3. Diffusionを用いた生成品質の改善
◼従来手法との比較
• 動的オブジェクトの時間的一貫性を改善
• 全ての評価指標で高い値
• 投票の主観的評価で80%以上の票を獲得
• 最大VRAM使用量が最も少ない
• 高解像度の生成でも使用量が不変
• 生成時間は増加
まとめ

論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting