[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models

1
Transframer: Arbitrary Frame Prediction with
Generative Models
Naruya Kondo (Digital Nature Group M2)

書誌情報
2
● Transframer: Arbitrary Frame Prediction with Generative Models
○ Arxiv (Submitted on 2022 3/18), ECCV 2022?
○ 著者：DeepMind
■ Charlie Nash, João Carreira, Jacob Walker, Iain Barr, Andrew Jaegle, Mateusz Malinowski, Peter Battaglia
○ プロジェクトページ
● ひとことで言うと
○ 映像予測のSoTA(レベル)
○ novel view synthesis、optical flow、classification、detection、segmentation、
video interpolation、depth estimation、長期(30秒)の予測もできる
○ 「マルチタスクなコンピュータービジョンモデルの実現に役立つだろう」
○ (DCTransformer (ICML 2021, DeepMind) が良い)

背景
3
Visionタスクは基本的に、
「コンテクストが与えられ、ターゲットを予測」
幅広いVisionタスクに使えるモデルが作りたい
⇨ 全てを自己回帰で解く
少し似たモチベーションに NÜWA (microsoft) がある
けど、NUWAは事前学習モデルで、transframerは
データが与えられてタスクを解くという普通の問題設
定
> NÜWA is a unified multimodal pre-trained model that can
generate new or manipulate existing visual data (i.e., images and
videos) for 8 visual synthesis tasks (as shown above).

前提知識：DCTransformer
4
• 画像生成、着色、高解像度化、画像補間などができる自己回帰モデル
• VQ-VAEより幅広く使える(?)

DCT image representation
5
1. 画像をRGB->YUVに変換 (輝Y度+青との差分+赤との差分)
2. 8x8のパッチで分割 (パッチサイズB)
3. 2Dの離散コサイン変換 (今回は8x8の基底)
4. 各基底の係数を一列 (64チャンネル) に並べる
5. 全パッチ分合わせて、H/B, W/B, 3B**2 のDCT-Imageにする
● “離散コサイン変換とは、離散フーリエ
変換を実部のみで行う方法を応用し
て、効率的に離散フーリエ変換を行う
ための方法のことです。”
● UとVの色は情報量少ないので、2x2
のダウンサンプリングする
● 係数は種は数の低い基底から順にジ
グザグにとる (zigzag glatten)
基底 (10x10の場合)

DCT image representation
6
6. DCT-imageを、係数0付近は消して、チャンネルの最初から、ピクセル位置の最初から
順に、d=(channel, position, value) × L の系列データ (DCT sequence)に
変換する
7. 頭からL’個のdを使って、図gみたいに復元できる
● Lは、画像の情報量や保存したい
情報量によって変動
● チャンネルの順番は、基本ジグザグだ
けどYUVをたまに混ぜる。
Yをn1 ch⇨Uをn1 ch⇨Vをn1ch⇨Yをn2
ch⇨Uをn2 ch⇨Vをn2ch⇨ という感じ
(なのでチャンネルのグラフがガタガタ
してる)
● ピクセル位置の順番は
ラスタースキャン

DCTransformer
7
• 途中までのDCT sequenceを入力に、
残りのDCT sequenceを予測
• 目的関数
• ① 次に注目するチャンネルはどれか(基本単調増加?)
• ② 次に注目する場所はどこか(基本単調増加?)
• ③ そのチャンネル、その場所の値は？
• 目的関数はTransframerでも変わらない

• DCTransformerのエンコーダーだけ拡張
– 複数の画像で条件付けができるように
提案手法：Transframer
8

1. DCT-imageを入力にするMulti-Frame U-Netで、見えない部分も含めてピクセル(パッ
チ)レベルのembeddingを得る
2. 見えない部分のDCT-sequence (channel, position, value) を、U-Netの出力にcross
attentionしながら逐次的に当てていく
9
逐次的に当てていく方法

10
• 画像単位でNF-Block + フレーム間の
self-attentionに通して次の解像度へ
• NF-ResNet
– SE-ResNeXt-D (?) + Adaptive Gradient
Clipping (AGC)
– 学習時間が8.7倍高速
• 複数解像度でU-Net blockを用いて
encode、真逆のモデルでdecode
UNet encoderの、ある解像度から次の
解像度への1ブロック

(工夫) Residual DCT representations
11
• DCT-imageの差分のみに注目することで、学習効率が向上
– (特に背景固定のデータセット)

実験 @video modeling
12
2020
2021
2019
2021
2020
● FitVid: Overfitting in Pixel-Level
Video Prediction (2021)
● ViTは、vision transformerで
Video Transformerとは違う
● 「BAIRはあんま良いデータセット
じゃないよね、テストデータ少な
いし」

実験 @novel view synthesis
14
• Transframerはすべてのシーンを１つのモデルで学習 (NeRFと違う)
• PSNR・SSIMは負け、LPIPS・FIDは勝ち
– 正確な角度は当てられないけど、データセットらしい画像を出力できる

実験 @novel view synthesis
15
● Pixel NeRF (CVPR 2021) よりかなりきれい
● コンテクストは2枚で割とそれっぽい (1枚では、椅子の足のクロスが消えたり)
○ (記憶している物体に影響された物を出力してしまうことはあるっぽい)

実験 @others
17
● 1024クラス分類は、白
い点の位置(32x32に
256x256の画像を分
割)で出力
● 長期予測(30秒750フ
レーム)では、1fpsで生
成した後に補完

まとめと感想
18
• 映像予測のSoTA(レベル)
• novel view synthesis、optical flow、classification、detection、segmentation、video
interpolation、depth estimation、長期(30秒)の予測もできる
• 「マルチタスクなコンピュータービジョンモデルの実現に役立つだろう」
• (DCTransformer (周波数領域への変換) の良さは雰囲気でしかわからず...)
– 並進とかに強くなる?

[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models

More Related Content

What's hot (20)

Similar to [DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models (20)

More from Deep Learning JP (20)

Recently uploaded (8)

[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models