SlideShare a Scribd company logo
1
Transframer: Arbitrary Frame Prediction with
Generative Models
Naruya Kondo (Digital Nature Group M2)
書誌情報
2
● Transframer: Arbitrary Frame Prediction with Generative Models
○ Arxiv (Submitted on 2022 3/18), ECCV 2022?
○ 著者:DeepMind
■ Charlie Nash, João Carreira, Jacob Walker, Iain Barr, Andrew Jaegle, Mateusz Malinowski, Peter Battaglia
○ プロジェクトページ
● ひとことで言うと
○ 映像予測のSoTA(レベル)
○ novel view synthesis、optical flow、classification、detection、segmentation、
video interpolation、depth estimation、長期(30秒)の予測もできる
○ 「マルチタスクなコンピュータービジョンモデルの実現に役立つだろう」
○ (DCTransformer (ICML 2021, DeepMind) が良い)
背景
3
Visionタスクは基本的に、
「コンテクストが与えられ、ターゲットを予測」
幅広いVisionタスクに使えるモデルが作りたい
⇨ 全てを自己回帰で解く
少し似たモチベーションに NÜWA (microsoft) がある
けど、NUWAは事前学習モデルで、transframerは
データが与えられてタスクを解くという普通の問題設
定
> NÜWA is a unified multimodal pre-trained model that can
generate new or manipulate existing visual data (i.e., images and
videos) for 8 visual synthesis tasks (as shown above).
前提知識:DCTransformer
4
• 画像生成、着色、高解像度化、画像補間などができる自己回帰モデル
• VQ-VAEより幅広く使える(?)
DCT image representation
5
1. 画像をRGB->YUVに変換 (輝Y度+青との差分+赤との差分)
2. 8x8のパッチで分割 (パッチサイズB)
3. 2Dの離散コサイン変換 (今回は8x8の基底)
4. 各基底の係数を一列 (64チャンネル) に並べる
5. 全パッチ分合わせて、H/B, W/B, 3B**2 のDCT-Imageにする
● “離散コサイン変換とは、離散フーリエ
変換を実部のみで行う方法を応用し
て、効率的に離散フーリエ変換を行う
ための方法のことです。”
● UとVの色は情報量少ないので、2x2
のダウンサンプリングする
● 係数は種は数の低い基底から順にジ
グザグにとる (zigzag glatten)
基底 (10x10の場合)
DCT image representation
6
6. DCT-imageを、係数0付近は消して、チャンネルの最初から、ピクセル位置の最初から
順に、d=(channel, position, value) × L の系列データ (DCT sequence)に
変換する
7. 頭からL’個のdを使って、図gみたいに復元できる
● Lは、画像の情報量や保存したい
情報量によって変動
● チャンネルの順番は、基本ジグザグだ
けどYUVをたまに混ぜる。
Yをn1 ch⇨Uをn1 ch⇨Vをn1ch⇨Yをn2
ch⇨Uをn2 ch⇨Vをn2ch⇨ という感じ
(なのでチャンネルのグラフがガタガタ
してる)
● ピクセル位置の順番は
ラスタースキャン
DCTransformer
7
• 途中までのDCT sequenceを入力に、
残りのDCT sequenceを予測
• 目的関数
• ① 次に注目するチャンネルはどれか(基本単調増加?)
• ② 次に注目する場所はどこか(基本単調増加?)
• ③ そのチャンネル、その場所の値は?
• 目的関数はTransframerでも変わらない
• DCTransformerのエンコーダーだけ拡張
– 複数の画像で条件付けができるように
提案手法:Transframer
8
1. DCT-imageを入力にするMulti-Frame U-Netで、見えない部分も含めてピクセル(パッ
チ)レベルのembeddingを得る
2. 見えない部分のDCT-sequence (channel, position, value) を、U-Netの出力にcross
attentionしながら逐次的に当てていく
提案手法:Transframer
9
逐次的に当てていく方法
提案手法:Transframer
10
• 画像単位でNF-Block + フレーム間の
self-attentionに通して次の解像度へ
• NF-ResNet
– SE-ResNeXt-D (?) + Adaptive Gradient
Clipping (AGC)
– 学習時間が8.7倍高速
• 複数解像度でU-Net blockを用いて
encode、真逆のモデルでdecode
UNet encoderの、ある解像度から次の
解像度への1ブロック
(工夫) Residual DCT representations
11
• DCT-imageの差分のみに注目することで、学習効率が向上
– (特に背景固定のデータセット)
実験 @video modeling
12
2020
2021
2019
2021
2020
● FitVid: Overfitting in Pixel-Level
Video Prediction (2021)
● ViTは、vision transformerで
Video Transformerとは違う
● 「BAIRはあんま良いデータセット
じゃないよね、テストデータ少な
いし」
13
実験 @novel view synthesis
14
• Transframerはすべてのシーンを1つのモデルで学習 (NeRFと違う)
• PSNR・SSIMは負け、LPIPS・FIDは勝ち
– 正確な角度は当てられないけど、データセットらしい画像を出力できる
実験 @novel view synthesis
15
● Pixel NeRF (CVPR 2021) よりかなりきれい
● コンテクストは2枚で割とそれっぽい (1枚では、椅子の足のクロスが消えたり)
○ (記憶している物体に影響された物を出力してしまうことはあるっぽい)
16
実験 @others
17
● 1024クラス分類は、白
い点の位置(32x32に
256x256の画像を分
割)で出力
● 長期予測(30秒750フ
レーム)では、1fpsで生
成した後に補完
まとめと感想
18
• 映像予測のSoTA(レベル)
• novel view synthesis、optical flow、classification、detection、segmentation、video
interpolation、depth estimation、長期(30秒)の予測もできる
• 「マルチタスクなコンピュータービジョンモデルの実現に役立つだろう」
• (DCTransformer (周波数領域への変換) の良さは雰囲気でしかわからず...)
– 並進とかに強くなる?

More Related Content

What's hot (20)

PDF
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
 
PPTX
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
PDF
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
PDF
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
PDF
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
 
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
 
PDF
PRML学習者から入る深層生成モデル入門
tmtm otm
 
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
 
PDF
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
 
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
 
PDF
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII
 
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
 
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
 
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
PPTX
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
Deep Learning JP
 
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida
 
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
 
PDF
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
 
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
 
PRML学習者から入る深層生成モデル入門
tmtm otm
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
 
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
Deep Learning JP
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
 
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 

Similar to [DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models (20)

PDF
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
Sony - Neural Network Libraries
 
PDF
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
Shintaro Yoshida
 
PDF
Deep learningの概要とドメインモデルの変遷
Taiga Nomi
 
PDF
Geotag Data Mining (メタサーベイ )
cvpaper. challenge
 
PDF
Bjarne dont speaking
Akira Takahashi
 
PDF
【DL輪読会】Novel View Synthesis with Diffusion Models
Deep Learning JP
 
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
 
PDF
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
 
PDF
A gang of bandit
Yoshifumi Seki
 
PDF
先端技術とメディア表現 第4回レポートまとめ
Digital Nature Group
 
PDF
2012-03-08 MSS研究会
Kimikazu Kato
 
PPTX
cvsaisentan20141004 kanezaki
kanejaki
 
PDF
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmenta...
Deep Learning JP
 
PPTX
3Dリッチコンテンツビジネス活用のご提案ver3.1
ITDORAKU
 
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
PDF
【CVPR 2020 メタサーベイ】Neural Generative Models
cvpaper. challenge
 
PDF
semantic segmentation サーベイ
yohei okawa
 
PPT
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki
 
PDF
(2022年3月版)深層学習によるImage Classificaitonの発展
Takumi Ohkuma
 
PPTX
3Dリッチコンテンツビジネス活用のご提案ver3.1
CRI Japan, Inc.
 
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
Sony - Neural Network Libraries
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
Shintaro Yoshida
 
Deep learningの概要とドメインモデルの変遷
Taiga Nomi
 
Geotag Data Mining (メタサーベイ )
cvpaper. challenge
 
Bjarne dont speaking
Akira Takahashi
 
【DL輪読会】Novel View Synthesis with Diffusion Models
Deep Learning JP
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
 
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
 
A gang of bandit
Yoshifumi Seki
 
先端技術とメディア表現 第4回レポートまとめ
Digital Nature Group
 
2012-03-08 MSS研究会
Kimikazu Kato
 
cvsaisentan20141004 kanezaki
kanejaki
 
【DL輪読会】“PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmenta...
Deep Learning JP
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
ITDORAKU
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
【CVPR 2020 メタサーベイ】Neural Generative Models
cvpaper. challenge
 
semantic segmentation サーベイ
yohei okawa
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki
 
(2022年3月版)深層学習によるImage Classificaitonの発展
Takumi Ohkuma
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
CRI Japan, Inc.
 
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
Ad

Recently uploaded (8)

PDF
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
PDF
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
PDF
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
PDF
20250711_日本IBM ミドルウエア・ユーザー研究会(JIMUC)総会_中村会長資料.pdf
ChikakoInami1
 
PDF
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
PDF
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
PDF
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
NTT DATA Technology & Innovation
 
PDF
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
20250711_日本IBM ミドルウエア・ユーザー研究会(JIMUC)総会_中村会長資料.pdf
ChikakoInami1
 
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
NTT DATA Technology & Innovation
 
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 

[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models