SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
MoCoGAN: Decomposing Motion and Content forVideo
Generation
Kei Akuzawa, Matsuo Lab M1
書誌情報
• arxiv 2017/07
• authers: Sergey Tulyakov, Ming-Yu Liu, Xiaodong Yang, Jan
Kautz
• 選定理由:
– 生成された動画が既存研究に比べて圧倒的に本物らしい
– アイデアがエレガント
– 偶然実装中だったので(アニメの中割り自動化したい)
2
3
MoCoGAN
https://github.com/sergeytulyakov/mocogan
VGAN
http://carlvondrick.com/tinyvideo/
Abstract
• 動画はMotionとContentにわけて考えることができる
• GeneratorへのInput noiseをMotion partとContent partにわける
(独自性)
• 結果として、生成される動画が綺麗になり、またContentを固定し
てMotionだけを変更するような操作が可能になった
4
Introduction
• ビデオの生成が画像の生成より難しいと考えられる要因:
– (2次元の)見た目だけでなく、(3次元の)物理構造を学習しなければなら
ない
– 時間が生み出すmotionのvariationが多い。例えばスクワットにしてもゆっ
くりやるのと早くやるのでは違う
– 人間の目はmotionに対してsensitiveである
• "時間(motion)"をどのようにしてモデルに取り入れるかが鍵
5
Related work
• The future frame prediction problem系:
– 過去のframeで条件付けて未来のframeを予測する
– この中でさらに2系統に分かれる
• 過去のframeから生のpixelを予想
– Decomposing Motion and Content for Natural Video Sequence Prediction (ICLR2017) など
• 過去のframeのpixelをreshuffleして未来のframeを構成
– Unsupervised Learning for Physical Interaction through Video Prediction (NIPS2016) など
• GAN系:
– Generating Videos with Scene Dynamics (NIPS2016)
– Temporal Generative Adversarial Nets with Singular Value Clipping (ICCV2017)
• 時間をモデル化するために、それぞれの論文が色々やっている
6
Decomposing Motion and Content for Natural Video Sequence Prediction
[Villegas 2017] (MCnet)
• MoCoGANと手法は全く違うが、motionと
contentを分離するというアイデアは共通
• t期以前の画像からt+1期の画像を予測
– x_tをcontentと捉える
– x_t - x_{t-1} をmotionと捉える
• デモ↓
– https://sites.google.com/a/umich.edu/rube
nevillegas/iclr2017
7
Unsupervised Learning for Physical Interaction through Video Prediction
[Finn 2016]
• 過去のframeのpixelをかき混ぜて新しいframeを作る
• 画像をConvolutional LSTMで畳み込んでフィルターを作り、そのフィル
ターを元画像にあててpixelを再構築(理解浅いです)
8
Generating Videos with Scene Dynamics
[Vondrick 2016] (VGAN)
• 動画をforeground(動く)とbackground
(動かない)に分割
– 「backgroundを固定」は強い仮定(カメラの手
ブレなど)
• 同一のnoiseからdeconvでそれらを生成
し、加重平均をとる
• 画像で条件付けてfuture predictionさせ
ることも可能
• 個人的見解
– 左下図を見るにforegroundの生成が上手く
いっていない。contentとmotionを同一の
noiseで扱うことによりモデルの複雑性が増し
ている?
– 画像作ってから足し合わせるのはよくないん
じゃないか(ズレに敏感そう)
9
Temporal Generative Adversarial Nets with Singular Value Clipping
[M.Saito, Matsumoto, S.Saito 2017] (Temporal GAN)
• 3Dの畳み込みを批判(時間と空間
の特性の違いを考慮すべき)
– ビデオ認識の研究でもこの指摘があるらしい
– しかし今回Discriminatorは3Dの畳み込みを利用、
Generatorのみ特別仕様
• temporal generatorがframe数だけ
latent variableを生成し、それを元
にimage generatorが個々の画像を
生成
• 生成した2枚の画像間の中間画像
も容易に生成できる
• WGANを改良(Singular Value
Clipping)して学習を安定化
10
Proposed Model: Abstract
• VGANとTemporalGANに対する批判
– ビデオを潜在空間上の1点と対応させるのはやりすぎ
• 同じactionを異なる速さで行うとき、それらが潜在空間上で異なるpointにmappingされてし
まう
• 生成するビデオが固定長になってしまう
• 提案手法
– 潜在空間上の1点から画像を生成、それらをつなげて動画にする
– 潜在空間をmotion subspaceとcontent subspaceにわける
• content variableは動画内で固定
• motion variableは動画内で(系列的に)変化
– 結果
• 同じactionを異なる速さで行うときはmotion variabeの変化速度を変えることで対応できる
• 任意の長さのビデオを生成できる
11
Proposed Model: Architecture
12
Generator
- 潜在変数zはcontent(z_C)とmotion(z_M)の結合
- z_Cは一つの動画内で固定
- z_MはGRUによって生成される
- それぞれのz^k から一枚画像を生成 (2DのCNN)
Discriminator
- D_Iは画像を見分ける (2DのCNN)
- D_Vはビデオを見分ける (3DのCNN)
- 先行研究(VGAN,TemporalGAN)ではD_Vのみ。
画像の本物っぽさをD_Iに任せることで、D_Vは
Dynamicsの本物っぽさに注力できる
Proposed Model: Training
• LossはD_VとD_Iについて和をとる
• one sided label smoothing trick [Salimans
2016], [Szegedy 2015]
• 可変長のvideoを生み出す工夫
– video lengthの経験分布を作る
– 分布からvideo lengthをサンプリング
– 生成した可変長の動画から、決まった長さ
を切り取りD_Vに渡す
• D_Vは3DのCNNなので固定長しか受け取れな
いことに注意
13
loss function
Update
補足: One sided label smoothing trick [Salimans 2016], [Szegedy 2015]
• 予測されたラベルD(x)の値が極端な値をとると、過学習を起こしやすく好ましくない。
• Generatorを固定した元での最適なDiscriminatorを以下のようにしてsmoothing
• ただし、分子にp_{model}があると問題
– p_{data]が0に近い場所で、p_{model}が高い確率を割り当てると、Discriminatorをうまく騙せていることになるので、Generatorが
移動するインセンティブを削る
• 結局以下のようにする
14
Proposed Model: Action Conditioned
• text-to-image[Reed 2016]を参考に、actionで条件付けられるようにモデルを拡張できる
– ラベルを埋め込んだもの(z_A)をInput noiseと結合する?(想像)
• actionはmotionとcontentの両方に影響すると考えられる(後述)
– 例: バスケとホッケーじゃユニフォームが違う
• Discriminatorは、真偽とaction labelを同時に見分ける
– Auxiliary classifier GAN[odena 2016] ??
– Improved Techniques for Training GANs [Salimans 2016] ??
15
補足: GANの条件付け
図はSricharan 2017 ( https://arxiv.org/abs/1708.05789 )より
16
• DはlabelをInputとして受け取る • Dはlabelを予測する
• Auxiliary classifier GAN [odena 2016] : Dは真偽とラベルのそれ
ぞれを出力する。
• Improved Techniques for Training GANs [Salimans 2016]:(ラベル
+fake)のK+1次元を出力させる
Experiments: Datasets and Metrics
• Datasets
– synthetic, facial expression, Tai Chi(太極拳), human action
• Performance Metrics
1. Average Content Distance: 一つの動画内でcontentが一貫してほしい
• 普通は色の一貫性を調べる
• 表情の場合はOpenFaceで特徴量抽出し、人物の一貫性を調べる
2. Motion Control Score: Action Conditionedできているかどうか(訓練済みの
action classifierで調べる)
3. Content Control Score: action labelとmotion variableを固定し、content
variableだけを変化させた時に、contentが変化してほしい
17
Experiments: Comparison with VGAN
• VGANとMoCoGANの比較
• ACD: 動画内でのcontentの一貫
度合いを測る
– 色の一貫度合い
– open faceで抽出した顔面特徴量
の一貫度合い
• 二つのデータセットでVGANを上
回る
18
Experiments: various MoCoGAN settings
• モデル構造の検証
– DiscriminatorをD_Vだけにする
– action labelの組み込み方
• どちらか選ぶ
• 結果:
– D_Iも使ったほうが良さそう
– 𝜖′ = [𝜖, 𝑧 𝐴] が良さそう
19
• において、zの次元を60に固定し、z_Mとz_C
の次元をいろいろ動かしてみる
• z_Mの次元を大きくしたらMCSがあがると予想できるが、実際は
MCSが下がった。z_Cの次元が低すぎると、そもそも顔の生成がう
まくできないので、表情認識もうまくいかない。
Experiments:
Motion and Content Subspace Dimensions
20
Experiments: User Study
21
圧倒的ッ…!!
Conclusion
• Generatorのlatent spaceをcontentとmotionに分割
• motion latent variableはRNNで生成
• 従来手法に比べて精度も良いし、motionとcontentの片方だけを
操作することもできるようになった。
22
感想
• 時間のモデル化に色んな研究が苦心していてる
• 潜在空間でmotionとcontentを分離するのが、VGANと比べてエレ
ガント
References
• Sergey Tulyakov. Ming-Yu Liu. Xiaodong Yang. Jan Kautz. MoCoGAN: Decomposing Motion and Content for
Video Generation, arXiv preprint arXiv:1707.04993, 2017.
• R. Villegas, J. Yang, S. Hong, X. Lin, and H. Lee. Decomposing motion and content for natural video sequence
prediction. In International Conference on Learning Representation, 2017.
• C. Finn, I. Goodfellow, and S. Levine. Unsupervised learning for physical interaction through video prediction. In
Advances In Neural Information Processing Systems, 2016.
• C. Vondrick, H. Pirsiavash, and A. Torralba. Generating videos with scene dynamics. In Advances In Neural
Information Processing Systems, 2016.
• M.Saito. E.Matsumoto. S.Saito, Temporal Generative Adversarial Nets with Singular Value Clipping, in ICCV,
2017.
• S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee. Generative adversarial text to image
synthesis. In International Conference on Machine Learning, 2016
• Augustus Odena, Christopher Olah, and Jonathon Shlens. Conditional image synthesis with auxiliary classifier
gans. arXiv preprint arXiv:1610.09585, 2016.
• T.Salimans,I.Goodfellow,W.Zaremba,V.Cheung,A.Radford, and X. Chen. Improved techniques for training gans. In
Advances in Neural Information Processing Systems, 2016.
• C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the Inception Architecture for
Computer Vision. ArXiv e-prints, December 2015.
• Kumar Sricharan. Raja Bala. Matthew Shreve. Hui Ding. Kumar Saketh. Jin Sun. Semi-supervised Conditional
GANs, arXiv preprint arXiv:1708.05789, 2017.
• 特に明記がない限り、画像はスライドで引用中の論文より 23

More Related Content

PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
PDF
実装レベルで学ぶVQVAE
ぱんいち すみもと
 
PPTX
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
 
PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
 
PDF
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
 
PDF
Deep Learningによる超解像の進歩
Hiroto Honda
 
PPTX
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
 
PDF
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
実装レベルで学ぶVQVAE
ぱんいち すみもと
 
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
 
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
 
Deep Learningによる超解像の進歩
Hiroto Honda
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
 
ドメイン適応の原理と応用
Yoshitaka Ushiku
 

What's hot (20)

PDF
【メタサーベイ】Neural Fields
cvpaper. challenge
 
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
PPTX
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
 
PDF
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
Deep Learning JP
 
PDF
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
 
PPTX
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
PDF
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
Deep Learning JP
 
PPTX
【DL輪読会】HexPlaneとK-Planes
Deep Learning JP
 
PDF
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
Deep Learning JP
 
PDF
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
Deep Learning JP
 
PDF
敵対的生成ネットワーク(GAN)
cvpaper. challenge
 
PDF
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
Deep Learning JP
 
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
PDF
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
PDF
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
 
PDF
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
 
PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
 
PPTX
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
 
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
PPTX
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
 
【メタサーベイ】Neural Fields
cvpaper. challenge
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
Deep Learning JP
 
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
 
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
Deep Learning JP
 
【DL輪読会】HexPlaneとK-Planes
Deep Learning JP
 
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
Deep Learning JP
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
Deep Learning JP
 
敵対的生成ネットワーク(GAN)
cvpaper. challenge
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
Deep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
 
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
 

Viewers also liked (19)

PPTX
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
 
PPTX
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
Yusuke Iwasawa
 
PPT
Deep Learningの技術と未来
Seiya Tokui
 
PDF
[DLHacks] DLHacks説明資料
Deep Learning JP
 
PDF
Dots deep learning部_20161221
陽平 山口
 
PPTX
ニューラルネットワークの仕組みを学ぶ 20170623
Hiroki Takahashi
 
PDF
Atlassian Japan Forum 2017 The Information Ageの現実 なぜ組織が構造改革を進めなければならないのか
アトラシアン株式会社
 
PPTX
古典的ゲームAIを用いたAlphaGo解説
suckgeun lee
 
PPTX
【LT版】Elixir入門「第7回:Python/KerasをElixirから繋いでアレコレする」
fukuoka.ex
 
PPTX
【macOSにも対応】AI入門「第3回:数学が苦手でも作って使えるKerasディープラーニング」
fukuoka.ex
 
PPTX
【2017年】ディープラーニングのフレームワーク比較
Ryota Suzuki
 
PPT
AlphaGo Zero 解説
suckgeun lee
 
PDF
Kerasで深層学習を実践する
Kazuaki Tanida
 
PDF
Pycon2017
Yuta Kashino
 
PDF
深層学習時代の自然言語処理
Yuya Unno
 
PDF
Tokyo webmining 2017-10-28
Kimikazu Kato
 
PDF
論文紹介 Semi-supervised Learning with Deep Generative Models
Seiya Tokui
 
PDF
Pythonを使った機械学習の学習
Kimikazu Kato
 
PPTX
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017
Carol Smith
 
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
 
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
Yusuke Iwasawa
 
Deep Learningの技術と未来
Seiya Tokui
 
[DLHacks] DLHacks説明資料
Deep Learning JP
 
Dots deep learning部_20161221
陽平 山口
 
ニューラルネットワークの仕組みを学ぶ 20170623
Hiroki Takahashi
 
Atlassian Japan Forum 2017 The Information Ageの現実 なぜ組織が構造改革を進めなければならないのか
アトラシアン株式会社
 
古典的ゲームAIを用いたAlphaGo解説
suckgeun lee
 
【LT版】Elixir入門「第7回:Python/KerasをElixirから繋いでアレコレする」
fukuoka.ex
 
【macOSにも対応】AI入門「第3回:数学が苦手でも作って使えるKerasディープラーニング」
fukuoka.ex
 
【2017年】ディープラーニングのフレームワーク比較
Ryota Suzuki
 
AlphaGo Zero 解説
suckgeun lee
 
Kerasで深層学習を実践する
Kazuaki Tanida
 
Pycon2017
Yuta Kashino
 
深層学習時代の自然言語処理
Yuya Unno
 
Tokyo webmining 2017-10-28
Kimikazu Kato
 
論文紹介 Semi-supervised Learning with Deep Generative Models
Seiya Tokui
 
Pythonを使った機械学習の学習
Kimikazu Kato
 
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017
Carol Smith
 

Similar to [DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation (20)

PPTX
CVPR2018 参加報告(速報版)初日
Atsushi Hashimoto
 
PPTX
20190831 3 d_inaba_final
DaikiInaba
 
PDF
【メタサーベイ】Video Transformer
cvpaper. challenge
 
PDF
画像処理分野における研究事例紹介
nlab_utokyo
 
PPTX
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
Deep Learning JP
 
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
PPTX
[DL輪読会]Efficient Video Generation on Complex Datasets
Deep Learning JP
 
PDF
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII
 
PDF
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
 
PDF
文献紹介:Video Transformer Network
Toru Tamaki
 
PPTX
ECCV2018参加速報(一日目)
Atsushi Hashimoto
 
PDF
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
Toru Tamaki
 
PPTX
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
 
PPTX
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
Deep Learning JP
 
PPTX
Cvpr2018 参加報告(速報版)3日目
Atsushi Hashimoto
 
PDF
動画像理解のための深層学習アプローチ
Toru Tamaki
 
PDF
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII
 
PDF
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
 
PPTX
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
Kento Doi
 
PDF
コンピュータビジョンの研究開発状況
cvpaper. challenge
 
CVPR2018 参加報告(速報版)初日
Atsushi Hashimoto
 
20190831 3 d_inaba_final
DaikiInaba
 
【メタサーベイ】Video Transformer
cvpaper. challenge
 
画像処理分野における研究事例紹介
nlab_utokyo
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
Deep Learning JP
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
[DL輪読会]Efficient Video Generation on Complex Datasets
Deep Learning JP
 
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII
 
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
 
文献紹介:Video Transformer Network
Toru Tamaki
 
ECCV2018参加速報(一日目)
Atsushi Hashimoto
 
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
Toru Tamaki
 
【DLゼミ】Generative Image Dynamics, CVPR2024
harmonylab
 
[DL輪読会]High-Fidelity Image Generation with Fewer Labels
Deep Learning JP
 
Cvpr2018 参加報告(速報版)3日目
Atsushi Hashimoto
 
動画像理解のための深層学習アプローチ
Toru Tamaki
 
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII
 
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
Kento Doi
 
コンピュータビジョンの研究開発状況
cvpaper. challenge
 

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 

Recently uploaded (10)

PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 

[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ MoCoGAN: Decomposing Motion and Content forVideo Generation Kei Akuzawa, Matsuo Lab M1
  • 2. 書誌情報 • arxiv 2017/07 • authers: Sergey Tulyakov, Ming-Yu Liu, Xiaodong Yang, Jan Kautz • 選定理由: – 生成された動画が既存研究に比べて圧倒的に本物らしい – アイデアがエレガント – 偶然実装中だったので(アニメの中割り自動化したい) 2
  • 4. Abstract • 動画はMotionとContentにわけて考えることができる • GeneratorへのInput noiseをMotion partとContent partにわける (独自性) • 結果として、生成される動画が綺麗になり、またContentを固定し てMotionだけを変更するような操作が可能になった 4
  • 5. Introduction • ビデオの生成が画像の生成より難しいと考えられる要因: – (2次元の)見た目だけでなく、(3次元の)物理構造を学習しなければなら ない – 時間が生み出すmotionのvariationが多い。例えばスクワットにしてもゆっ くりやるのと早くやるのでは違う – 人間の目はmotionに対してsensitiveである • "時間(motion)"をどのようにしてモデルに取り入れるかが鍵 5
  • 6. Related work • The future frame prediction problem系: – 過去のframeで条件付けて未来のframeを予測する – この中でさらに2系統に分かれる • 過去のframeから生のpixelを予想 – Decomposing Motion and Content for Natural Video Sequence Prediction (ICLR2017) など • 過去のframeのpixelをreshuffleして未来のframeを構成 – Unsupervised Learning for Physical Interaction through Video Prediction (NIPS2016) など • GAN系: – Generating Videos with Scene Dynamics (NIPS2016) – Temporal Generative Adversarial Nets with Singular Value Clipping (ICCV2017) • 時間をモデル化するために、それぞれの論文が色々やっている 6
  • 7. Decomposing Motion and Content for Natural Video Sequence Prediction [Villegas 2017] (MCnet) • MoCoGANと手法は全く違うが、motionと contentを分離するというアイデアは共通 • t期以前の画像からt+1期の画像を予測 – x_tをcontentと捉える – x_t - x_{t-1} をmotionと捉える • デモ↓ – https://sites.google.com/a/umich.edu/rube nevillegas/iclr2017 7
  • 8. Unsupervised Learning for Physical Interaction through Video Prediction [Finn 2016] • 過去のframeのpixelをかき混ぜて新しいframeを作る • 画像をConvolutional LSTMで畳み込んでフィルターを作り、そのフィル ターを元画像にあててpixelを再構築(理解浅いです) 8
  • 9. Generating Videos with Scene Dynamics [Vondrick 2016] (VGAN) • 動画をforeground(動く)とbackground (動かない)に分割 – 「backgroundを固定」は強い仮定(カメラの手 ブレなど) • 同一のnoiseからdeconvでそれらを生成 し、加重平均をとる • 画像で条件付けてfuture predictionさせ ることも可能 • 個人的見解 – 左下図を見るにforegroundの生成が上手く いっていない。contentとmotionを同一の noiseで扱うことによりモデルの複雑性が増し ている? – 画像作ってから足し合わせるのはよくないん じゃないか(ズレに敏感そう) 9
  • 10. Temporal Generative Adversarial Nets with Singular Value Clipping [M.Saito, Matsumoto, S.Saito 2017] (Temporal GAN) • 3Dの畳み込みを批判(時間と空間 の特性の違いを考慮すべき) – ビデオ認識の研究でもこの指摘があるらしい – しかし今回Discriminatorは3Dの畳み込みを利用、 Generatorのみ特別仕様 • temporal generatorがframe数だけ latent variableを生成し、それを元 にimage generatorが個々の画像を 生成 • 生成した2枚の画像間の中間画像 も容易に生成できる • WGANを改良(Singular Value Clipping)して学習を安定化 10
  • 11. Proposed Model: Abstract • VGANとTemporalGANに対する批判 – ビデオを潜在空間上の1点と対応させるのはやりすぎ • 同じactionを異なる速さで行うとき、それらが潜在空間上で異なるpointにmappingされてし まう • 生成するビデオが固定長になってしまう • 提案手法 – 潜在空間上の1点から画像を生成、それらをつなげて動画にする – 潜在空間をmotion subspaceとcontent subspaceにわける • content variableは動画内で固定 • motion variableは動画内で(系列的に)変化 – 結果 • 同じactionを異なる速さで行うときはmotion variabeの変化速度を変えることで対応できる • 任意の長さのビデオを生成できる 11
  • 12. Proposed Model: Architecture 12 Generator - 潜在変数zはcontent(z_C)とmotion(z_M)の結合 - z_Cは一つの動画内で固定 - z_MはGRUによって生成される - それぞれのz^k から一枚画像を生成 (2DのCNN) Discriminator - D_Iは画像を見分ける (2DのCNN) - D_Vはビデオを見分ける (3DのCNN) - 先行研究(VGAN,TemporalGAN)ではD_Vのみ。 画像の本物っぽさをD_Iに任せることで、D_Vは Dynamicsの本物っぽさに注力できる
  • 13. Proposed Model: Training • LossはD_VとD_Iについて和をとる • one sided label smoothing trick [Salimans 2016], [Szegedy 2015] • 可変長のvideoを生み出す工夫 – video lengthの経験分布を作る – 分布からvideo lengthをサンプリング – 生成した可変長の動画から、決まった長さ を切り取りD_Vに渡す • D_Vは3DのCNNなので固定長しか受け取れな いことに注意 13 loss function Update
  • 14. 補足: One sided label smoothing trick [Salimans 2016], [Szegedy 2015] • 予測されたラベルD(x)の値が極端な値をとると、過学習を起こしやすく好ましくない。 • Generatorを固定した元での最適なDiscriminatorを以下のようにしてsmoothing • ただし、分子にp_{model}があると問題 – p_{data]が0に近い場所で、p_{model}が高い確率を割り当てると、Discriminatorをうまく騙せていることになるので、Generatorが 移動するインセンティブを削る • 結局以下のようにする 14
  • 15. Proposed Model: Action Conditioned • text-to-image[Reed 2016]を参考に、actionで条件付けられるようにモデルを拡張できる – ラベルを埋め込んだもの(z_A)をInput noiseと結合する?(想像) • actionはmotionとcontentの両方に影響すると考えられる(後述) – 例: バスケとホッケーじゃユニフォームが違う • Discriminatorは、真偽とaction labelを同時に見分ける – Auxiliary classifier GAN[odena 2016] ?? – Improved Techniques for Training GANs [Salimans 2016] ?? 15
  • 16. 補足: GANの条件付け 図はSricharan 2017 ( https://arxiv.org/abs/1708.05789 )より 16 • DはlabelをInputとして受け取る • Dはlabelを予測する • Auxiliary classifier GAN [odena 2016] : Dは真偽とラベルのそれ ぞれを出力する。 • Improved Techniques for Training GANs [Salimans 2016]:(ラベル +fake)のK+1次元を出力させる
  • 17. Experiments: Datasets and Metrics • Datasets – synthetic, facial expression, Tai Chi(太極拳), human action • Performance Metrics 1. Average Content Distance: 一つの動画内でcontentが一貫してほしい • 普通は色の一貫性を調べる • 表情の場合はOpenFaceで特徴量抽出し、人物の一貫性を調べる 2. Motion Control Score: Action Conditionedできているかどうか(訓練済みの action classifierで調べる) 3. Content Control Score: action labelとmotion variableを固定し、content variableだけを変化させた時に、contentが変化してほしい 17
  • 18. Experiments: Comparison with VGAN • VGANとMoCoGANの比較 • ACD: 動画内でのcontentの一貫 度合いを測る – 色の一貫度合い – open faceで抽出した顔面特徴量 の一貫度合い • 二つのデータセットでVGANを上 回る 18
  • 19. Experiments: various MoCoGAN settings • モデル構造の検証 – DiscriminatorをD_Vだけにする – action labelの組み込み方 • どちらか選ぶ • 結果: – D_Iも使ったほうが良さそう – 𝜖′ = [𝜖, 𝑧 𝐴] が良さそう 19
  • 22. Conclusion • Generatorのlatent spaceをcontentとmotionに分割 • motion latent variableはRNNで生成 • 従来手法に比べて精度も良いし、motionとcontentの片方だけを 操作することもできるようになった。 22 感想 • 時間のモデル化に色んな研究が苦心していてる • 潜在空間でmotionとcontentを分離するのが、VGANと比べてエレ ガント
  • 23. References • Sergey Tulyakov. Ming-Yu Liu. Xiaodong Yang. Jan Kautz. MoCoGAN: Decomposing Motion and Content for Video Generation, arXiv preprint arXiv:1707.04993, 2017. • R. Villegas, J. Yang, S. Hong, X. Lin, and H. Lee. Decomposing motion and content for natural video sequence prediction. In International Conference on Learning Representation, 2017. • C. Finn, I. Goodfellow, and S. Levine. Unsupervised learning for physical interaction through video prediction. In Advances In Neural Information Processing Systems, 2016. • C. Vondrick, H. Pirsiavash, and A. Torralba. Generating videos with scene dynamics. In Advances In Neural Information Processing Systems, 2016. • M.Saito. E.Matsumoto. S.Saito, Temporal Generative Adversarial Nets with Singular Value Clipping, in ICCV, 2017. • S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee. Generative adversarial text to image synthesis. In International Conference on Machine Learning, 2016 • Augustus Odena, Christopher Olah, and Jonathon Shlens. Conditional image synthesis with auxiliary classifier gans. arXiv preprint arXiv:1610.09585, 2016. • T.Salimans,I.Goodfellow,W.Zaremba,V.Cheung,A.Radford, and X. Chen. Improved techniques for training gans. In Advances in Neural Information Processing Systems, 2016. • C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the Inception Architecture for Computer Vision. ArXiv e-prints, December 2015. • Kumar Sricharan. Raja Bala. Matthew Shreve. Hui Ding. Kumar Saketh. Jin Sun. Semi-supervised Conditional GANs, arXiv preprint arXiv:1708.05789, 2017. • 特に明記がない限り、画像はスライドで引用中の論文より 23