Copyright (C) 2018DeNA Co.,Ltd. All Rights Reserved.
3V: Verbal Vocal Visual
7
現在の研究で対象となる主なモダリティ
言語情報
書く・話す
音・音楽
パラ言語情報
画像・ビデオ
[Morency 2017]
8.
Copyright (C) 2018DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (1) Audio-Visual Speech Recognition
音声と画像(主に唇の動き)の両方の情報を用いて音声認識する
Lip Reading: 唇の画像のみからテキストに変換する
マルチモーダル処理の最初期の研究(1986年)
⁃ Deep Learningのマルチモーダル化もこのタスクから(ICML2011)
8
[Potamianos 2003]
9.
Copyright (C) 2018DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (2) Glove-Talk
人間の腕の動き(行動・センサー)を音声に変換する
最近では手話を音声に変換する研究もある
9
Glove Talk II
https://www.youtube.com/watch?v=hJpGkroFP3o&t=100s
10.
Copyright (C) 2018DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (3) Talking Head
テキスト情報を音声と顔画像に変換する
10
2013 Expressive Visual Text to Speech - Talking Head
https://www.youtube.com/watch?v=x8B7OxjB05k
11.
Copyright (C) 2018DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (4) Audio-Visual Emotion Recognition
音声と画像の両方の情報を使って人の感情を認識する
11
[Morency 2017]
Copyright (C) 2018DeNA Co.,Ltd. All Rights Reserved.
Text-to-Video: Video Generation From Text
31
Gist Generator
gistと呼ばれる色と物体レイアウトを
大まかに記した画像を生成するCVAE
Video Generator
gistとテキストからビデオの
4Dテンソルを生成
Video Discriminator
本物のビデオと偽物を見分ける
テキストにマッチするか見分ける
ビデオの1フレーム目の画像とテキストの
両方を条件としてGistを生成
推論時はdecoderのみ使う
テキストからビデオを生成する
ビデオのシードとなる粗い画像(Gist)をテキストを条件として生成するのがポイント
ビデオはGistとテキストを条件として生成される
[Li 2017]
32.
Copyright (C) 2018DeNA Co.,Ltd. All Rights Reserved.
Image-to-Control: DQN
32
https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/deep_q_learning.html
ゲームの過去4フレーム分の画像から行動を生成
入力は4フレーム分の画像 入力の状態における各行動の
行動価値を出力
[Mnih 2013]
33.
Copyright (C) 2018DeNA Co.,Ltd. All Rights Reserved.
Text-to-Control: Language Guided RL
33
自然言語による人の指示をもとに行動を出力
サブタスクを自然言語で与えるイメージ
1. 自然言語コマンドと状態の関連付け
2. 自然言語コマンドを達成するための最適行動の学習
入力は4フレーム分の画像と
自然言語による指示
画像はCNNで符号化 MLPで行動にマッピング
画像とテキストのマルチモーダル符号化
自然言語で指示されたコマンドが
満たされたら追加報酬が与えられる
Copyright (C) 2018DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習
36
画像
音 テキスト
制御
Talking Head
SoundNet
Imageinary Soundscape
Visual-to-Sound
Image
Captioning
Text-to-Image
Synthesis
Text-to-Speech
Speech Recognition
Visual QA
Language Guided RL
See Here and Read
DQN
Audio-visual Speech Recognition
37.
Copyright (C) 2018DeNA Co.,Ltd. All Rights Reserved.
参考文献
[Baltrusaitis 2017] Baltrusaitis, T. et al., Multimodal Machine Learning: A Survey and Taxonomy, arXiv:1705.09406.
[Morency 2017] Morency, L-P. and Baltrusaitis, T., Tutorial on Multimodal Machine Learning, ACL 2017.
[Potamianos 2003] Potamianos, G. et al., Recent Advances in the Automatic Recognition of Audiovisual Speech, Proc. of
IEEE, 91 (9), pp.1306-1326, 2003.
[Agrawal 2015] Agrawal, A. et al., VQA: Visual Question Answering, arXiv:1505.00468.
[Mroueh 2015] Mroueh, Y. et al., Deep Multimodal Learning for Audio-Visual Speech Recognition, arXiv:1501.05396.
[Aytar 2016] Aytar, Y. et al., SoundNet: Learning Sound Representations from Unlabeled Video, arXiv:1610.09001.
[Aytar 2017] Aytar, Y. et al., See, Hear, and Read: Deep Aligned Representations, arXiv:1706.00932.
[Hatori 2017] Hatori, J. et al., Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions,
arXiv:1710.06280.
[Kajihara 2017] Kajihara, Y. et al., Imaginary Soundscape : Cross-Modal Approach to Generate Pseudo Sound Environments,
Workshop on ML for Creativity and Design (NIPS 2017)
[Zhou 2017] Zhou, Y. et al., Visual to Sound: Generating Natural Sound for Videos in the Wild, arXiv: 1712.01393.
[Vinyals 2014] Vinyals, O. et al., Show and Tell: A Neural Image Caption Generator, arXiv:1411.4555.
[Reed 2016] Reed, S. et al., Generative Adversarial Text to Image Synthesis, arXiv:1605.05396.
[Wang 2017] Wang, Y. et al., Tacotron: Toward End-to-End Speech Synthesis, arXiv:1703.10135.
[Owens 2015] Owens, A. et al., Visually Indicated Sounds, arXiv:1512.08512.
[Li 2017] Li, Y. et al., Video Generation from Text, arXiv:1710.00421.
[Mnih 2013] Mnih, V. et al., Playing Atari with Deep Reinforcement Learning, arXiv:1312.5602.
[Kaplan 2017] Kaplan, R. et al., Beating Atari with Natural Language Guided Reinforcement Learning, arXiv:1704.05539
37