マルチモーダル深層学習の研究動向

Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習の研究動向
株式会社ディー・エヌ・エー
AIシステム部
森紘一郎

自己紹介
 森紘一郎
 経歴
⁃ 2005年株式会社東芝研究開発センター
機械学習・データ（テキスト）マイニング（5年）
音声合成（7年）
⁃ 2017年株式会社ディー・エヌ・エー
DEEP LEARNING（音声、コンピュータビジョン）
 プライベート
⁃ Twitter: aidiary（@sylvan5）
⁃ ブログ: 人工知能に関する断創録（2002〜）
⁃ 最近は生成系（音声・画像）と
マルチモーダルなDEEP LEARNINGに興味あり
2

目次
 マルチモーダルDEEP LEARNINGとは？
 どんなアプリケーションがある？
 研究上のチャレンジは？
 マルチモーダルタスクとアーキテクチャ
 まとめ
 この発表は以下の資料をベースに独自の調査内容を追加
⁃ [Baltrusaitis 2017] Baltrusaitis, T. et al., Multimodal Machine Learning:
A Survey and Taxonomy, arXiv:1705.09406.
⁃ [Morency 2017] Morency, L-P. and Baltrusaitis, T., Tutorial on Multimodal
Machine Learning, ACL 2017.
3

マルチモーダルとは何か？
4
嗅覚
視覚
触覚
味覚
聴覚
動物の５つの感覚
動物はこの５感によって世界を経験する
マルチモーダル = 複数のモダリティを含む処理
注意
記憶
嗜好
言語
行動
（制御）
Computer Vision
Natural Language Processing
Speech Synthesis
Speech Recognition
Audio Processing
Reinforcement Learning
?
?
?
脳波
[Morency 2017]Brain Machine Interface

マルチモーダル深層学習とは
 マルチモーダル深層学習
⁃ 複数のモダリティからの情報を統合的に処理し、それらを関連付けるモデル
を構築することを目的とする
⁃ 深層学習を使わないアプローチもあるが、本発表では深層学習に的を絞る
⁃ それぞれのモダリティに関する研究分野が独自に進展してきたが、Deep
Learningの登場により分野間の障壁が薄くなってきている
 マルチモーダルの重要性
⁃ 人は単一のモダリティに基づいて思考・記憶・判断していない
⁃ 人工知能のさらなる進展にはマルチモーダル信号を統合する技術が必要！
⁃ 実は昔から研究自体はあった（例）記号とパターンの統合
5

マルチモーダル深層学習は学際的な領域
6
非常に学際的で強力なポテンシャルを秘めた分野
だと確信してるが儲かるビジネスがあまり思い浮かばないのが現状・・・
 心理学（Psychology）
 医療（Medical）
 音声（Speech）
 画像（Vision）
 言語（Language）
 マルチメディア（Multimedia）
 ロボティクス（Robotics）
 機械学習（Machine Learning）

3V: Verbal Vocal Visual
7
現在の研究で対象となる主なモダリティ
言語情報
書く・話す
音・音楽
パラ言語情報
画像・ビデオ
[Morency 2017]

マルチモーダルアプリケーション (1) Audio-Visual Speech Recognition
 音声と画像（主に唇の動き）の両方の情報を用いて音声認識する
 Lip Reading: 唇の画像のみからテキストに変換する
 マルチモーダル処理の最初期の研究（1986年）
⁃ Deep Learningのマルチモーダル化もこのタスクから（ICML2011）
8
[Potamianos 2003]

マルチモーダルアプリケーション (2) Glove-Talk
 人間の腕の動き（行動・センサー）を音声に変換する
 最近では手話を音声に変換する研究もある
9
Glove Talk II
https://www.youtube.com/watch?v=hJpGkroFP3o&t=100s

マルチモーダルアプリケーション (3) Talking Head
 テキスト情報を音声と顔画像に変換する
10
2013 Expressive Visual Text to Speech - Talking Head
https://www.youtube.com/watch?v=x8B7OxjB05k

マルチモーダルアプリケーション (4) Audio-Visual Emotion Recognition
 音声と画像の両方の情報を使って人の感情を認識する
11
[Morency 2017]

マルチモーダルアプリケーション (5) Multimedia Content Analysis
 画像や映像をテキストに変換する（Image captioning）
 テキストを画像・映像に変換する（Text2Image）
 画像や映像に関する質問や対話を自然言語で行う（VQA, Visual Dialog）
12
[Morency 2017]

マルチモーダル深層学習の５つのチャレンジ (1)
1. Representation
⁃ マルチモーダル情報をどのように表現するか？
⁃ モーダル間の関連性をどのように定義するか？
2. Translation
⁃ あるモダリティを別のモダリティにどのように
変換するか？
⁃ 変換結果をどのように評価するか？
⁃ 超解像・声質変換・翻訳などはUnimodalなので対象外
3. Alignment
⁃ 複数のモダリティの要素をどのように関連付けるか？
⁃ 翻訳の単語の対応に似ているがそれのMultimodal版
13
[Morency 2017]

マルチモーダル深層学習の５つのチャレンジ (2)
4. Fusion
⁃ 複数のモダリティの情報を組み合わせて予測を行うには？
5. Co-learning
⁃ 複数のモダリティの間で知識を転移するには？
14
[Morency 2017]

ユニモーダルのデータ表現
 画像・音声・テキストの表現方法
⁃ Hand-designedな表現からdata-drivenな表現への移行
• 画像：SIFTからCNNの隠れ層の表現へ
• 音声：MFCCからCNNやRNNやAutoencoderの隠れ層の表現へ
• テキスト：TF-IDFからWord Embeddingへ
• タスクに適した表現が自動的に獲得できる！
 DEEP LEARNINGとマルチモーダルの相性のよさ
⁃ 全てのモダリティがベクトル（テンソル）で表現できる
⁃ 訓練時に表現を学習できる
⁃ ベクトルを変換できる強力な非線型写像
15

Representation
 Representation
⁃ マルチモーダル情報をどのように表現するか？
⁃ モーダル間の関連性をどのように定義するか？
 2つのアプローチ
⁃ Joint Representation – 各モーダルの特徴量を結合
⁃ Coordinated Representation – 類似性などの制約を導入
16
[Baltrusaitis 2017]

（例1）Multimodal Sentiment Analysis (Emotion Recognition)
 複数のモーダルの情報を用いて感情（喜び・怒り・悲しみなど）を認識する
⁃ 顔画像、音声、音声認識したテキストの全てを用いる
⁃ それぞれのモダリティからの情報は独自のニューラルネットを用いる
⁃ マルチモーダル表現空間は中間表現をconcat
⁃ その表現を用いて感情を分類
17
[Morency 2017]

（例2）Visual Question Answering
 画像に対する質問をテキストですると回答してくれるシステム
 画像を処理するCNNの出力とテキストを処理するLSTMの出力を掛け合わせてマ
ルチモーダル表現空間を形成
18
[Agrawal 2015]

（例3）Audio-Visual Speech Recognition
 音声と唇の画像の両方を用いて音声を認識する
⁃ 出力は音素
⁃ Audioのみ PER (Phone Error Rate) 41%
⁃ Imageを加えると PER 35.83% と改善
⁃ 特に音声のノイズが大きい環境では画像が有益
19
[Mroueh 2015]

（例4）SoundNet
 音の深層表現を学習済の画像分類モデルを用いて学習する
⁃ 画像と音がペアであるビデオを使って学習
⁃ 画像ネットワークをTeacher Model、音のネットワークをStudent Model
として音の深層表現を学習する
20
Image Networkの出力分布と
Sound Networkの出力分布が
近くなるようにSoundNetの
パラメータを学習
[Aytar 2016]

（例5）See, Hear, and Read: Deep Aligned Representations
 画像、音声、言語の3つのモダリティを統合する深層表現を学習
⁃ ペアとなるプールの画像、プールの音、プールに関する文章の深層表現ベク
トルが互いに近くなる
 クロスモーダル検索やモダリティ間の分類器の転移などのタスクに有効
21
Teacher Loss + Pair Lossが最小になるように学習
[Aytar 2017]

（例6）Object Picking with Spoken Language
22
ロボットのピッキング対象を自然言語で指示する
画像とテキストを入力としてロボット制御の対象となるオブジェクトと移動先を特定する
ロボットの制御自体は学習対象ではない
[Hatori 2017]
自然言語で指示した物体がSSDで
切り出した物体のどれかを当てる
タスク
自然言語で指示した物体の
移動先がどこか当てるタスク

Translation
 Multimodal Translation
⁃ あるモダリティを別のモダリティにどのように変換するか？
⁃ 変換結果をどのように評価するか？
 現在のマルチモーダル研究の中心
⁃ 長い研究の歴史がある
⁃ DEEP LEARNINGとマルチモーダルデータセットの普及で再定義が進む
• 画像  テキスト
• 画像  音声
• 音声  テキスト
• 画像  制御
• テキスト  制御
23

２つのアプローチ
 Example-based ≒ ノンパラメトリックモデル
⁃ 辞書ベースの変換（と言うよりもマルチモーダル検索）
⁃ SOURCEともっとも類似するTARGETを検索して返す
⁃ SOURCEとTARGETの変換にDEEP LEARNINGを活用する研究も
 Model-driven ≒ パラメトリックモデル
⁃ SOURCEとTARGETの組みから変換モデルを学習
⁃ SOURCEをモデルに入力してTARGETに変換する
⁃ DEEP LEARNINGの登場とテキスト・画像・音声の生成モデルの
発明以降はこちらが研究の中心に
24
（例）Imaginary Soundscape
（例）Visual-to-sound
[Morency 2017]

（例）Imaginary Soundscape vs. Visual-to-sound
 どちらの研究も風景画像からその風景にあった音声を再生するタスク
25
• 画像と音声を同一のマルチモーダル空間に写像
• マルチモーダル空間は、画像とそれに対応する音声間の距離が
近くなるように学習される
• 入力した画像と最も距離が近い音声を検索して再生する
Imaginary Soundscape Visual-to-sound
• Encoder-decoderモデル（seq2seq）
• ビデオを符号化するencoder
• 符号から音声を生成するdecoder（SampleRNN）
• 画像を入力すると音声波形を生成して再生する
[Zhou 2017]
[Kajihara 2017]

Model-drivenアプローチ
 Deep Learningによる生成モデルの活用
⁃ 画像 GAN, PixelRNN
⁃ 音声 WaveNet, SampleRNN
⁃ テキスト LSTM
 変換モデルはEncoder-decoderモデルが最も一般的
⁃ ソースモダリティのデータをEncoderでベクトルに変換
⁃ Decoderでターゲットモダリティのデータを生成
⁃ Encoderはモダリティ特有のものが使われる（画像ならCNN、音声ならRNN）
⁃ DecoderはEncoderの出力ベクトルを初期の隠れ状態としたRNN
⁃ Attentionが効果的
26

Image-to-Text: Image Captioning
27
画像を入力するとその画像の内容を表す
テキストを出力する
GoogLeNet
などのCNN
入力は画像
FC層の直前の
画像特徴量を
LSTMの隠れ状態の
初期値とする
LSTMで単語系列を生成
[Vinyals 2014]

Text-to-Image Synthesis
28
テキストを入力するとそのテキストにあった画像が生成される
テキストをエンコード
テキスト符号はGeneratorの入力で
あるノイズに条件として付与
Conditional GANで画像を生成
Discriminatorにもテキスト符号は
入力してテキストと画像のミスマッチ
も識別する
[Reed 2016]

Text-to-Speech: Tacotron
29
テキストを入力すると音声が生成される
いわゆる音声合成
Tacotronの場合は入力は文字の系列
音響パラメータの系列を出力
=> ボコーダーで音声を合成
Conv1D + RNN
でエンコード
RNNでデコード
https://google.github.io/tacotron/publications/tacotron/index.html[Wang 2017]

Image-to-Sound: Visually Indicated Sounds
30
http://vis.csail.mit.edu/
画像はグレースケールに変換後、
前後1フレーム分をチャネルとして
3チャンネルで入力する
画像特徴量の系列はLSTMで
処理して音響特徴量系列を生成
音響特徴量から音声に変換
または生成した音響特徴量と最も
類似する音声をDBから検索して
貼り付ける
画像（ビデオ）を入力として音声を生成する
ものをドラムスティックで叩いた時の音を生成している
[Owens 2015]

Text-to-Video: Video Generation From Text
31
Gist Generator
gistと呼ばれる色と物体レイアウトを
大まかに記した画像を生成するCVAE
Video Generator
gistとテキストからビデオの
4Dテンソルを生成
Video Discriminator
本物のビデオと偽物を見分ける
テキストにマッチするか見分ける
ビデオの1フレーム目の画像とテキストの
両方を条件としてGistを生成
推論時はdecoderのみ使う
テキストからビデオを生成する
ビデオのシードとなる粗い画像（Gist）をテキストを条件として生成するのがポイント
ビデオはGistとテキストを条件として生成される
[Li 2017]

Image-to-Control: DQN
32
https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/deep_q_learning.html
ゲームの過去4フレーム分の画像から行動を生成
入力は4フレーム分の画像入力の状態における各行動の
行動価値を出力
[Mnih 2013]

Text-to-Control: Language Guided RL
33
自然言語による人の指示をもとに行動を出力
サブタスクを自然言語で与えるイメージ
1. 自然言語コマンドと状態の関連付け
2. 自然言語コマンドを達成するための最適行動の学習
入力は4フレーム分の画像と
自然言語による指示
画像はCNNで符号化 MLPで行動にマッピング
画像とテキストのマルチモーダル符号化
自然言語で指示されたコマンドが
満たされたら追加報酬が与えられる

例えばこんなアイデアは？
 手話の動画から音声を生成する
 顔写真やアニメイラストからもっともらしい声質を生成する
 画像から音楽を生成する
 ダンスの動画からビートを生成する
 歌詞のテキストからメロディを生成する
 サイレント映画に音をつける
 料理のレシピから味を生成する
 料理の写真から匂いを生成する
 物体の写真から触覚を生成する
34

まとめ
 この資料ではマルチモーダル深層学習に関する研究を主にRepresentation /
Translation タスクを中心にまとめた
 動物の知能は本質的にマルチモーダルであるため人工知能のさらなる進歩には必要不可
欠な技術（例）マルチモーダル連想記憶
 深層学習は複数のモダリティを結びつける非常に強力な方法
 現在の研究はテキスト、画像、音声の3つのモダリティが中心
 嗅覚、味覚、触覚を加えることでさらに面白い可能性が広がるのでは？
 複数のモダリティにまたがるアプリケーションは（まだ）ブルーオーシャン
35

マルチモーダル深層学習
36
画像
音テキスト
制御
Talking Head
SoundNet
Imageinary Soundscape
Visual-to-Sound
Image
Captioning
Text-to-Image
Synthesis
Text-to-Speech
Speech Recognition
Visual QA
Language Guided RL
See Here and Read
DQN
Audio-visual Speech Recognition

参考文献
 [Baltrusaitis 2017] Baltrusaitis, T. et al., Multimodal Machine Learning: A Survey and Taxonomy, arXiv:1705.09406.
 [Morency 2017] Morency, L-P. and Baltrusaitis, T., Tutorial on Multimodal Machine Learning, ACL 2017.
 [Potamianos 2003] Potamianos, G. et al., Recent Advances in the Automatic Recognition of Audiovisual Speech, Proc. of
IEEE, 91 (9), pp.1306-1326, 2003.
 [Agrawal 2015] Agrawal, A. et al., VQA: Visual Question Answering, arXiv:1505.00468.
 [Mroueh 2015] Mroueh, Y. et al., Deep Multimodal Learning for Audio-Visual Speech Recognition, arXiv:1501.05396.
 [Aytar 2016] Aytar, Y. et al., SoundNet: Learning Sound Representations from Unlabeled Video, arXiv:1610.09001.
 [Aytar 2017] Aytar, Y. et al., See, Hear, and Read: Deep Aligned Representations, arXiv:1706.00932.
 [Hatori 2017] Hatori, J. et al., Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions,
arXiv:1710.06280.
 [Kajihara 2017] Kajihara, Y. et al., Imaginary Soundscape : Cross-Modal Approach to Generate Pseudo Sound Environments,
Workshop on ML for Creativity and Design (NIPS 2017)
 [Zhou 2017] Zhou, Y. et al., Visual to Sound: Generating Natural Sound for Videos in the Wild, arXiv: 1712.01393.
 [Vinyals 2014] Vinyals, O. et al., Show and Tell: A Neural Image Caption Generator, arXiv:1411.4555.
 [Reed 2016] Reed, S. et al., Generative Adversarial Text to Image Synthesis, arXiv:1605.05396.
 [Wang 2017] Wang, Y. et al., Tacotron: Toward End-to-End Speech Synthesis, arXiv:1703.10135.
 [Owens 2015] Owens, A. et al., Visually Indicated Sounds, arXiv:1512.08512.
 [Li 2017] Li, Y. et al., Video Generation from Text, arXiv:1710.00421.
 [Mnih 2013] Mnih, V. et al., Playing Atari with Deep Reinforcement Learning, arXiv:1312.5602.
 [Kaplan 2017] Kaplan, R. et al., Beating Atari with Natural Language Guided Reinforcement Learning, arXiv:1704.05539
37

マルチモーダル深層学習の研究動向

More Related Content

What's hot

Similar to マルチモーダル深層学習の研究動向

マルチモーダル深層学習の研究動向

Editor's Notes