CVPR 2020の動向・気付き・メタサーベイ 

1
- 今回どんな研究が流行っていた?

- 海外の研究者は何をしている?

- どんな研究グループが強いか?

- その他「動向」や「気付き」など何でもOK

Group 27: Vision & Other Modalities
升山義紀, 後藤 啓太, 町井 湧介

2
本資料の概要

カバー範囲

– Multi-modal学習全般に使える技術のCVPR2020での発展

– CVPR2020におけるRGB画像+赤外線画像での人物再照合

– CVPR2020におけるAudio-visual学習

– 注目研究者+組織(Audio-visual学習中心)



– Vision&Languageは別途グループが存在するので対象外



3
GeneralなMulti-Modal手法の動向1

CVPR2020では、実世界で多く存在すると考えられる不完全なマル
チモーダルデータに対する適応手法や、各モダリティの情報を統
合、学習する際の工夫が多くみられた



・敵対的学習による潜在特徴量の学習の強化 

・Modality間の学習進度の差を考慮した学習手法 

・Cross Modal 蒸留とMeta Learningの融合

・Fusion手法の工夫 

4
GeneralなMulti-Modal手法の動向2

敵対的学習による潜在特徴量の学習の強化

– 各モダリティの特徴量を上手く共通の特徴量空間に落とすため
に、敵対的学習機構を設けている手法

• 動画&音声や動画&Optical Flow のように

同時に入手できるものは対応しているという

情報が使える



[Munro,CVPR2020,http://xpaperchallenge.org/cv/survey/cvpr2020_summaries/644/]
[Zhou,CVPR2020,
http://xpaperchallenge.org/cv/survey/cvpr2020_summaries/139/]
5
GeneralなMulti-Modal手法の動向3

Modality間の学習進度の差を考慮した学習手法

– マルチモーダルモデルは各モダリティごとに学習の進み方が異
なるため、Overfitしやすいという問題を指摘

– Overfit度合いを表す指標(OGR)を提案し、それを用いてモダリ
ティ毎に損失の重みを最適化しOverfitを抑制

[Wang,CVPR2020,http://xpaperchallenge.org/cv/survey/cvpr2020_summaries/61/]
6
GeneralなMulti-Modal手法の動向4

Cross Modal 蒸留とMeta Learningの融合

– 従来法はあるモダリティの学習済みモデルを別モダリティのモデ
ルへ蒸留(ペアデータが必要)

– ターゲットドメインでは一方のモダリティの情報しか手に入らない
ことを考え,ソースドメインでの知識に基きメタラ-ニングする枠
組みを提案

[Zhao,CVPR2020,http://xpaperchall
enge.org/cv/survey/cvpr2020_su
mmaries/285/]
● ターゲットドメインでの 生 徒 モデ
ル学 習に対して,ソースドメイン
での知識蒸留の際の勾配に基づ
いたPriorを導入
● 具 体 的 にはパラメトリックな
weight decayとして定式化
7
GeneralなMulti-Modal手法の動向5

Fusion手法の工夫

– 複数モダリティの中間特徴を Fusion する手法の工夫

• モダリティ毎の特徴を統合する手法として、

early fusion / late fusionが よく用いられる

• この手法では中間特徴も統合

[Iuzzolino+,CVPR2020, http://xpaper
challenge.org/cv/survey/cvpr2020_s
ummaries/51/]

RGB & IR 画像を用いた人物再照合の動向

8
赤外線(IR)画像なら夜間でも利用可能

– テスト時のモダリティに対応(RGBでもIRでも認識可能)

– 再生成による”Disentanglement”→個人性を分離

• 異なるモダリティを教師信号として利用できる

[Lu+,CVPR2020,http://xpaperchallenge.org
/cv/survey/cvpr2020_summaries/86/] 
 [Choi+,CVPR2020,http://xpaperchallenge.org/cv
/survey/cvpr2020_summaries/709/] 

9
Audio-visual Laerning の動向1

• 既存のタスク+αが多数

– Learning to Have an Ear for Face Super-Resolution

• 顔画像の高解像度化に音声の情報を利用(音声から顔 画
像を生成するSpeech2Face系の拡張)

– Speech2Action: Cross-Modal Supervision for Action
Recognition

• 映画の台詞と行動の関係に基づいた行動認識のための  弱
教師あり学習

– Listen to Look: Action Recognition by Previewing Audio

• 行動認識において音を利用してビデオから代表点抽出

10
Audio-visual Laerning の動向2

各モダリティにおける学習済みDNNの有効活用

– Visual Grounding in Video for Unsupervised Word Translation

• 画像に基づく教師なし機械翻訳の学習データを,各言語での
インストラクションビデオにASRを適用し作成

– Music Gesture for Visual Sound Separation 

● OpenPoseでキーポイント 抽
出しAV音源分離に利用
● 動 画と音の時 系 列の対 応 
関係を活用した身体の動きに
関連する研究が多数
[Gan+,CVPR2020,http://xpaperchallenge.org/c
v/survey/cvpr2020_summaries/214] 

11
Audio-visual Laerning の動向3

• 対応関係を利用した自己教師あり学習の多様化

– Telling Left from Right: Learning Spatial Correspondence of
Sight and Sound 

• 従来法は音源物体の種類や動き(時系列情報)から学習

• 提案法はバイノーラル音源を利用し空間情報から学習


 ● 音の左右が入れ替わって
いるか判別できるように特
徴抽出DNNsを学習
[Yang+,CVPR2020,http://xpaperchallenge.org/
cv/survey/cvpr2020_summaries/159/] 

David Harwath

12
Multi-modal SSLを先導(Speech寄り)

– Sight and Sound Workshopで講演

– MIT CSAILでPh.D,現在は同Reserach Scientist

– Spoken languageとvisualのcross-modalに早くから着手
(ASRU2015)



– 代表的な論文


 • Deep Multimodal Semantic Embeddings for
Speech and Images (ASRU 2015)
• Unsupervised Learning of Spoken Language with
Visual Context (NIPS 2016)
• Jointly discovering visual objects and spoken
words from raw sensory input (ECCV 2018)
• Learning Hierarchical Discrete Linguistic Units from
Visually-Grounded Speech (ICLR 2019)
https://people.csail.mit.edu/
dharwath/
Andrew Owens

13
Multi-modal SSLを先導(Vision寄り)

– Sight and Sound Workshopのオーガナイザ

– MIT CSAILでPh.D,現在はミシガン大学EECS学科助教

– 博士論文は Learning Visual Models from Paired
Audio-Visual Examples



– 代表的な論文


 • Visually Indicated Sounds (CVPR 2016)

• Ambient Sound Provides Supervision for Visual
Learning (ECCV 2016)

• Audio-visual scene analysis with self- supervised
multisensory features

(ECCV 2018)

• Learning individual styles of conversational gesture
(CVPR2019)
 http://andrewowens.com/
Kristen Grauman

14
Audio-Visual統合の研究を先導

– Sight and Sound Workshopのオーガナイザ

– MIT CSAILでPh.D

– 現在はテキサス大学オースティン校の教授とFAIRのResearch
Scientistを兼任

– CVPR2020共著6件(うち4件オーラル)



– 代表的な論文



• Learning to separate object sounds by
watching unlabeled video (ECCV 2018)
• 2.5D visual sound (CVPR 2019)
• Co-Separating sounds of visual objects (ICCV
2019)
• Listen to look: action recognition by
previewing audio (CVPR 2020)
 http://www.cs.utexas.edu/users/grauman/
FAIR (Facebook AI Research)

15
大規模データセットを使ったMulti-modal SSL

– Instagramの膨大なMulti-modalデータを利用

– 大学との兼任で強い研究者多数

• Kristen Grauman: UT Austinとの兼任(先述)

• Andrea Vedaldi: VGG(後述)との兼任

• Lorenzo Torresani: Dartmouth Collegeとの兼任



[Alwassel+, 2019, https://arxiv.org/abs/1911.12667]
[Patrick+, 2020,
https://arxiv.org/abs/2003.04298]
VGG (Visual Geometry Group)

16
Oxford大学のCVにおける一大研究室

– 主催のAndrew Zisserman氏はSight and Sound Workshop
のオーガナイザ
– VoxCeleb, VGGSoundなどAudio-visualのデータセットを多数
公開
– Audio-visualでの代表的な論文




• The Conversation: Deep Audio-Visual Speech
Enhancement (ECCV 2018)
• Learnable PINS: Cross-Modal Embeddings for
Person Identity (ECCV 2018)
• Deep audio-visual speech recognition
(TPAMI2018)
• Speech2Action: Cross-Modal Supervision
for Action Recognition (CVPR 2020) ttp://www.robots.ox.ac.uk/~az/

More Related Content

PDF
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
PDF
コンピュータビジョン分野メジャー国際会議 Award までの道のり
PPTX
ThemeStudy ― CHI2017-2018分析 + CHI2018速報
PDF
cvpaper.challenge チームラボ講演
PDF
ICCV 2017 速報
PDF
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
PDF
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
PDF
CVPR 2017 速報
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
コンピュータビジョン分野メジャー国際会議 Award までの道のり
ThemeStudy ― CHI2017-2018分析 + CHI2018速報
cvpaper.challenge チームラボ講演
ICCV 2017 速報
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
CVPR 2017 速報

What's hot (15)

PDF
ECCV 2016 速報
PPTX
CVPR2017 参加報告 速報版 本会議 1日目
PDF
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
PDF
CVPR 2019 速報
PDF
IPAB2017 深層学習を使った新薬の探索から創造へ
PPTX
CVPR2017 参加報告 速報版 本会議 4日目
PPTX
CVPR2017 参加報告 速報版 本会議 2日目
PPTX
CVPR2017 参加報告 速報版 本会議3日目
PDF
研究メンバー募集
PDF
Survey of Scientific Publication Analysis by NLP and CV
PDF
論文輪読資料「FaceNet: A Unified Embedding for Face Recognition and Clustering」
PPTX
【Zansa】物理学はWebデータ分析に使えるか
PPTX
CNNチュートリアル
PDF
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
PPTX
ディープラーニングの車載応用に向けて
ECCV 2016 速報
CVPR2017 参加報告 速報版 本会議 1日目
鷲崎 愛媛大学講演-プロジェクト型演習2014年12月15日
CVPR 2019 速報
IPAB2017 深層学習を使った新薬の探索から創造へ
CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議3日目
研究メンバー募集
Survey of Scientific Publication Analysis by NLP and CV
論文輪読資料「FaceNet: A Unified Embedding for Face Recognition and Clustering」
【Zansa】物理学はWebデータ分析に使えるか
CNNチュートリアル
論文輪読資料「Multi-view Face Detection Using Deep Convolutional Neural Networks」
ディープラーニングの車載応用に向けて
Ad

Similar to 【CVPR 2020 メタサーベイ】Vision & Other Modalities (20)

PDF
Vision and Language(メタサーベイ )
PDF
【CVPR 2020 メタサーベイ】Vision Applications and Systems
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
PDF
CVPR2019@ロングビーチ参加速報(前編~Tutorial&Workshop~)
PDF
CVPRプレゼン動画100本サーベイ
PDF
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
PDF
SSII2019OS: ビジョン&ランゲージによる意図理解と曖昧性解消
PDF
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
PDF
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
PPTX
CVPR2018 参加報告(速報版)初日
PDF
【CVPR 2020 メタサーベイ】Image and Video Synthesis_Group14.1
PDF
【メタサーベイ】Video Transformer
PDF
メタスタディ (Vision and Language)
PPTX
ECCV2018参加速報(一日目)
PPTX
CVPR2018 参加報告(速報版)2日目
PPTX
20190831 3 d_inaba_final
PPTX
Cvpr2018 参加報告(速報版)3日目
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PDF
【CVPR 2020 メタサーベイ】Neural Generative Models
Vision and Language(メタサーベイ )
【CVPR 2020 メタサーベイ】Vision Applications and Systems
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
CVPR2019@ロングビーチ参加速報(前編~Tutorial&Workshop~)
CVPRプレゼン動画100本サーベイ
[DL輪読会]Stereo Magnification: Learning view synthesis using multiplane images, +α
SSII2019OS: ビジョン&ランゲージによる意図理解と曖昧性解消
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
CVPR2018 参加報告(速報版)初日
【CVPR 2020 メタサーベイ】Image and Video Synthesis_Group14.1
【メタサーベイ】Video Transformer
メタスタディ (Vision and Language)
ECCV2018参加速報(一日目)
CVPR2018 参加報告(速報版)2日目
20190831 3 d_inaba_final
Cvpr2018 参加報告(速報版)3日目
【メタサーベイ】Vision and Language のトップ研究室/研究者
【CVPR 2020 メタサーベイ】Neural Generative Models
Ad

Recently uploaded (10)

PDF
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
PPTX
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
PDF
20250823_IoTLT_vol126_kitazaki_v1___.pdf
PPTX
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
PPTX
Vibe Codingを触って感じた現実について.pptx .
PDF
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
PDF
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
PDF
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
PDF
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
20250823_IoTLT_vol126_kitazaki_v1___.pdf
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
Vibe Codingを触って感じた現実について.pptx .
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...

【CVPR 2020 メタサーベイ】Vision & Other Modalities