SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Depth Prediction Without the Sensors: Leveraging Structure for
Unsupervised Learning from MonocularVideos (AAAI 2019)
Norihisa Kobayashi
書誌情報
2
Depth Prediction Without the Sensors:
Leveraging Structure for Unsupervised Learning from Monocular Videos
(AAAI 2019)(https://arxiv.org/abs/1811.06152)
タイトル:
著者: Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova
• センサーを利用せずに、単眼のビデオカメラの入力からシーンの深度を予測する
• カメラのエゴモーション(カメラ自身の速度や動き)を教師なし学習で推定する
• オブジェクトの動きを含むシーンにおける深度予測及び、エゴモーション推定でSOTA
• 屋外での訓練モデルを屋内ナビゲーションのためにドメイン転送も可能
概要:
GitHub: https://github.com/tensorflow/models/tree/master/research/struct2depth
その他:
https://sites.google.com/view/struct2depth
Google
特設ページ
:
アジェンダ
3
1. 概要
2. 先行研究
3. 提案手法
4. 実験結果
5. まとめ
1. 概要
• 入力画像からシーンの深度を予測することは、屋内でも屋外でも、ロボットナビゲーションにおいて重要
• シーンの深度予測における教師あり学習は、高価な深度センサを必要としていた。
4
背景
センサーを利用せずに単眼のビデオカメラでシーン深度推定を精度高く行いたい
1. 概要
5
struct2depth
• RGB画像入力からシーンの深度(奥行)とエゴモーション(カメラ自身の速度や動き)を教師なし学習
で捉える
• 深度センサーは使用されず、単眼のビデオからのみ行われる
• 個々のオブジェクトの動きが3Dで推定され、シーン内のすべてのオブジェクトの方向と速度が得られる
2. 先行研究
6
Unsupervised Learning of Depth and Ego-Motion from Video[Zhou, et al.(2017)]
• 深度とエゴモーション推定のための教師なし学習フレームワークを提案
• エンドツーエンドで、訓練のために単眼ビデオシーケンスのみを必要とする
3. 提案手法
7
Modeling Object Motion
• 従来の手法では、オブジェクトの動きを扱うことができないため、3Dですべての動く物体の動きをモデル化する
• 外部データセットで訓練された既製の2D画像インスタンスセグメンテーション方法(Mask R-CNN)を利用
画像内の物体の
動きを予測
3. 提案手法
8
問題設定
𝐼1, 𝐼2, 𝐼3 ∈ 𝑅 𝐻×𝑊×3
𝐸1→2 = ψE( 𝐼1, 𝐼2 )
入力:
深度関数 𝜃: 𝑅 𝐻×𝑊×3 → 𝑅 𝐻×𝑊
エゴモーションネットワーク ψ 𝐸: 𝑅2×𝐻×𝑊×3 → 𝑅6
= ψE( 𝑡 𝑥, 𝑡 𝑦 , 𝑡 𝑧 , 𝑟𝑥 , 𝑟𝑦 , 𝑟𝑧 )
深度 𝐷 = 𝜃(𝐼𝑖)
𝐼1
𝐼2
𝐼3
入力 𝐼1→ 𝐼2における
エゴモーション
3. 提案手法
9
j 番目の画像
の推定
warping operator φ
i→jにおける
エゴモーション推定値
j番目の
深度推定値
𝐿 𝑟𝑒𝑐 = min( 𝐼1→2− 𝐼2 )φ 𝐼𝑖, 𝐷𝑗, 𝐸𝑖→𝑗 → 𝐼𝑖→𝑗
問題設定
i 番目の入力 j番目の推定値と、実際のj番目の入力の差が誤差
• 前後のフレームから中央のフレームへの再構成損失を計算
𝐿 𝑟𝑒𝑐 = min( 𝐼1→2− 𝐼2 , 𝐼3→2− 𝐼2 )
𝐿 = 𝛼1
𝑖=0
3
𝐿 𝑟𝑒𝑐
(𝑖)
+ 𝛼2 𝐿 𝑠𝑠𝑖𝑚
(𝑖)
+ 𝛼3
1
2𝑖
𝐿 𝑠𝑖𝑚
(𝑖)
損失関数
[Zhou et al. 2017; Godard, Aodha, and Brostow 2018]
画質の損失 深さの損失
• 全体の損失は、再構成損失に加えて、画質の損失、深さの損失を計算 Zhou et al. 2017;
Godard, Aodha, and Brostow 2017;
Wang et al. 2018
3. 提案手法
10
運動モデル
• 本研究のアプローチは、3Dでオブジェクトをモデル化するだけでなく、それらの動きも学習する
𝑉 = 𝑂0 𝑆1 ʘ𝑂0 𝑆2 ʘ 𝑂0 𝑆3
𝐸1→2, 𝐸2→3 = ψE( 𝐼1 ʘ 𝑉, 𝐼2 ʘ 𝑉, 𝐼3 ʘ 𝑉 )
𝑂0 𝑆バイナリマスク
※エゴモーションネットワークは、3つのRGBフレームから
同時に2つの変換を取得するように実施する
インスタンス セグメンテーションマスク S𝑖,1, 𝑆𝑖,2, 𝑆𝑖,3 ∈ 𝑅 𝐻×𝑊
エゴモーションを計算するために、バイナリマスクを用いて物体の動きを画像から隠す
3. 提案手法
11
運動モデル
𝑀1→2
(𝑖)
, 𝑀2→3
(𝑖)
= ψ 𝑀( 𝐼1→2 ʘ 𝑂𝑖( 𝑆1→2), 𝐼2 ʘ 𝑂𝑖 𝑆2 , 𝐼3→2 ʘ 𝑂𝑖( 𝑆3→2))
𝐼1→2
(𝐹)
= 𝐼1→2 ʘ 𝑉 +
𝑖=1
𝑁
𝐼1→2
(𝑖)
ʘ 𝑂𝑖 𝑆2
画像内のすべてのオブジェクトの動き推定値を計算する。
𝑖 番目のオブジェクトの動き推定値 𝑀(𝑖) は次のように計算される。
最終出力はエゴモーションと、動的オブジェクトの動きとの足し合わせ
オブジェクトの動き推定値
エゴモーション
4. 実験結果
12
定性的評価
• KITTIデータセット、Cityscapesデータセット、及びFetch Indoor Navigationデータセットで実験
• 既存手法(中央の行)と比較して、本論文の手法(下段)の方がより精度の高い深度予測が可能
KITTIデータセット Cityscapesデータセット
既存手法
[Zhou, et al.(2017)]
本論文の手法
4. 実験結果
13
運動モデルの評価
• 右図はCityscapesデータセットでの深度推定の例
• 従来の手法ではカメラ自体と一緒に動くオブジェクトの
推定精度が低い
• 下表は、KITTIデータセットによる深度推定の精度
• 運動モデルと、推論プロセス中に予測を洗練するオン
ライン適応方法の双方を採用することでSOTA
4. 実験結果
14
KITTI オドメトリテストシーケンスにおけるオドメトリの定量的評価
• KITTIオドメトリデータセットによって実行されたオドメトリ(自己位置推定)の結果の比較
• テストされた合計走行シーケンス長は、それぞれ1,702メートルと918メートル
4. 実験結果
15
屋内ナビゲーションデータセットのテスト
• 屋外のCityscapesデータセットでトレーニングされて、屋内ナビゲーションデータでのみテストを実施
• 教師なしのオンラインで適応することができ、既存手法よりも正確な深度推定が可能
5. まとめ
16
結論
• センサーを利用せずに、単眼のビデオカメラの入力からシーンの深度を予測する
• カメラのエゴモーション(カメラ自身の速度や動き)を教師なし学習で推定する
• オブジェクトの動きを含むシーンにおける深度予測及び、エゴモーション推定でSOTA
• 屋外での訓練モデルを屋内ナビゲーションのためにドメイン転送も可能
Appendix
参考文献
17
• Wang, Z.; Bovik, A. C.; Sheikh, H. R.; and Simoncelli, E. P. 2004. Image quality assessment: from error
visibility to structural similarity. Transactions on Image Processing.
• Wang, C.; Buenaposada, J. M.; Zhu, R.; and Lucey, S. 2018. Learning depth from monocular videos using
direct methods. CVPR.
• Zhan, H.; Garg, R.; Weerasekera, C.; Li, K.; Agarwal, H.; and Reid, I. 2018. Unsupervised learning of
monocular depth estimation and visual odometry with deep feature reconstruction. CVPR.
• Zhou, T.; Brown, M.; Snavely, N.; and Lowe, D. 2017. Unsupervised learning of depth and ego-motion from
video. CVPR.
Appendix
補足
18
• Unsupervised Learning of Depth and Ego-Motion from Video[Zhou, et al.(2017)] を引用
• ターゲットビュー内の各点𝑝𝑡について、まず予測深度とカメラの姿勢に基づいてソースビューに投影し、バイリニア補間を
使用して位置𝑝𝑡におけるワープ画像 𝐼𝑠の値を取得する

More Related Content

What's hot (20)

PDF
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
Hironobu Fujiyoshi
 
PDF
【チュートリアル】コンピュータビジョンによる動画認識
Hirokatsu Kataoka
 
PDF
Action Recognitionの歴史と最新動向
Ohnishi Katsunori
 
PDF
R-CNNの原理とここ数年の流れ
Kazuki Motohashi
 
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
PPTX
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Yosuke Shinya
 
PPTX
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
PPTX
Transformerを雰囲気で理解する
AtsukiYamaguchi1
 
PDF
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
 
PDF
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII
 
PDF
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
Deep Learning JP
 
PDF
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
 
PPTX
モデル高速化百選
Yusuke Uchida
 
PDF
初めてのグラフカット
Tsubasa Hirakawa
 
PDF
Transformerを用いたAutoEncoderの設計と実験
myxymyxomatosis
 
PDF
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
Deep Learning JP
 
PDF
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
 
PDF
全力解説!Transformer
Arithmer Inc.
 
PDF
3D CNNによる人物行動認識の動向
Kensho Hara
 
PPTX
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
Hironobu Fujiyoshi
 
【チュートリアル】コンピュータビジョンによる動画認識
Hirokatsu Kataoka
 
Action Recognitionの歴史と最新動向
Ohnishi Katsunori
 
R-CNNの原理とここ数年の流れ
Kazuki Motohashi
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Yosuke Shinya
 
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
Transformerを雰囲気で理解する
AtsukiYamaguchi1
 
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
Deep Learning JP
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
 
モデル高速化百選
Yusuke Uchida
 
初めてのグラフカット
Tsubasa Hirakawa
 
Transformerを用いたAutoEncoderの設計と実験
myxymyxomatosis
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
Deep Learning JP
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
 
全力解説!Transformer
Arithmer Inc.
 
3D CNNによる人物行動認識の動向
Kensho Hara
 
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 

Similar to [DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos (AAAI 2019) (20)

PDF
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
harmonylab
 
PPTX
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Kazuyuki Miyazawa
 
PDF
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
harmonylab
 
PDF
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
harmonylab
 
PPT
20180929 sfm learner&vid2_depth_print
KUMIKO Suzuki
 
PPTX
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
Kazuyuki Miyazawa
 
PDF
論文読み会(DeMoN;CVPR2017)
Masaya Kaneko
 
PPTX
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
 
PDF
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
Mai Nishimura
 
PPTX
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 
PDF
論文紹介:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Networ...
matsunoh
 
PDF
【2015.07】(1/2)cvpaper.challenge@CVPR2015
cvpaper. challenge
 
PDF
GTC 2016 ディープラーニング最新情報
NVIDIA Japan
 
PDF
CVPR2011 Festival PDF
Masafumi Noda
 
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
 
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
PPTX
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
 
PDF
[DL輪読会]Unsupervised Learning of 3D Structure from Images
Deep Learning JP
 
PDF
IROS2020 survey
robotpaperchallenge
 
PPTX
ae-9. 姿勢推定
kunihikokaneko1
 
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
harmonylab
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Kazuyuki Miyazawa
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
harmonylab
 
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
harmonylab
 
20180929 sfm learner&vid2_depth_print
KUMIKO Suzuki
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
Kazuyuki Miyazawa
 
論文読み会(DeMoN;CVPR2017)
Masaya Kaneko
 
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
 
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
Mai Nishimura
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 
論文紹介:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Networ...
matsunoh
 
【2015.07】(1/2)cvpaper.challenge@CVPR2015
cvpaper. challenge
 
GTC 2016 ディープラーニング最新情報
NVIDIA Japan
 
CVPR2011 Festival PDF
Masafumi Noda
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
 
[DL輪読会]Unsupervised Learning of 3D Structure from Images
Deep Learning JP
 
IROS2020 survey
robotpaperchallenge
 
ae-9. 姿勢推定
kunihikokaneko1
 
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
Ad

Recently uploaded (10)

PDF
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
PDF
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
 
PDF
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
PDF
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
PDF
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
PDF
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
PDF
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
PDF
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
PDF
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
 
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 

[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos (AAAI 2019)

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from MonocularVideos (AAAI 2019) Norihisa Kobayashi
  • 2. 書誌情報 2 Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos (AAAI 2019)(https://arxiv.org/abs/1811.06152) タイトル: 著者: Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova • センサーを利用せずに、単眼のビデオカメラの入力からシーンの深度を予測する • カメラのエゴモーション(カメラ自身の速度や動き)を教師なし学習で推定する • オブジェクトの動きを含むシーンにおける深度予測及び、エゴモーション推定でSOTA • 屋外での訓練モデルを屋内ナビゲーションのためにドメイン転送も可能 概要: GitHub: https://github.com/tensorflow/models/tree/master/research/struct2depth その他: https://sites.google.com/view/struct2depth Google 特設ページ :
  • 3. アジェンダ 3 1. 概要 2. 先行研究 3. 提案手法 4. 実験結果 5. まとめ
  • 4. 1. 概要 • 入力画像からシーンの深度を予測することは、屋内でも屋外でも、ロボットナビゲーションにおいて重要 • シーンの深度予測における教師あり学習は、高価な深度センサを必要としていた。 4 背景 センサーを利用せずに単眼のビデオカメラでシーン深度推定を精度高く行いたい
  • 5. 1. 概要 5 struct2depth • RGB画像入力からシーンの深度(奥行)とエゴモーション(カメラ自身の速度や動き)を教師なし学習 で捉える • 深度センサーは使用されず、単眼のビデオからのみ行われる • 個々のオブジェクトの動きが3Dで推定され、シーン内のすべてのオブジェクトの方向と速度が得られる
  • 6. 2. 先行研究 6 Unsupervised Learning of Depth and Ego-Motion from Video[Zhou, et al.(2017)] • 深度とエゴモーション推定のための教師なし学習フレームワークを提案 • エンドツーエンドで、訓練のために単眼ビデオシーケンスのみを必要とする
  • 7. 3. 提案手法 7 Modeling Object Motion • 従来の手法では、オブジェクトの動きを扱うことができないため、3Dですべての動く物体の動きをモデル化する • 外部データセットで訓練された既製の2D画像インスタンスセグメンテーション方法(Mask R-CNN)を利用 画像内の物体の 動きを予測
  • 8. 3. 提案手法 8 問題設定 𝐼1, 𝐼2, 𝐼3 ∈ 𝑅 𝐻×𝑊×3 𝐸1→2 = ψE( 𝐼1, 𝐼2 ) 入力: 深度関数 𝜃: 𝑅 𝐻×𝑊×3 → 𝑅 𝐻×𝑊 エゴモーションネットワーク ψ 𝐸: 𝑅2×𝐻×𝑊×3 → 𝑅6 = ψE( 𝑡 𝑥, 𝑡 𝑦 , 𝑡 𝑧 , 𝑟𝑥 , 𝑟𝑦 , 𝑟𝑧 ) 深度 𝐷 = 𝜃(𝐼𝑖) 𝐼1 𝐼2 𝐼3 入力 𝐼1→ 𝐼2における エゴモーション
  • 9. 3. 提案手法 9 j 番目の画像 の推定 warping operator φ i→jにおける エゴモーション推定値 j番目の 深度推定値 𝐿 𝑟𝑒𝑐 = min( 𝐼1→2− 𝐼2 )φ 𝐼𝑖, 𝐷𝑗, 𝐸𝑖→𝑗 → 𝐼𝑖→𝑗 問題設定 i 番目の入力 j番目の推定値と、実際のj番目の入力の差が誤差 • 前後のフレームから中央のフレームへの再構成損失を計算 𝐿 𝑟𝑒𝑐 = min( 𝐼1→2− 𝐼2 , 𝐼3→2− 𝐼2 ) 𝐿 = 𝛼1 𝑖=0 3 𝐿 𝑟𝑒𝑐 (𝑖) + 𝛼2 𝐿 𝑠𝑠𝑖𝑚 (𝑖) + 𝛼3 1 2𝑖 𝐿 𝑠𝑖𝑚 (𝑖) 損失関数 [Zhou et al. 2017; Godard, Aodha, and Brostow 2018] 画質の損失 深さの損失 • 全体の損失は、再構成損失に加えて、画質の損失、深さの損失を計算 Zhou et al. 2017; Godard, Aodha, and Brostow 2017; Wang et al. 2018
  • 10. 3. 提案手法 10 運動モデル • 本研究のアプローチは、3Dでオブジェクトをモデル化するだけでなく、それらの動きも学習する 𝑉 = 𝑂0 𝑆1 ʘ𝑂0 𝑆2 ʘ 𝑂0 𝑆3 𝐸1→2, 𝐸2→3 = ψE( 𝐼1 ʘ 𝑉, 𝐼2 ʘ 𝑉, 𝐼3 ʘ 𝑉 ) 𝑂0 𝑆バイナリマスク ※エゴモーションネットワークは、3つのRGBフレームから 同時に2つの変換を取得するように実施する インスタンス セグメンテーションマスク S𝑖,1, 𝑆𝑖,2, 𝑆𝑖,3 ∈ 𝑅 𝐻×𝑊 エゴモーションを計算するために、バイナリマスクを用いて物体の動きを画像から隠す
  • 11. 3. 提案手法 11 運動モデル 𝑀1→2 (𝑖) , 𝑀2→3 (𝑖) = ψ 𝑀( 𝐼1→2 ʘ 𝑂𝑖( 𝑆1→2), 𝐼2 ʘ 𝑂𝑖 𝑆2 , 𝐼3→2 ʘ 𝑂𝑖( 𝑆3→2)) 𝐼1→2 (𝐹) = 𝐼1→2 ʘ 𝑉 + 𝑖=1 𝑁 𝐼1→2 (𝑖) ʘ 𝑂𝑖 𝑆2 画像内のすべてのオブジェクトの動き推定値を計算する。 𝑖 番目のオブジェクトの動き推定値 𝑀(𝑖) は次のように計算される。 最終出力はエゴモーションと、動的オブジェクトの動きとの足し合わせ オブジェクトの動き推定値 エゴモーション
  • 12. 4. 実験結果 12 定性的評価 • KITTIデータセット、Cityscapesデータセット、及びFetch Indoor Navigationデータセットで実験 • 既存手法(中央の行)と比較して、本論文の手法(下段)の方がより精度の高い深度予測が可能 KITTIデータセット Cityscapesデータセット 既存手法 [Zhou, et al.(2017)] 本論文の手法
  • 13. 4. 実験結果 13 運動モデルの評価 • 右図はCityscapesデータセットでの深度推定の例 • 従来の手法ではカメラ自体と一緒に動くオブジェクトの 推定精度が低い • 下表は、KITTIデータセットによる深度推定の精度 • 運動モデルと、推論プロセス中に予測を洗練するオン ライン適応方法の双方を採用することでSOTA
  • 14. 4. 実験結果 14 KITTI オドメトリテストシーケンスにおけるオドメトリの定量的評価 • KITTIオドメトリデータセットによって実行されたオドメトリ(自己位置推定)の結果の比較 • テストされた合計走行シーケンス長は、それぞれ1,702メートルと918メートル
  • 16. 5. まとめ 16 結論 • センサーを利用せずに、単眼のビデオカメラの入力からシーンの深度を予測する • カメラのエゴモーション(カメラ自身の速度や動き)を教師なし学習で推定する • オブジェクトの動きを含むシーンにおける深度予測及び、エゴモーション推定でSOTA • 屋外での訓練モデルを屋内ナビゲーションのためにドメイン転送も可能
  • 17. Appendix 参考文献 17 • Wang, Z.; Bovik, A. C.; Sheikh, H. R.; and Simoncelli, E. P. 2004. Image quality assessment: from error visibility to structural similarity. Transactions on Image Processing. • Wang, C.; Buenaposada, J. M.; Zhu, R.; and Lucey, S. 2018. Learning depth from monocular videos using direct methods. CVPR. • Zhan, H.; Garg, R.; Weerasekera, C.; Li, K.; Agarwal, H.; and Reid, I. 2018. Unsupervised learning of monocular depth estimation and visual odometry with deep feature reconstruction. CVPR. • Zhou, T.; Brown, M.; Snavely, N.; and Lowe, D. 2017. Unsupervised learning of depth and ego-motion from video. CVPR.
  • 18. Appendix 補足 18 • Unsupervised Learning of Depth and Ego-Motion from Video[Zhou, et al.(2017)] を引用 • ターゲットビュー内の各点𝑝𝑡について、まず予測深度とカメラの姿勢に基づいてソースビューに投影し、バイリニア補間を 使用して位置𝑝𝑡におけるワープ画像 𝐼𝑠の値を取得する