SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Differentiable Mapping Networks: Learning
Structured Map Representations for Sparse
Visual Localization Jumpei Arima
書誌情報
• タイトル:
Differentiable Mapping Networks:
Learning Structured Map Representations for Sparse Visual Localization
• 著者: Peter Karkus, Anelia Angelova, Vincent Vanhoucke, Rico Jonschkowski
– first authorはNational University of Singapore
– Robotics at Googleでのインターン中の成果
• 会議:ICRA2020
• project page: https://sites.google.com/view/differentiable-mapping
• arxiv: https://arxiv.org/abs/2005.09530
2
背景
• Robot 学習の課題
– 実データのコストが高い、reality gap、Long horizon task、…
• Visual Navigation
– DD-PPO: LEARNING NEAR-PERFECT POINTGOAL NAVIGATORS FROM 2.5 BILLION FRAMES[ICLR2020]
• simでのvisual navigation方策獲得に2.5 billion steps(180 days of GPU-time)
3
・データ効率を上げる
・従来のRoboticsの技術の活用
・Robotics特有の事前知識の導入
背景
• Differentiable Algorithm Networks for Composable Robot Learning[RSS2019]
– データ駆動とモデル駆動の利点を融合した手法
• Learning Explore Using Active Neural SLAM[CVPR2020]
– habitat challenge2019優勝チームの手法
– Mapping, Localization, Planningを別々に学習(一部解析的手法含む)
– 階層的なシステムで、サンプル効率・性能ともに向上
4
背景
• 微分可能なRobotics研究
5
問題設定
<Sparse visual mapping and localization>
→street viewから得られるな情報(数視点からの画像)からMappingし
与えられた画像から位置を推定する
<課題>
• 疎な情報だけからマッピングをする
• 視点が大きく変わったところから
推定する必要がある
<応用先>
• 自動運転(都市環境での自己位置推定)
• multi-robot mapping
• 外観の変化が多い倉庫 etc.
6
背景
<良い地図表現とは>
• 地図は環境の変化と下位タスク(自己位置推定など)のために
柔軟に対応する必要がある
• 少ないデータから空間構造を構築する必要がある
<従来のマッピング> <DNNを用いた手法>
・空間構造 ・柔軟に対応可能
・変化に対応しづらい ・タスクに特化したマップ生成可能
・タスクごとに変更できない ・空間構造が欠ける 7
Proposed Method
• DNNによる柔軟な環境表現と幾何情報による空間把握を
組み合わせた方法を提案
→全体が微分可能なモデルなので、タスクに特化したマップ表現が可能
8
Proposed Method
<Mapping>
数視点からの画像から潜在Mapを生成
<Egocentric Spatial Attention>
query視点から潜在Mapを解釈
するための注意機構
(query視点に潜在Mapを座標変換)
<Particle Filter Localization>
微分可能なPFで自己位置推定
9
Proposed Method
<Mapping>
• Context画像を
画像埋め込み表現: 𝑉 𝑖
視点座標:
𝑠 𝑖
= (𝑥, 𝑦, 𝑠𝑖𝑛𝜑, 𝑐𝑜𝑠𝜑)
で表現された潜在マップ m を生成
• Feature Extractorは4層のCNN
– Context画像間で重みは共有
10
𝑚 = < 𝑉 𝑖, 𝑠 𝑖 > 𝑖 = 1: 𝑁𝑐
Proposed Method
<Egocentric Spatial Attention>
• query基準の空間構造に対しての注意機構
• query keyとview keysのスカラ積を重みとした
Context画像埋め込み表現を重み付け和を算出
• 地図の空間構造を活用し、特徴量抽出の難易度を大幅に減少する
11
Proposed Method
<Particle Filter Localization>
• Differentiable PFを用いて潜在マップとquery画像から自己位置推定を行う
• 𝑏𝑡 𝑠 ≈< 𝑠𝑡
𝑘
, log 𝜔 𝑡
𝑘
> 𝑘 = 1: 𝐾
– 𝑠𝑡
𝑘
: ロボットの候補位置(query画像の視点)←初期分布𝑏0
– log 𝜔 𝑡
𝑘
: particleの対数尤度
12
Observation Model
log 𝜔 𝑡
𝑘
=
log 𝑙 𝜃 + log 𝜔 𝑡−1
𝑘
+ 𝜂
m:View embedding map
Transition Model
𝑠𝑡
𝑘
= 𝑓𝑇(𝑠𝑡−1
𝑘
−, ∆ 𝑡)
𝑠𝑡 =
𝑘
𝜔 𝑡
𝑘
𝑠𝑡
𝑘
Proposed Method
<Observation Model>
• particleの位置𝑠𝑡
𝑘
と潜在マップ𝑚 を与えられたとき
画像𝑄𝑡 を観測する条件付き対数確率
𝑙 𝜃(𝑄𝑡, 𝑠𝑡
𝑘
, 𝑚) ≈ log 𝑝(𝑄𝑡|𝑠𝑡
𝑘
, 𝑚) を推定
• Networkはparticleの対数尤度𝑙 𝑡
𝑘
= log 𝑝(𝑄𝑡|𝑠𝑡
𝑘
, 𝑚)を直接出力する
log 𝜔 𝑡
𝑘
= log 𝑙 𝜃(𝑄𝑡, 𝑠𝑡
𝑘
, 𝑚) + log 𝜔 𝑡−1
𝑘
+ 𝜂
– 正規化されてないので
𝜂 = − log 𝑗=1
𝐾
𝑒log 𝜔 𝑡
𝑘
で正規化する
• particle間で学習パラメータは共有
13
Proposed Method
<End-to-End training>
• DMNは全体が微分可能であるので、localizationのタスクに対してマッピン
グを最適化するように学習が可能。
• 損失関数はMSE (αはハイパラ(0.5))
ℒ = 𝑠 − 𝑠∗ 2 = 𝑥 − 𝑥∗ 2 + (𝑦 − 𝑦∗)2+ 𝛼(𝜑 − 𝜑∗)2
コンテキストの数とパーティクルの数は重みを共有しているので
変えることが可能
14
Experiments
<dataset>
• sim: GQN dataset(データ量はGQNの1%)
– Rooms(100k env * 10img), Mazes(960 env * 300 img)
• real: Street View dataset
– 40*40mの範囲からランダムに10画像をsample(train:3838746test: 16359)
<評価>
• Global LocalizationとTrackingにおける自己位置推定精度
– (x,yのRMSEが8.94m以下(範囲の約15%)のときglobal localizationが成功とする)
15
Experiments
<比較手法>
• Mapping
– Latent image map
• 空間構造を明に表現しないnetwork
– Latent vector map
• Latent image mapのmap部分をvectorで表現
• Localization
– Regression
• 回帰によってposeを直接推定(DMNのparticleが一つと同じ)
– Closet context
• query poseに最も近いcontextのpose(画像の類似度による手法の上限としての指標)
– Uninformed estimate
• 初期分布から狀態遷移のみを考慮した場合(タスクの難しさを示す)
16
Experiments
<simでのGlobal Localization>
• 複雑な環境になると(Rooms →Mazes)
RegressionよりPFが優れていることがわかる
17
Experiments
<realでのGlobal Localization>
• 提案手法であるView-embed(提案手法)とPF(提案手法)の双方が
real dataの複雑で広範囲のlocalizationには効果的であることがわかる
18
Experiments
<5stepのtracking後の自己位置推定精度>
• Street Viewで最も提案手法の有用性が示せてる
• PFが複雑な環境で効果的
19
Experiments
<データ効率(Fig. 7)>
比較手法に比べてtrainingデータ量が少ない時に性能が高い
<Contextの数(Fig. 8,9)>
Contextの数の上昇によっての成功率の増加率は提案手法が高い
20
Experiments
<長距離tracking精度 (Fig. 10) >
PFが長距離を考えるには適している
<particleの数 (Fig. 11) >
増やした方が良い結果(計算コストとトレードオフ)
21
Conclusion
• Sparseな画像のみが与えられるLocalizationに最適化された
微分可能な地図生成ネットワーク(DMN)を提案
• Egocentric Spatial Attentionで空間的に構造化された潜在マップを
用いることで、広範囲な複雑な環境において、
学習データが少なくても適用できることを示した
<Future Work>
• 世界中どこでもVisual Localizationを可能にする
• 微分可能なVisual SLAMへの応用
22

More Related Content

What's hot (20)

PPTX
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)
harmonylab
 
PPTX
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
Deep Learning JP
 
PDF
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
Yukiyoshi Sasao
 
PDF
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
cvpaper. challenge
 
PDF
【CVPR 2019】Learning spatio temporal representation with local and global diff...
cvpaper. challenge
 
PDF
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
Kitsukawa Yuki
 
PDF
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Deep Learning JP
 
PDF
PCAの最終形態GPLVMの解説
弘毅 露崎
 
PDF
FPGAX2016 ドキュンなFPGA
Hiroki Nakahara
 
PPTX
[DL輪読会]Graph R-CNN for Scene Graph Generation
Deep Learning JP
 
PDF
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
Ryohei Ueda
 
PDF
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
Kitsukawa Yuki
 
PDF
semantic segmentation サーベイ
yohei okawa
 
PPTX
CNNの構造最適化手法(第3回3D勉強会)
MasanoriSuganuma
 
PDF
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
Kenta Oono
 
PDF
(公開版)FPGAエクストリームコンピューティング2017
Hiroki Nakahara
 
PDF
Taking a Deeper Look at the Inverse Compositional Algorithm
Mai Nishimura
 
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
PDF
Deep learning入門
magoroku Yamamoto
 
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)
harmonylab
 
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
Deep Learning JP
 
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
Yukiyoshi Sasao
 
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
cvpaper. challenge
 
【CVPR 2019】Learning spatio temporal representation with local and global diff...
cvpaper. challenge
 
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
Kitsukawa Yuki
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Deep Learning JP
 
PCAの最終形態GPLVMの解説
弘毅 露崎
 
FPGAX2016 ドキュンなFPGA
Hiroki Nakahara
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
Deep Learning JP
 
三次元点群処理ライブラリPCLと 統合ロボットシステム研究での 利用例の紹介
Ryohei Ueda
 
Scan Registration for Autonomous Mining Vehicles Using 3D-NDT
Kitsukawa Yuki
 
semantic segmentation サーベイ
yohei okawa
 
CNNの構造最適化手法(第3回3D勉強会)
MasanoriSuganuma
 
2015年9月18日 (GTC Japan 2015) 深層学習フレームワークChainerの導入と化合物活性予測への応用
Kenta Oono
 
(公開版)FPGAエクストリームコンピューティング2017
Hiroki Nakahara
 
Taking a Deeper Look at the Inverse Compositional Algorithm
Mai Nishimura
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
Deep learning入門
magoroku Yamamoto
 

Similar to [DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization (20)

PDF
Visual slam
Takuya Minagawa
 
PPTX
[DL輪読会]Learning to Navigate in Cities Without a Map
Deep Learning JP
 
PDF
20190307 visualslam summary
Takuya Minagawa
 
PDF
Robotpaper.Challenge 2019-09 ver2
robotpaperchallenge
 
PPTX
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
Deep Learning JP
 
PPTX
3Dマップを活用したVisual Localization
Hajime Taira
 
PDF
3DFeat-Net
Takuya Minagawa
 
PDF
動物とロボットの空間ナビゲーション
Horiguchi Shuhei
 
PPTX
Robot frontier lesson3 2018
Ryuichi Ueda
 
PDF
IROS2020 survey
robotpaperchallenge
 
PDF
20140726.西野研セミナー
Hayaru SHOUNO
 
PDF
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Masaya Kaneko
 
PDF
RobotPaperChallenge 2019-07
robotpaperchallenge
 
PDF
論文紹介 LexToMap: lexical-based topological mapping
Akira Taniguchi
 
PDF
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII
 
PDF
ロボティクスにおける SLAM 手法と実用化例
Yoshitaka HARA
 
PDF
[DL輪読会]Unsupervised Learning of 3D Structure from Images
Deep Learning JP
 
PPTX
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
Masaya Kaneko
 
PDF
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
harmonylab
 
PDF
Probabilistic Robotics: Chapter 6-7
Shintaro Shiba
 
Visual slam
Takuya Minagawa
 
[DL輪読会]Learning to Navigate in Cities Without a Map
Deep Learning JP
 
20190307 visualslam summary
Takuya Minagawa
 
Robotpaper.Challenge 2019-09 ver2
robotpaperchallenge
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
Deep Learning JP
 
3Dマップを活用したVisual Localization
Hajime Taira
 
3DFeat-Net
Takuya Minagawa
 
動物とロボットの空間ナビゲーション
Horiguchi Shuhei
 
Robot frontier lesson3 2018
Ryuichi Ueda
 
IROS2020 survey
robotpaperchallenge
 
20140726.西野研セミナー
Hayaru SHOUNO
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Masaya Kaneko
 
RobotPaperChallenge 2019-07
robotpaperchallenge
 
論文紹介 LexToMap: lexical-based topological mapping
Akira Taniguchi
 
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII
 
ロボティクスにおける SLAM 手法と実用化例
Yoshitaka HARA
 
[DL輪読会]Unsupervised Learning of 3D Structure from Images
Deep Learning JP
 
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
Masaya Kaneko
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
harmonylab
 
Probabilistic Robotics: Chapter 6-7
Shintaro Shiba
 
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
Ad

Recently uploaded (10)

PDF
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
PDF
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
PDF
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
PDF
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
PDF
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
PDF
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
PDF
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
 
PDF
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
PDF
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
ABC2025S LT講演「世界の窓から Androidこんにちは2025」アプリ自動生成の将来?ロボティクスの夢再び?
嶋 是一 (Yoshikazu SHIMA)
 
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 

[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization