[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Differentiable Mapping Networks: Learning
Structured Map Representations for Sparse
Visual Localization Jumpei Arima

書誌情報
• タイトル：
Differentiable Mapping Networks:
Learning Structured Map Representations for Sparse Visual Localization
• 著者： Peter Karkus, Anelia Angelova, Vincent Vanhoucke, Rico Jonschkowski
– first authorはNational University of Singapore
– Robotics at Googleでのインターン中の成果
• 会議：ICRA2020
• project page: https://sites.google.com/view/differentiable-mapping
• arxiv: https://arxiv.org/abs/2005.09530
2

背景
• Robot 学習の課題
– 実データのコストが高い、reality gap、Long horizon task、…
• Visual Navigation
– DD-PPO: LEARNING NEAR-PERFECT POINTGOAL NAVIGATORS FROM 2.5 BILLION FRAMES[ICLR2020]
• simでのvisual navigation方策獲得に2.5 billion steps(180 days of GPU-time)
3
・データ効率を上げる
・従来のRoboticsの技術の活用
・Robotics特有の事前知識の導入

背景
• Differentiable Algorithm Networks for Composable Robot Learning[RSS2019]
– データ駆動とモデル駆動の利点を融合した手法
• Learning Explore Using Active Neural SLAM[CVPR2020]
– habitat challenge2019優勝チームの手法
– Mapping, Localization, Planningを別々に学習(一部解析的手法含む)
– 階層的なシステムで、サンプル効率・性能ともに向上
4

背景
• 微分可能なRobotics研究
5

問題設定
<Sparse visual mapping and localization>
→street viewから得られるな情報(数視点からの画像)からMappingし
与えられた画像から位置を推定する
<課題>
• 疎な情報だけからマッピングをする
• 視点が大きく変わったところから
推定する必要がある
＜応用先＞
• 自動運転(都市環境での自己位置推定)
• multi-robot mapping
• 外観の変化が多い倉庫 etc.
6

背景
<良い地図表現とは>
• 地図は環境の変化と下位タスク(自己位置推定など)のために
柔軟に対応する必要がある
• 少ないデータから空間構造を構築する必要がある
<従来のマッピング> ＜DNNを用いた手法＞
・空間構造・柔軟に対応可能
・変化に対応しづらい・タスクに特化したマップ生成可能
・タスクごとに変更できない・空間構造が欠ける 7

Proposed Method
• DNNによる柔軟な環境表現と幾何情報による空間把握を
組み合わせた方法を提案
→全体が微分可能なモデルなので、タスクに特化したマップ表現が可能
8

Proposed Method
<Mapping>
数視点からの画像から潜在Mapを生成
<Egocentric Spatial Attention>
query視点から潜在Mapを解釈
するための注意機構
(query視点に潜在Mapを座標変換)
<Particle Filter Localization>
微分可能なPFで自己位置推定
9

Proposed Method
<Mapping>
• Context画像を
画像埋め込み表現: 𝑉 𝑖
視点座標:
𝑠 𝑖
= (𝑥, 𝑦, 𝑠𝑖𝑛𝜑, 𝑐𝑜𝑠𝜑)
で表現された潜在マップ m を生成
• Feature Extractorは4層のCNN
– Context画像間で重みは共有
10
𝑚 = < 𝑉 𝑖, 𝑠 𝑖 > 𝑖 = 1: 𝑁𝑐

Proposed Method
<Egocentric Spatial Attention>
• query基準の空間構造に対しての注意機構
• query keyとview keysのスカラ積を重みとした
Context画像埋め込み表現を重み付け和を算出
• 地図の空間構造を活用し、特徴量抽出の難易度を大幅に減少する
11

Proposed Method
＜Particle Filter Localization＞
• Differentiable PFを用いて潜在マップとquery画像から自己位置推定を行う
• 𝑏𝑡 𝑠 ≈< 𝑠𝑡
𝑘
, log 𝜔 𝑡
𝑘
> 𝑘 = 1: 𝐾
– 𝑠𝑡
𝑘
: ロボットの候補位置(query画像の視点)←初期分布𝑏0
– log 𝜔 𝑡
𝑘
: particleの対数尤度
12
Observation Model
log 𝜔 𝑡
𝑘
=
log 𝑙 𝜃 + log 𝜔 𝑡−1
𝑘
+ 𝜂
m:View embedding map
Transition Model
𝑠𝑡
𝑘
= 𝑓𝑇(𝑠𝑡−1
𝑘
−, ∆ 𝑡)
𝑠𝑡 =
𝑘
𝜔 𝑡
𝑘
𝑠𝑡
𝑘

Proposed Method
<Observation Model>
• particleの位置𝑠𝑡
𝑘
と潜在マップ𝑚 を与えられたとき
画像𝑄𝑡 を観測する条件付き対数確率
𝑙 𝜃(𝑄𝑡, 𝑠𝑡
𝑘
, 𝑚) ≈ log 𝑝(𝑄𝑡|𝑠𝑡
𝑘
, 𝑚) を推定
• Networkはparticleの対数尤度𝑙 𝑡
𝑘
= log 𝑝(𝑄𝑡|𝑠𝑡
𝑘
, 𝑚)を直接出力する
log 𝜔 𝑡
𝑘
= log 𝑙 𝜃(𝑄𝑡, 𝑠𝑡
𝑘
, 𝑚) + log 𝜔 𝑡−1
𝑘
+ 𝜂
– 正規化されてないので
𝜂 = − log 𝑗=1
𝐾
𝑒log 𝜔 𝑡
𝑘
で正規化する
• particle間で学習パラメータは共有
13

Proposed Method
＜End-to-End training＞
• DMNは全体が微分可能であるので、localizationのタスクに対してマッピン
グを最適化するように学習が可能。
• 損失関数はMSE (αはハイパラ(0.5))
ℒ = 𝑠 − 𝑠∗ 2 = 𝑥 − 𝑥∗ 2 + (𝑦 − 𝑦∗)2+ 𝛼(𝜑 − 𝜑∗)2
コンテキストの数とパーティクルの数は重みを共有しているので
変えることが可能
14

Experiments
<dataset>
• sim: GQN dataset(データ量はGQNの1%)
– Rooms(100k env * 10img), Mazes(960 env * 300 img)
• real: Street View dataset
– 40*40mの範囲からランダムに10画像をsample(train:3838746test: 16359)
<評価>
• Global LocalizationとTrackingにおける自己位置推定精度
– (x,yのRMSEが8.94m以下(範囲の約15%)のときglobal localizationが成功とする)
15

Experiments
＜比較手法＞
• Mapping
– Latent image map
• 空間構造を明に表現しないnetwork
– Latent vector map
• Latent image mapのmap部分をvectorで表現
• Localization
– Regression
• 回帰によってposeを直接推定(DMNのparticleが一つと同じ)
– Closet context
• query poseに最も近いcontextのpose(画像の類似度による手法の上限としての指標)
– Uninformed estimate
• 初期分布から狀態遷移のみを考慮した場合(タスクの難しさを示す)
16

Experiments
<simでのGlobal Localization>
• 複雑な環境になると(Rooms →Mazes)
RegressionよりPFが優れていることがわかる
17

Experiments
<realでのGlobal Localization>
• 提案手法であるView-embed(提案手法)とPF(提案手法)の双方が
real dataの複雑で広範囲のlocalizationには効果的であることがわかる
18

Experiments
<5stepのtracking後の自己位置推定精度>
• Street Viewで最も提案手法の有用性が示せてる
• PFが複雑な環境で効果的
19

Experiments
<データ効率(Fig. 7)>
比較手法に比べてtrainingデータ量が少ない時に性能が高い
＜Contextの数(Fig. 8,9)＞
Contextの数の上昇によっての成功率の増加率は提案手法が高い
20

Experiments
<長距離tracking精度 (Fig. 10) >
PFが長距離を考えるには適している
<particleの数 (Fig. 11) >
増やした方が良い結果(計算コストとトレードオフ)
21

Conclusion
• Sparseな画像のみが与えられるLocalizationに最適化された
微分可能な地図生成ネットワーク(DMN)を提案
• Egocentric Spatial Attentionで空間的に構造化された潜在マップを
用いることで、広範囲な複雑な環境において、
学習データが少なくても適用できることを示した
＜Future Work＞
• 世界中どこでもVisual Localizationを可能にする
• 微分可能なVisual SLAMへの応用
22

[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization

More Related Content

What's hot (20)

Similar to [DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization (20)

More from Deep Learning JP (20)

Recently uploaded (10)

[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representations for Sparse Visual Localization