SlideShare a Scribd company logo
LiDAR-Camera Fusionによる道路上の
物体検出サーベイ
2018年11月01日
takmin
自己紹介
2
株式会社ビジョン&ITラボ 代表取締役
皆川 卓也(みながわ たくや)
「コンピュータビジョン勉強会@関東」主催
博士(工学)
略歴:
1999-2003年
日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化)
http://visitlab.jp
この資料について
 LiDARとカメラ<両方>の情報を使用して車両や人などの物
体検出を行う手法の調査を行いました。
 カメラとLiDAR両方の情報を用いて上記タスクを行うには、両
センサー間のキャリブレーションが必須で、それだけで1つの
研究トピックですが、ここでは調査範囲外とします。
 物体検出は3次元的な物体位置検出を目的とするものと、画
像上での2次元的な物体位置検出を目的とするものに分ける
ことができます。
 ここではカメラのみ、またはLiDARのみを用いた物体検出につ
いては言及しません。
 ここでは車載カメラおよびLiDARを使用した屋外での物体検出
について調査を行い、屋内環境でRGBDセンサーを用いた物
体検出のケースについては対象外とします。
3D物体検出
 画像および点群から、物体に対し、直方体のBounding
Boxを検出するタスク
LiDAR-Camera Fusion 3D Object Detection
 [Qi2018] Qi, C. R., Liu,W.,Wu, C., Su, H., & Guibas, L. J. (2018). Frustum
PointNets for 3D Object Detection from RGB-D Data. In Conference on
ComputerVision and Pattern Recognition.
 [Ku2018]Ku, J., Mozifian, M., Lee, J., Harakeh,A., & Waslander, S. L. (2018).
Joint 3D Proposal Generation and Object Detection fromView
Aggregation. In International Conference on Intelligent Robots and Systems.
 [Chen2017]Chen, X., Ma, H.,Wan, J., Li, B., & Xia,T. (2017). Multi-View 3D
Object Detection Network for Autonomous Driving. In Conference on
ComputerVision and Pattern Recognition.
 [Liang2018]Liang, M.,Yang, B.,Wang, S., & Urtasun, R. (2018). Deep
Continuous Fusion for Multi-Sensor 3D Object Detection. In European
Conference on ComputerVision.
 [Xu2018]Xu, D.,Anguelov, D., & Jain,A. (2018). PointFusion: Deep Sensor
Fusion for 3D Bounding Box Estimation. Conference on ComputerVision and
Pattern
 [Du2018]Du, X., Jr, M. H.A., Karaman, S., Rus, D., & Feb, C.V. (2018).A
General Pipeline for 3D Detection ofVehicles. ArXiv, arXiv:1803.
車載センサー環境での3D物体検出
車載センサー(カメラ+LiDAR)を用い3D物体検出は以下のよう
に分類できます。
 カメラを初期位置の検出に使用し、LiDARの情報を統合して
Refine
[Qi2018]Frustom PointNet
[Xu2018]PointFusion
[Du2018]General Pipeline
 LiDARを初期位置の検出に使用し、カメラ情報を統合して
Refine
[Chen2017]MV3D
 LiDARとカメラの両方から取得した特徴量を融合して物体検
出
[Ku2018]AVOD
[Liang2018]Deep Continuous Fusion
[Qi2018]Frustum PointNet (1/2)
 KITTI 3D Object Detection Evaluationで上位の成績
 従来のDeep Learningベース画像検出器で画像から物体
を検出し、そのFrustum上の点群をPointNetでSemantic
Segmentationすることで3D Bounding Boxを検出
[Qi2018]Frustum PointNet (2/2)
 Frustum上で座標系を正規化するのがポイント
 ソースコード
https://github.com/charlesq34/frustum-pointnets
画像から物体検出
• Frustum上の点群を
Segmentation
• 画像上での物体識別結果
を事前知識として使用
• 物体に属する点群のみを使用
• T-Netで姿勢を補正
• Bounding Boxのパラメータを推定
[Ku2018] Aggregate View Object Detection
(AVOD) (1/2)
 Frustom PointNetと並びKITTI Benchmarkで好成績
 Faster R-CNNのRegion Proposal Network (RPN)の考え方を
もとに3次元上の物体候補を算出
 ソースコード
https://github.com/kujason/avod
[Ku2018] Aggregate View Object Detection
(AVOD) (2/2)
 点群をBirdView (XY平面)へ投影し、MV3D[Chen2017]と同様の手法で点の密度
や高さなどから6チャネルの画像を生成(BEV Input)
 BEVと画像それぞれから特徴マップを生成
 Region Proposal Network (RPN)で物体候補領域をアンカー形状との差分という
形で出力
 Detection Networkで各物体候補領域のクラス、向き、サイズを算出
Region Proposal Network
Point Cloud Feature Extractor
Image Feature Extractor
Detection Network
[Chen2017]MV3D (1/2)
 入力点群をBirdViewおよびFrontViewへ投影し、画像として扱う
 BirdViewから物体候補領域(3D)を検出し、BirdView、FrontViewお
よびRGB画像へ投影
 投影された3D候補領域をROI Pooling後に、3つのViewを統合し、最
終的な物体クラスとBounding Boxを出力します。
[Chen2017]MV3D (2/2)
 入力点群をBirdViewおよびFrontViewへ投影し、画像として扱
う
BirdView:(M+2)チャネル
Z方向にM個のスライスを作成し、各スライスのZの最大値(Height Maps)
各セルの点の個数(Density)
各セルの最も高い点(Z最大)の反射率(Intensity)
FrontView: 3チャネル
Height、Distance、Intensity
 ソースコード
https://github.com/bostondiditeam/MV3D
[Liang2018]Deep Continuous Fusion (1/2)
 点群をBirdViewへ投影し画像として扱うことでCNN可能に
 画像から取得した特徴量をBirdViewのCNN各層の特徴量と
結合することで、疎な点群の情報を補間し精度向上
 画像特徴と結合したBirdView特徴をもとに3次元物体検出
 画像とBirdViewの特徴量の統合にDeep Parametric
Continuous Convolutionを利用(Continuous Fusion)
[Liang2018]Deep Continuous Fusion (2/2)
 Deep Parametric Continuous Convolution
Wang, S., Suo, S., Ma,W., & Urtasun, R. “Deep Parametric Continuous Convolutional Neural
Networks”. CVPR2018
畳み込みカーネルを離散ではなく、パラメトリックな連続関数(Multi-Layer Perceptron)とし
て表現することで、点群のような非構造的な離散データに畳み込み演算を適用(付録参
照)
 Deep Continuous Fusion
BirdView上の任意の画素の特徴量(点が存在しなくても可)を、Deep Parametric
Continuous Convolutionを用いてカメラ画像の特徴量で補間
1. BirdView上の任意の画素のK
近傍点(画素)を取得
2. K近傍点上の点群を復元
3. 点群をカメラ画像上へ投影
4. 投影した点の画像特徴量を取
得
5. K個のカメラ画像からの特徴量
と三次元点群を投影した時の
ずれをもとにMulti-layer
PerceptronでBirdView上の画
素の特徴量を算出
[Xu2018]Point Fusion (1/2)
 物体検出は画像に対してFaster R-CNNなどを用いて行い、検出結
果をもとに3D Bounding Boxを推定
 Bounding Boxから取得した点群とカメラ画像をそれぞれPointNetと
ResNetで独立に処理し、その結果をFusion Networkで統合
Global FusionとDense Fusionの2通りの方法でBounding Box推定
 KITTIで評価しSOTA(ただし比較対象がMV3Dのみ)
[Xu2018]Point Fusion (2/2)
 Global FusionではPointNetの全体特徴とResNetからの特徴
量を統合して、直接Bounding Box推定
 Dense FusionではPointNetの全体特徴と点ごとの特徴、およ
びResNetの画像特徴を統合し、点ごとのBounding Box内での
相対位置を推定
 現時点でソースコード非公開
[Du2018]General Pipeline
 一般的な2Dの物体検出器をLiDARの情報を加えて3Dへ
拡張するための手法の提案
 2D物体検出の結果から点群を切り出し、この点群から
3D Bounding Boxを取得
 3D Bounding Box内の点群を用いて、より正確な
Bounding Boxと識別結果を出力
KITTI 3D Object Detection Evaluation
 ここで紹介した各研究についてKITTI 3D Object
Detection Evaluation上での性能を比較しました。
http://www.cvlibs.net/datasets/kitti/eval_object.php
 上記サイトに性能の記載のないものは論文での実験結
果を参照しました。
 比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ
て行いました。
 評価方法の詳細については上記サイトを参照してくださ
い。
KITTI 3D Object Detection Evaluation
 Car
Method Moderate Easy Hard Runtime Environment
AVOD-FPN 71.88 % 81.94 % 66.38 % 0.1 s Titan X (Pascal)
Frustom PointNet 70.39 % 81.20 % 62.19 % 0.17 s
GPU @ 3.0 Ghz
(Python)
Deep Continuous Fusion 66.22 % 82.54 % 64.04 % 0.06 s
GPU @ 2.5 Ghz
(Python)
AVOD 65.78 % 73.59 % 58.38 % 0.08 s Titan X (pascal)
PointFusion 63.00 % 77.92 % 53.27 %
MV3D 62.35 % 71.09 % 55.12 % 0.36 s
GPU @ 2.5 Ghz
(Python + C/C++)
General Pipeline (MS-CNN) 55.26 % 55.82 % 51.89 %
MV3D (LIDAR) 52.73 % 66.77 % 51.31 % 0.24 s
GPU @ 2.5 Ghz
(Python + C/C++)
General Pipeline (PC-CNN) 51.74 % 57.63 % 51.39 %
AVOD-FPN: AVODにFeature Pyramid Network [Lin2017]というFeature Mapを物体検出用にマルチスケールにする技術を
適用したもの
[Lin2017]Tsung-Yi Lin, Piotr Dollar, Ross Girshick,“Feature Pyramid Networks for Object Detection”, CVPR2017
KITTI 3D Object Detection Evaluation
 Pedestrian
Method Moderate Easy Hard Runtime Environment
Frustom PointNet 44.89 % 51.21 % 40.23 % 0.17 s
GPU @ 3.0 Ghz
(Python)
AVOD-FPN 42.81 % 50.80 % 40.88 % 0.1 s Titan X (Pascal)
AVOD 31.51 % 38.28 % 26.98 % 0.08 s Titan X (pascal)
PointFusion 28.04 % 33.36 % 23.38 %
KITTI 3D Object Detection Evaluation
 Cyclist
Method Moderate Easy Hard Runtime Environment
Frustom PointNet 56.77 % 71.96 % 50.39 % 0.17 s
GPU @ 3.0 Ghz
(Python)
AVOD-FPN 52.18 % 64.00 % 46.61 % 0.1 s Titan X (Pascal)
AVOD 31.51 % 38.28 % 26.98 % 0.08 s Titan X (pascal)
PointFusion 29.42 % 49.34 % 26.98 %
2D物体検出
 画像上の物体を検出し、位置とスケールを表す矩形を出
力するタスク
LiDAR-Camera Fusion 2D Object Detection
 [Premebida2014]Premebida, C., Carreira, J., Batista, J., & Nunes,
U. (2014). Pedestrian detection combining RGB and dense
LIDAR data. IEEE International Conference on Intelligent Robots
and Systems,
 [Gonzalez2017]Gonzalez,A.,Vazquez, D., Lopez,A. M., &
Amores, J. (2017). On-Board Object Detection: Multicue,
Multimodal, and Multiview Random Forest of Local Experts.
IEEETransactions on Cybernetics, 47(11), 3980–3990.
 [Costea2017]Costea,A. D.,Varga, R., & Nedevschi, S. (2017).
Fast Boosting based Detection using Scale Invariant Multimodal
Multiresolution Filtered Features. Conference on ComputerVision
and Pattern Recognition
 [Asvadi2017]Asvadi,A., Garrote, L., Premebida, C., Peixoto, P., &
J. Nunes, U. (2017). Multimodal vehicle detection: Fusing 3D-
LIDAR and color camera data. Pattern Recognition Letters,
(September).
車載センサー環境での2D物体検出
車載センサー(カメラ+LiDAR)を用い2D物体検出は以下
のように分類できます。
 LiDARとカメラの両方から取得した特徴量を融合して物
体検出
[Premebida2014]Fusion-DPM
[Gonzalez2017]MV-RGBD-RF
[Costea2017]MM-MRFC
 LiDARとカメラから独立に物体を検出して統合
[Premebida2014]Fusion-DPM
[Asvadi2017]Multimodal Detection
[Premebida2014] Fusion-DPM
 RGB画像とデプス画像にDeformable Part Modelによる人
物検出の特徴量を取得し、2通りの方法で統合
特徴量を統合してから人物検出
それぞれで人物検出をしてから結果を統合
点群からアップサンプルでデプス画像を生成
[Gonzalez2017]MV-RGBD-RF
 RGB画像とデプス画像に対し、HOGとLBPで特徴量を抽
出し、Random Forestを用いて様々な視点の物体の情報
を統合的に学習
[Costea2017]MM-MRFC
 カラー画像、Motion(オプティカルフロー)、Depthを、色、勾配の強さ、勾
配方向のチャネルへ分離し、Box Filterを繰り返しかけることで、さらにマ
ルチ解像度のチャネルへ分離
 画像からとデプスから垂直/水平位置やエッジ、奥行き、道路位置など、
Contextを表すチャネルを取得
 AdaboostとSlidingWindowによって物体検出
 Deep Learningベースの手法と同等の性能で、10-100倍高速
[Asvadi2017]Multimodal Detection
 LiDARデータからデプス(DM)と反射率(RM)のマップを生
成し、DMとRMおよび画像に対して、それぞれのチャネル
用に学習したYOLOを用いて物体検出
 それぞれのチャネルの検出結果を統合することで、最終
結果を算出
 ソースコード(現時点では未公開)
https://github.com/alirezaasvadi/Multimodal
KITTI Object Detection 2012 Evaluation
 ここで紹介した各研究についてKITTI Object Detection
2012 Evaluation上での性能を比較しました。
http://www.cvlibs.net/datasets/kitti/eval_object.php
 比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ
て行いました。
 評価方法の詳細については上記サイトを参照してくださ
い。
KITTI Object Detection 2012 Evaluation
 Car
Method Moderate Easy Hard Runtime Environment
F-PointNet 90.00 % 90.78 % 80.80 % 0.17 s
GPU @ 3.0 Ghz
(Python)
MV3D 89.17 % 90.53 % 80.16 % 0.36 s
GPU @ 2.5 Ghz
(Python + C/C++)
MM-MRFC 88.20 % 90.93 % 78.02 % 0.05 s
GPU @ 2.5 Ghz
(C/C++)
AVOD 88.08 % 89.73 % 80.14 % 0.08 s Titan X (pascal)
AVOD-FPN 87.44 % 89.99 % 80.05 % 0.1 s Titan X (Pascal)
MV3D (LIDAR) 79.76 % 89.80 % 78.61 % 0.24 s
GPU @ 2.5 Ghz
(Python + C/C++)
Faster R-CNN 79.11 % 87.90 % 70.19 % 2 s
GPU @ 3.5 Ghz
(Python + C/C++)
MV-RGBD-RF 69.92 % 76.49 % 57.47 % 4 s
4 cores @ 2.5 Ghz
(C/C++)
Multimodal
Detection
46.77 % 64.04 % 39.38 % 0.06 s
GPU @ 3.5 Ghz
(Matlab + C/C++)
KITTI Object Detection 2012 Evaluation
 Pedestrian
Method Moderate Easy Hard Runtime Environment
F-PointNet 77.25 % 87.81 % 74.46 % 0.17 s GPU @ 3.0 Ghz (Python)
MM-MRFC 69.96 % 82.37 % 64.76 % 0.05 s GPU @ 2.5 Ghz (C/C++)
Faster R-CNN 65.91 % 78.35 % 61.19 % 2 s
GPU @ 3.5 Ghz (Python +
C/C++)
AVOD-FPN 58.42 % 67.32 % 57.44 % 0.1 s Titan X (Pascal)
MV-RGBD-RF 56.59 % 73.05 % 49.63 % 4 s
4 cores @ 2.5 Ghz
(C/C++)
Fusion-DPM 46.67 % 59.38 % 42.05 % ~ 30 s
1 core @ 3.5 Ghz (Matlab
+ C/C++)
AVOD 43.49 % 51.64 % 37.79 % 0.08 s Titan X (pascal)
KITTI Object Detection 2012 Evaluation
 Cyclist
Method Moderate Easy Hard Runtime Environment
F-PointNet 72.25 % 84.90 % 65.14 % 0.17 s
GPU @ 3.0 Ghz
(Python)
Faster R-CNN 62.81 % 71.41 % 55.44 % 2 s
GPU @ 3.5 Ghz
(Python + C/C++)
AVOD-FPN 59.32 % 68.65 % 55.82 % 0.1 s Titan X (Pascal)
AVOD 56.01 % 65.72 % 48.89 % 0.08 s Titan X (pascal)
MV-RGBD-RF 42.61 % 51.46 % 37.42 % 4 s
4 cores @ 2.5 Ghz
(C/C++)
まとめ
 車載カメラとLiDAR両方の情報を用いた物体検出について調
査しました。
 物体検出タスクは3Dと2Dに分けられ3Dの手法は2Dにおいて
も高い性能を発揮します。
 3D物体検出でのLiDARデータはBirdViewに変換されて画像と
してニューラルネットワークに入力されるケースがほとんどで
したが、PointNetの登場により点群をそのまま処理する方法も
高い性能を発揮するようになりました。
 2D物体検出では、LiDARデータをデプスデータへ変換し、カメ
ラと視点を合わせることで、従来の画像ベースの物体検出の
新しいチャネルとして利用することで性能向上を図ります。
 LiDARとカメラそれぞれの特徴量をどの段階で融合するかが
手法それぞれで工夫されています。
[付録]PointNet
34
 Qi, C. R., Su, H., Mo, K., & Guibas, L. J. (2017). PointNet : Deep
Learning on Point Sets for 3D Classification and Segmentation
Big Data + Deep Representation Learning. IEEE Conference on
ComputerVision and Pattern Recognition (CVPR).
 各点群の点を独立に畳み込む
 Global Max Poolingで点群全体の特徴量を取得
各点を個別
に畳み込み
アフィン変換
各点の特徴を統合
[付録]Deep Parametric Continuous CNN
 カーネルを離散ではなく、パラメトリックな連続関数として表現
(ここではMulti-Layer Perceptron)
 任意の構造の入力に対して、任意の個所の出力が計算可能
ℎ 𝑛 = ෍
𝑚=−𝑀
𝑀
𝑓 𝑛 − 𝑚 𝑔[𝑚] ℎ 𝒙 = න
−∞
∞
𝑓 𝒚 𝑔 𝒙 − 𝒚 ⅆ𝑦 ≈ ෍
𝑖
𝑁
1
𝑁
𝑓 𝒚𝑖 𝑔(𝒙 − 𝒚𝑖)
連続カーネル離散カーネル

More Related Content

PDF
【チュートリアル】コンピュータビジョンによる動画認識
Hirokatsu Kataoka
 
PDF
30th コンピュータビジョン勉強会@関東 DynamicFusion
Hiroki Mizuno
 
PDF
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
 
PDF
【メタサーベイ】Neural Fields
cvpaper. challenge
 
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
PDF
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
 
PDF
20190307 visualslam summary
Takuya Minagawa
 
【チュートリアル】コンピュータビジョンによる動画認識
Hirokatsu Kataoka
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
Hiroki Mizuno
 
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
 
【メタサーベイ】Neural Fields
cvpaper. challenge
 
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII
 
20190307 visualslam summary
Takuya Minagawa
 

What's hot (20)

PDF
LiDAR点群と画像とのマッピング
Takuya Minagawa
 
PDF
SLAMチュートリアル大会資料(ORB-SLAM)
Masaya Kaneko
 
PDF
複数のGNSSを用いたポーズグラフ最適化
TaroSuzuki15
 
PDF
Deep Learningによる超解像の進歩
Hiroto Honda
 
PDF
CVPR2019読み会 "A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruc...
Hajime Mihara
 
PDF
LiDARとSensor Fusion
Satoshi Tanaka
 
PDF
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
PPTX
【DL輪読会】HexPlaneとK-Planes
Deep Learning JP
 
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
PDF
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
Hajime Mihara
 
PDF
Action Recognitionの歴史と最新動向
Ohnishi Katsunori
 
PDF
Lucas kanade法について
Hitoshi Nishimura
 
PDF
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
 
PPTX
Structure from Motion
Ryutaro Yamauchi
 
PDF
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII
 
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
PDF
【DL輪読会】Vision-Centric BEV Perception: A Survey
Deep Learning JP
 
PDF
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
Deep Learning JP
 
PDF
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
 
PDF
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII
 
LiDAR点群と画像とのマッピング
Takuya Minagawa
 
SLAMチュートリアル大会資料(ORB-SLAM)
Masaya Kaneko
 
複数のGNSSを用いたポーズグラフ最適化
TaroSuzuki15
 
Deep Learningによる超解像の進歩
Hiroto Honda
 
CVPR2019読み会 "A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruc...
Hajime Mihara
 
LiDARとSensor Fusion
Satoshi Tanaka
 
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
【DL輪読会】HexPlaneとK-Planes
Deep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
Hajime Mihara
 
Action Recognitionの歴史と最新動向
Ohnishi Katsunori
 
Lucas kanade法について
Hitoshi Nishimura
 
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
 
Structure from Motion
Ryutaro Yamauchi
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
【DL輪読会】Vision-Centric BEV Perception: A Survey
Deep Learning JP
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
Deep Learning JP
 
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII
 
Ad

Similar to object detection with lidar-camera fusion: survey (20)

PDF
object detection with lidar-camera fusion: survey (updated)
Takuya Minagawa
 
PDF
20181130 lidar object detection survey
Takuya Minagawa
 
PDF
20190131 lidar-camera fusion semantic segmentation survey
Takuya Minagawa
 
PDF
Trend of 3D object detections
Eiji Sekiya
 
PDF
物体検知(Meta Study Group 発表資料)
cvpaper. challenge
 
PDF
IEEE ITSS Nagoya Chapter
Takayoshi Yamashita
 
PDF
Tatsuya Sueki Bachelor Thesis
pflab
 
PDF
Muramatsu Bachelor Thesis
pflab
 
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
 
PDF
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
 
PDF
CVPR2018論文紹介「Pseudo Mask Augmented Object Detection」
諒介 荒木
 
PPTX
Sprint ronbunsyoukai
HideyukiTakahashi7
 
PDF
DeepLearningDay2016Summer
Takayoshi Yamashita
 
PDF
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
Takuya Minagawa
 
PDF
3DFeat-Net
Takuya Minagawa
 
PDF
画像認識における幾何学的不変性の扱い
Seiji Hotta
 
PDF
ICCV2011 report
Hironobu Fujiyoshi
 
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
PDF
Tutorial-DeepLearning-PCSJ-IMPS2016
Takayoshi Yamashita
 
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
 
object detection with lidar-camera fusion: survey (updated)
Takuya Minagawa
 
20181130 lidar object detection survey
Takuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
Takuya Minagawa
 
Trend of 3D object detections
Eiji Sekiya
 
物体検知(Meta Study Group 発表資料)
cvpaper. challenge
 
IEEE ITSS Nagoya Chapter
Takayoshi Yamashita
 
Tatsuya Sueki Bachelor Thesis
pflab
 
Muramatsu Bachelor Thesis
pflab
 
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
harmonylab
 
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
 
CVPR2018論文紹介「Pseudo Mask Augmented Object Detection」
諒介 荒木
 
Sprint ronbunsyoukai
HideyukiTakahashi7
 
DeepLearningDay2016Summer
Takayoshi Yamashita
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
Takuya Minagawa
 
3DFeat-Net
Takuya Minagawa
 
画像認識における幾何学的不変性の扱い
Seiji Hotta
 
ICCV2011 report
Hironobu Fujiyoshi
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
Tutorial-DeepLearning-PCSJ-IMPS2016
Takayoshi Yamashita
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
 
Ad

More from Takuya Minagawa (20)

PDF
「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話
Takuya Minagawa
 
PDF
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
Takuya Minagawa
 
PDF
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
Takuya Minagawa
 
PDF
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Takuya Minagawa
 
PDF
MobileNeRF
Takuya Minagawa
 
PDF
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
 
PDF
Learning to Solve Hard Minimal Problems
Takuya Minagawa
 
PDF
ConditionalPointDiffusion.pdf
Takuya Minagawa
 
PDF
楽しいコンピュータビジョンの受託仕事
Takuya Minagawa
 
PDF
20210711 deepI2P
Takuya Minagawa
 
PDF
20201010 personreid
Takuya Minagawa
 
PDF
20200910コンピュータビジョン今昔物語(JPTA講演資料)
Takuya Minagawa
 
PDF
2020/07/04 BSP-Net (CVPR2020)
Takuya Minagawa
 
PDF
20200704 bsp net
Takuya Minagawa
 
PDF
20190825 vins mono
Takuya Minagawa
 
PDF
20190706cvpr2019_3d_shape_representation
Takuya Minagawa
 
PDF
Visual slam
Takuya Minagawa
 
PDF
run Keras model on opencv
Takuya Minagawa
 
PDF
CVPR2018のPointCloudのCNN論文とSPLATNet
Takuya Minagawa
 
PDF
20180527 ORB SLAM Code Reading
Takuya Minagawa
 
「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話
Takuya Minagawa
 
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
Takuya Minagawa
 
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
Takuya Minagawa
 
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Takuya Minagawa
 
MobileNeRF
Takuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
 
Learning to Solve Hard Minimal Problems
Takuya Minagawa
 
ConditionalPointDiffusion.pdf
Takuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
Takuya Minagawa
 
20210711 deepI2P
Takuya Minagawa
 
20201010 personreid
Takuya Minagawa
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
Takuya Minagawa
 
2020/07/04 BSP-Net (CVPR2020)
Takuya Minagawa
 
20200704 bsp net
Takuya Minagawa
 
20190825 vins mono
Takuya Minagawa
 
20190706cvpr2019_3d_shape_representation
Takuya Minagawa
 
Visual slam
Takuya Minagawa
 
run Keras model on opencv
Takuya Minagawa
 
CVPR2018のPointCloudのCNN論文とSPLATNet
Takuya Minagawa
 
20180527 ORB SLAM Code Reading
Takuya Minagawa
 

Recently uploaded (10)

PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 

object detection with lidar-camera fusion: survey

  • 2. 自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわ たくや) 「コンピュータビジョン勉強会@関東」主催 博士(工学) 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) http://visitlab.jp
  • 3. この資料について  LiDARとカメラ<両方>の情報を使用して車両や人などの物 体検出を行う手法の調査を行いました。  カメラとLiDAR両方の情報を用いて上記タスクを行うには、両 センサー間のキャリブレーションが必須で、それだけで1つの 研究トピックですが、ここでは調査範囲外とします。  物体検出は3次元的な物体位置検出を目的とするものと、画 像上での2次元的な物体位置検出を目的とするものに分ける ことができます。  ここではカメラのみ、またはLiDARのみを用いた物体検出につ いては言及しません。  ここでは車載カメラおよびLiDARを使用した屋外での物体検出 について調査を行い、屋内環境でRGBDセンサーを用いた物 体検出のケースについては対象外とします。
  • 5. LiDAR-Camera Fusion 3D Object Detection  [Qi2018] Qi, C. R., Liu,W.,Wu, C., Su, H., & Guibas, L. J. (2018). Frustum PointNets for 3D Object Detection from RGB-D Data. In Conference on ComputerVision and Pattern Recognition.  [Ku2018]Ku, J., Mozifian, M., Lee, J., Harakeh,A., & Waslander, S. L. (2018). Joint 3D Proposal Generation and Object Detection fromView Aggregation. In International Conference on Intelligent Robots and Systems.  [Chen2017]Chen, X., Ma, H.,Wan, J., Li, B., & Xia,T. (2017). Multi-View 3D Object Detection Network for Autonomous Driving. In Conference on ComputerVision and Pattern Recognition.  [Liang2018]Liang, M.,Yang, B.,Wang, S., & Urtasun, R. (2018). Deep Continuous Fusion for Multi-Sensor 3D Object Detection. In European Conference on ComputerVision.  [Xu2018]Xu, D.,Anguelov, D., & Jain,A. (2018). PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation. Conference on ComputerVision and Pattern  [Du2018]Du, X., Jr, M. H.A., Karaman, S., Rus, D., & Feb, C.V. (2018).A General Pipeline for 3D Detection ofVehicles. ArXiv, arXiv:1803.
  • 6. 車載センサー環境での3D物体検出 車載センサー(カメラ+LiDAR)を用い3D物体検出は以下のよう に分類できます。  カメラを初期位置の検出に使用し、LiDARの情報を統合して Refine [Qi2018]Frustom PointNet [Xu2018]PointFusion [Du2018]General Pipeline  LiDARを初期位置の検出に使用し、カメラ情報を統合して Refine [Chen2017]MV3D  LiDARとカメラの両方から取得した特徴量を融合して物体検 出 [Ku2018]AVOD [Liang2018]Deep Continuous Fusion
  • 7. [Qi2018]Frustum PointNet (1/2)  KITTI 3D Object Detection Evaluationで上位の成績  従来のDeep Learningベース画像検出器で画像から物体 を検出し、そのFrustum上の点群をPointNetでSemantic Segmentationすることで3D Bounding Boxを検出
  • 8. [Qi2018]Frustum PointNet (2/2)  Frustum上で座標系を正規化するのがポイント  ソースコード https://github.com/charlesq34/frustum-pointnets 画像から物体検出 • Frustum上の点群を Segmentation • 画像上での物体識別結果 を事前知識として使用 • 物体に属する点群のみを使用 • T-Netで姿勢を補正 • Bounding Boxのパラメータを推定
  • 9. [Ku2018] Aggregate View Object Detection (AVOD) (1/2)  Frustom PointNetと並びKITTI Benchmarkで好成績  Faster R-CNNのRegion Proposal Network (RPN)の考え方を もとに3次元上の物体候補を算出  ソースコード https://github.com/kujason/avod
  • 10. [Ku2018] Aggregate View Object Detection (AVOD) (2/2)  点群をBirdView (XY平面)へ投影し、MV3D[Chen2017]と同様の手法で点の密度 や高さなどから6チャネルの画像を生成(BEV Input)  BEVと画像それぞれから特徴マップを生成  Region Proposal Network (RPN)で物体候補領域をアンカー形状との差分という 形で出力  Detection Networkで各物体候補領域のクラス、向き、サイズを算出 Region Proposal Network Point Cloud Feature Extractor Image Feature Extractor Detection Network
  • 11. [Chen2017]MV3D (1/2)  入力点群をBirdViewおよびFrontViewへ投影し、画像として扱う  BirdViewから物体候補領域(3D)を検出し、BirdView、FrontViewお よびRGB画像へ投影  投影された3D候補領域をROI Pooling後に、3つのViewを統合し、最 終的な物体クラスとBounding Boxを出力します。
  • 12. [Chen2017]MV3D (2/2)  入力点群をBirdViewおよびFrontViewへ投影し、画像として扱 う BirdView:(M+2)チャネル Z方向にM個のスライスを作成し、各スライスのZの最大値(Height Maps) 各セルの点の個数(Density) 各セルの最も高い点(Z最大)の反射率(Intensity) FrontView: 3チャネル Height、Distance、Intensity  ソースコード https://github.com/bostondiditeam/MV3D
  • 13. [Liang2018]Deep Continuous Fusion (1/2)  点群をBirdViewへ投影し画像として扱うことでCNN可能に  画像から取得した特徴量をBirdViewのCNN各層の特徴量と 結合することで、疎な点群の情報を補間し精度向上  画像特徴と結合したBirdView特徴をもとに3次元物体検出  画像とBirdViewの特徴量の統合にDeep Parametric Continuous Convolutionを利用(Continuous Fusion)
  • 14. [Liang2018]Deep Continuous Fusion (2/2)  Deep Parametric Continuous Convolution Wang, S., Suo, S., Ma,W., & Urtasun, R. “Deep Parametric Continuous Convolutional Neural Networks”. CVPR2018 畳み込みカーネルを離散ではなく、パラメトリックな連続関数(Multi-Layer Perceptron)とし て表現することで、点群のような非構造的な離散データに畳み込み演算を適用(付録参 照)  Deep Continuous Fusion BirdView上の任意の画素の特徴量(点が存在しなくても可)を、Deep Parametric Continuous Convolutionを用いてカメラ画像の特徴量で補間 1. BirdView上の任意の画素のK 近傍点(画素)を取得 2. K近傍点上の点群を復元 3. 点群をカメラ画像上へ投影 4. 投影した点の画像特徴量を取 得 5. K個のカメラ画像からの特徴量 と三次元点群を投影した時の ずれをもとにMulti-layer PerceptronでBirdView上の画 素の特徴量を算出
  • 15. [Xu2018]Point Fusion (1/2)  物体検出は画像に対してFaster R-CNNなどを用いて行い、検出結 果をもとに3D Bounding Boxを推定  Bounding Boxから取得した点群とカメラ画像をそれぞれPointNetと ResNetで独立に処理し、その結果をFusion Networkで統合 Global FusionとDense Fusionの2通りの方法でBounding Box推定  KITTIで評価しSOTA(ただし比較対象がMV3Dのみ)
  • 16. [Xu2018]Point Fusion (2/2)  Global FusionではPointNetの全体特徴とResNetからの特徴 量を統合して、直接Bounding Box推定  Dense FusionではPointNetの全体特徴と点ごとの特徴、およ びResNetの画像特徴を統合し、点ごとのBounding Box内での 相対位置を推定  現時点でソースコード非公開
  • 17. [Du2018]General Pipeline  一般的な2Dの物体検出器をLiDARの情報を加えて3Dへ 拡張するための手法の提案  2D物体検出の結果から点群を切り出し、この点群から 3D Bounding Boxを取得  3D Bounding Box内の点群を用いて、より正確な Bounding Boxと識別結果を出力
  • 18. KITTI 3D Object Detection Evaluation  ここで紹介した各研究についてKITTI 3D Object Detection Evaluation上での性能を比較しました。 http://www.cvlibs.net/datasets/kitti/eval_object.php  上記サイトに性能の記載のないものは論文での実験結 果を参照しました。  比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ て行いました。  評価方法の詳細については上記サイトを参照してくださ い。
  • 19. KITTI 3D Object Detection Evaluation  Car Method Moderate Easy Hard Runtime Environment AVOD-FPN 71.88 % 81.94 % 66.38 % 0.1 s Titan X (Pascal) Frustom PointNet 70.39 % 81.20 % 62.19 % 0.17 s GPU @ 3.0 Ghz (Python) Deep Continuous Fusion 66.22 % 82.54 % 64.04 % 0.06 s GPU @ 2.5 Ghz (Python) AVOD 65.78 % 73.59 % 58.38 % 0.08 s Titan X (pascal) PointFusion 63.00 % 77.92 % 53.27 % MV3D 62.35 % 71.09 % 55.12 % 0.36 s GPU @ 2.5 Ghz (Python + C/C++) General Pipeline (MS-CNN) 55.26 % 55.82 % 51.89 % MV3D (LIDAR) 52.73 % 66.77 % 51.31 % 0.24 s GPU @ 2.5 Ghz (Python + C/C++) General Pipeline (PC-CNN) 51.74 % 57.63 % 51.39 % AVOD-FPN: AVODにFeature Pyramid Network [Lin2017]というFeature Mapを物体検出用にマルチスケールにする技術を 適用したもの [Lin2017]Tsung-Yi Lin, Piotr Dollar, Ross Girshick,“Feature Pyramid Networks for Object Detection”, CVPR2017
  • 20. KITTI 3D Object Detection Evaluation  Pedestrian Method Moderate Easy Hard Runtime Environment Frustom PointNet 44.89 % 51.21 % 40.23 % 0.17 s GPU @ 3.0 Ghz (Python) AVOD-FPN 42.81 % 50.80 % 40.88 % 0.1 s Titan X (Pascal) AVOD 31.51 % 38.28 % 26.98 % 0.08 s Titan X (pascal) PointFusion 28.04 % 33.36 % 23.38 %
  • 21. KITTI 3D Object Detection Evaluation  Cyclist Method Moderate Easy Hard Runtime Environment Frustom PointNet 56.77 % 71.96 % 50.39 % 0.17 s GPU @ 3.0 Ghz (Python) AVOD-FPN 52.18 % 64.00 % 46.61 % 0.1 s Titan X (Pascal) AVOD 31.51 % 38.28 % 26.98 % 0.08 s Titan X (pascal) PointFusion 29.42 % 49.34 % 26.98 %
  • 23. LiDAR-Camera Fusion 2D Object Detection  [Premebida2014]Premebida, C., Carreira, J., Batista, J., & Nunes, U. (2014). Pedestrian detection combining RGB and dense LIDAR data. IEEE International Conference on Intelligent Robots and Systems,  [Gonzalez2017]Gonzalez,A.,Vazquez, D., Lopez,A. M., & Amores, J. (2017). On-Board Object Detection: Multicue, Multimodal, and Multiview Random Forest of Local Experts. IEEETransactions on Cybernetics, 47(11), 3980–3990.  [Costea2017]Costea,A. D.,Varga, R., & Nedevschi, S. (2017). Fast Boosting based Detection using Scale Invariant Multimodal Multiresolution Filtered Features. Conference on ComputerVision and Pattern Recognition  [Asvadi2017]Asvadi,A., Garrote, L., Premebida, C., Peixoto, P., & J. Nunes, U. (2017). Multimodal vehicle detection: Fusing 3D- LIDAR and color camera data. Pattern Recognition Letters, (September).
  • 25. [Premebida2014] Fusion-DPM  RGB画像とデプス画像にDeformable Part Modelによる人 物検出の特徴量を取得し、2通りの方法で統合 特徴量を統合してから人物検出 それぞれで人物検出をしてから結果を統合 点群からアップサンプルでデプス画像を生成
  • 27. [Costea2017]MM-MRFC  カラー画像、Motion(オプティカルフロー)、Depthを、色、勾配の強さ、勾 配方向のチャネルへ分離し、Box Filterを繰り返しかけることで、さらにマ ルチ解像度のチャネルへ分離  画像からとデプスから垂直/水平位置やエッジ、奥行き、道路位置など、 Contextを表すチャネルを取得  AdaboostとSlidingWindowによって物体検出  Deep Learningベースの手法と同等の性能で、10-100倍高速
  • 28. [Asvadi2017]Multimodal Detection  LiDARデータからデプス(DM)と反射率(RM)のマップを生 成し、DMとRMおよび画像に対して、それぞれのチャネル 用に学習したYOLOを用いて物体検出  それぞれのチャネルの検出結果を統合することで、最終 結果を算出  ソースコード(現時点では未公開) https://github.com/alirezaasvadi/Multimodal
  • 29. KITTI Object Detection 2012 Evaluation  ここで紹介した各研究についてKITTI Object Detection 2012 Evaluation上での性能を比較しました。 http://www.cvlibs.net/datasets/kitti/eval_object.php  比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ て行いました。  評価方法の詳細については上記サイトを参照してくださ い。
  • 30. KITTI Object Detection 2012 Evaluation  Car Method Moderate Easy Hard Runtime Environment F-PointNet 90.00 % 90.78 % 80.80 % 0.17 s GPU @ 3.0 Ghz (Python) MV3D 89.17 % 90.53 % 80.16 % 0.36 s GPU @ 2.5 Ghz (Python + C/C++) MM-MRFC 88.20 % 90.93 % 78.02 % 0.05 s GPU @ 2.5 Ghz (C/C++) AVOD 88.08 % 89.73 % 80.14 % 0.08 s Titan X (pascal) AVOD-FPN 87.44 % 89.99 % 80.05 % 0.1 s Titan X (Pascal) MV3D (LIDAR) 79.76 % 89.80 % 78.61 % 0.24 s GPU @ 2.5 Ghz (Python + C/C++) Faster R-CNN 79.11 % 87.90 % 70.19 % 2 s GPU @ 3.5 Ghz (Python + C/C++) MV-RGBD-RF 69.92 % 76.49 % 57.47 % 4 s 4 cores @ 2.5 Ghz (C/C++) Multimodal Detection 46.77 % 64.04 % 39.38 % 0.06 s GPU @ 3.5 Ghz (Matlab + C/C++)
  • 31. KITTI Object Detection 2012 Evaluation  Pedestrian Method Moderate Easy Hard Runtime Environment F-PointNet 77.25 % 87.81 % 74.46 % 0.17 s GPU @ 3.0 Ghz (Python) MM-MRFC 69.96 % 82.37 % 64.76 % 0.05 s GPU @ 2.5 Ghz (C/C++) Faster R-CNN 65.91 % 78.35 % 61.19 % 2 s GPU @ 3.5 Ghz (Python + C/C++) AVOD-FPN 58.42 % 67.32 % 57.44 % 0.1 s Titan X (Pascal) MV-RGBD-RF 56.59 % 73.05 % 49.63 % 4 s 4 cores @ 2.5 Ghz (C/C++) Fusion-DPM 46.67 % 59.38 % 42.05 % ~ 30 s 1 core @ 3.5 Ghz (Matlab + C/C++) AVOD 43.49 % 51.64 % 37.79 % 0.08 s Titan X (pascal)
  • 32. KITTI Object Detection 2012 Evaluation  Cyclist Method Moderate Easy Hard Runtime Environment F-PointNet 72.25 % 84.90 % 65.14 % 0.17 s GPU @ 3.0 Ghz (Python) Faster R-CNN 62.81 % 71.41 % 55.44 % 2 s GPU @ 3.5 Ghz (Python + C/C++) AVOD-FPN 59.32 % 68.65 % 55.82 % 0.1 s Titan X (Pascal) AVOD 56.01 % 65.72 % 48.89 % 0.08 s Titan X (pascal) MV-RGBD-RF 42.61 % 51.46 % 37.42 % 4 s 4 cores @ 2.5 Ghz (C/C++)
  • 33. まとめ  車載カメラとLiDAR両方の情報を用いた物体検出について調 査しました。  物体検出タスクは3Dと2Dに分けられ3Dの手法は2Dにおいて も高い性能を発揮します。  3D物体検出でのLiDARデータはBirdViewに変換されて画像と してニューラルネットワークに入力されるケースがほとんどで したが、PointNetの登場により点群をそのまま処理する方法も 高い性能を発揮するようになりました。  2D物体検出では、LiDARデータをデプスデータへ変換し、カメ ラと視点を合わせることで、従来の画像ベースの物体検出の 新しいチャネルとして利用することで性能向上を図ります。  LiDARとカメラそれぞれの特徴量をどの段階で融合するかが 手法それぞれで工夫されています。
  • 34. [付録]PointNet 34  Qi, C. R., Su, H., Mo, K., & Guibas, L. J. (2017). PointNet : Deep Learning on Point Sets for 3D Classification and Segmentation Big Data + Deep Representation Learning. IEEE Conference on ComputerVision and Pattern Recognition (CVPR).  各点群の点を独立に畳み込む  Global Max Poolingで点群全体の特徴量を取得 各点を個別 に畳み込み アフィン変換 各点の特徴を統合
  • 35. [付録]Deep Parametric Continuous CNN  カーネルを離散ではなく、パラメトリックな連続関数として表現 (ここではMulti-Layer Perceptron)  任意の構造の入力に対して、任意の個所の出力が計算可能 ℎ 𝑛 = ෍ 𝑚=−𝑀 𝑀 𝑓 𝑛 − 𝑚 𝑔[𝑚] ℎ 𝒙 = න −∞ ∞ 𝑓 𝒚 𝑔 𝒙 − 𝒚 ⅆ𝑦 ≈ ෍ 𝑖 𝑁 1 𝑁 𝑓 𝒚𝑖 𝑔(𝒙 − 𝒚𝑖) 連続カーネル離散カーネル