7
Most read
8
Most read
9
Most read
OHS#3 論文紹介
Object Detection & Instance Segmentation
半谷
Contents
• Object Detection
• タスクについて
• R-CNN
• Faster R-CNN
• Region Proposal Networkのしくみ
• SSD: Single Shot Multibox Detector
• Instance Segmentation
• タスクについて
• End-to-End Instance Segmentation and Counting with Recurrent
Attention
2
一般物体認識分野でのDeep Learning
• 静止の分類タスクは、CNNによる特徴量抽出および学習により発展
• より高度なタスクである物体検出、物体領域抽出へと発展
Classification Object Detection Semantic
Segmentation
Instance
Segmentation
Plants
http://www.nlab.ci.i.u-tokyo.ac.jp/pdf/CNN_survey.pdf
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html
Plants
Plants Plants
より高度
3
Object Detection
紹介する論文:
SSD: Single Shot MultiBox Detector
Object Detection
• 画像中の複数の物体を漏れなく/重複無く検出することが目的。
• 物体の検出精度(Precision)と、漏れなく検出できているかの指標である適合率
(Recall)の関係(Precision-recall curve)から算出した、Average Precision (AP)
が主な指標。
• 実問題への応用が期待され、APのほか予測時の計算時間も重要で、リアルタイム性が求め
られている。
http://host.robots.ox.ac.uk/pascal/VOC/voc2007/
Precision
Recall1
1
面積 = AP
5
主なモデル(1): Regions with CNN
• R-CNN (Regions with CNN)
• 物体領域候補の生成にSelective Search(SS)などの手法を利用
• 生成した領域を画像分類用のCNNに入力し、各領域に何が写っているか(あるいは
背景か)を分類する。
• Recallを確保するためには領域候補が2000程度必要であり、全てをCNNに入力し
計算するため非常に時間が掛かる
• また多段階の学習が必要となり煩雑である
R-CNN: http://arxiv.org/abs/1311.2524 6
主なモデル(2): Faster R-CNN
• Faster R-CNN
• 特徴抽出部分を共通化(これはFast R-CNNで提案された方法)
• 特徴マップを入力に物体領域候補を生成するRegion Proposal Networkを提案
• 300程度の領域候補で十分な精度が確保できる
• 1枚あたり0.2~0.3秒で処理できる
Region Proposal Net
(RPN)
CNN
(特徴抽出)
Classifier
物体領域候補を生成
(~300程度)
各領域候補に写る物体を
分類する
Faster R-CNN: http://arxiv.org/abs/1506.014977
Region Proposal Network
• 特徴マップ上にAnchorを定義(方眼紙に見立てて、各マスの中心のイメージ)
• 各Anchor毎にk個のAnchor Boxを定義(スケールとアスペクト比の組み合わせ)
• 各Anchor Box毎に、物体らしさのスコアと位置・サイズの修正項を予測するように訓練する
Faster R-CNN: http://arxiv.org/abs/1506.01497
画像
特徴
マップ
CNN
(特徴抽出)
・・・
スケール アスペクト比
×
各アンカーごとにk個のBox
(例: k = 3 × 3)
2k scores
(物体 or 背景)
4k coordinates
(x, y, w, hの
修正項)
H x W x 3 H/16 x W/16 x 3
8
SSD: Single Shot Multibox Detector
Region Proposal Net
(RPN)
CNN
(特徴抽出)
Classifier
① 物体領域候補を生成
(物体らしさのスコア)
② 各クラスに分類
CNN
(特徴抽出)
Region
Proposal
+
Classifier
物体領域候補を生成
(クラス毎のスコア)SSD
Faster
R-CNN
• Faster RCNNよりも高速で精度も良いモデル
• 入力画像サイズの小さいモデル(精度はそこそこ)では58FPSを達成
• Fasterにおいて①領域候補生成、②各領域の特徴ベクトルを切り出して分類、と2段階で
行っていた処理を一気に行う。
• 深さの異なる複数の特徴マップを使い、浅い側は小さい物体、深い側は大きい物体を検出。
SSD: http://arxiv.org/abs/1512.02325
9
SSD: Single Shot Multibox Detector
• Faster RCNNよりも高速で精度も良いモデル
• 入力画像サイズの小さいモデル(精度はそこそこ)では58FPSを達成
• Fasterにおいて①領域候補生成、②各領域の特徴ベクトルを切り出して分類、と2段階で
行っていた処理を一気に行う。
• 深さの異なる複数の特徴マップを使い、浅い側は小さい物体、深い側は大きい物体を検出。
(深さにより、デフォルトのBoxサイズを変えている)
浅い側の特徴マップからは
小さい物体を検出する
深い側の特徴マップからは
大きい物体を検出する
SSD: http://arxiv.org/abs/1512.02325
10
SSD: Single Shot Multibox Detector
• Pascal VOC 2007のDetectionタスクの結果
• 入力画像サイズが300x300のモデル(SSD300)では58FPSを達成し、mean AP
も70%を超えている。
• 入力画像サイズが500x500のモデル(SSD500)では、Faster R-CNNより精度も高
く処理速度も速い。
SSD: http://arxiv.org/abs/1512.02325
11
Instance Segmentation
紹介する論文:
End-to-End Instance Segmentation and Counting with
Recurrent Attention
Instance Segmentation
• 領域分割(Segmentation)
• ピクセル毎のラベルを予測する
• 形状や面積といった情報が得られるため応用先も多く、活発に研究されている。
• タスクの分類
• Semantic Segmentation
• 各ピクセルにクラスのラベルを付与する問題。
• ボトルが4本ある場合でも、全て「ボトルクラス」のラベルをつける
• Instance Segmentation
• 個々の物体ごとに別のラベルを付与する問題
• ボトルが4本ある場合、別々のラベルを付与する
(b) Instance ~ (a) Semantic ~Raw Image
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html 13
突然ですが問題です。
葉っぱは何枚あるでしょうか?
http://juser.fz-juelich.de/record/154525/files/FZJ-2014-03837.pdf 14
どのように数えましたか?
http://juser.fz-juelich.de/record/154525/files/FZJ-2014-03837.pdf
• 目線を移しながら一枚一枚注目する
• 一度見たものは記憶しておく
といった感じで数えたのではないでしょうか・・・?
15
End-to-End Instance Segmentation and
Counting with Recurrent Attention
• Instance Segmentation用のニューラルネットワーク
• ステップ毎に1つの物体に注目して領域分割する
• 一度見た領域は記憶しておく
(人間の数え方を参考にしている)
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
16
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
• モデルの全体像:
17
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
一度見た領域を記憶しておく部品
18
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
どこに注目するかを決める
19
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
注目した領域のSegmentationを行う
20
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
物体が見つかったかどうかの判定を行う
(スコアが0.5以下になったら終了)
21
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
一度見た部分は記憶する。
(以下繰返し)
22
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
• 結果(1)葉っぱの領域分割
23
End-to-End Instance Segmentation and
Counting with Recurrent Attention
End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410
• 結果(2)車両の領域分割
24

More Related Content

PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PPTX
[DL輪読会]Dense Captioning分野のまとめ
PPTX
モデルアーキテクチャ観点からの高速化2019
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
PPTX
画像キャプションの自動生成
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
[DL輪読会]Dense Captioning分野のまとめ
モデルアーキテクチャ観点からの高速化2019
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
画像キャプションの自動生成
【DL輪読会】ViT + Self Supervised Learningまとめ

What's hot (20)

PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
PDF
Transformerを多層にする際の勾配消失問題と解決法について
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
PDF
Transformer メタサーベイ
PDF
実装レベルで学ぶVQVAE
PPTX
[DL輪読会]Objects as Points
PPTX
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
PPTX
[DL輪読会]World Models
PPTX
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PPTX
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
PPTX
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
PDF
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
PDF
深層生成モデルを用いたマルチモーダル学習
PPTX
近年のHierarchical Vision Transformer
PDF
【メタサーベイ】数式ドリブン教師あり学習
Semi supervised, weakly-supervised, unsupervised, and active learning
Transformerを多層にする際の勾配消失問題と解決法について
【メタサーベイ】Vision and Language のトップ研究室/研究者
Transformer メタサーベイ
実装レベルで学ぶVQVAE
[DL輪読会]Objects as Points
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
[DL輪読会]World Models
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
【DL輪読会】Scaling Laws for Neural Language Models
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
深層生成モデルを用いたマルチモーダル学習
近年のHierarchical Vision Transformer
【メタサーベイ】数式ドリブン教師あり学習
Ad

Similar to Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3 (20)

PPTX
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
PPTX
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
PDF
SSD: Single Shot MultiBox Detector (ECCV2016)
PDF
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
PDF
Active Learning from Imperfect Labelers @ NIPS読み会・関西
PDF
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
PDF
20110904cvsaisentan(shirasy) 3 4_3
PPTX
Paper: Objects as Points(CenterNet)
PPTX
関西Cvprml勉強会2017.9資料
PDF
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
PDF
[DL輪読会]One Model To Learn Them All
PPTX
[DL輪読会]Focal Loss for Dense Object Detection
PDF
20141008物体検出器
PDF
文献紹介:EfficientDet: Scalable and Efficient Object Detection
PDF
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
PDF
物体検出の歴史まとめ(1) 20180417
PDF
Tesseract ocr
PPTX
PPTX
第4回全脳アーキテクチャハッカソン説明会
PPTX
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
GENESIS: Generative Scene Inference and Sampling with Object-Centric Latent R...
[DL輪読会]GENESIS: Generative Scene Inference and Sampling with Object-Centric L...
SSD: Single Shot MultiBox Detector (ECCV2016)
[DL Hacks]Semantic Instance Segmentation with a Discriminative Loss Function
Active Learning from Imperfect Labelers @ NIPS読み会・関西
【CVPR 2020 メタサーベイ】Recognition (Detection, Categorization)_Group21.2
20110904cvsaisentan(shirasy) 3 4_3
Paper: Objects as Points(CenterNet)
関西Cvprml勉強会2017.9資料
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
[DL輪読会]One Model To Learn Them All
[DL輪読会]Focal Loss for Dense Object Detection
20141008物体検出器
文献紹介:EfficientDet: Scalable and Efficient Object Detection
論文紹介:A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, a...
物体検出の歴史まとめ(1) 20180417
Tesseract ocr
第4回全脳アーキテクチャハッカソン説明会
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Ad

Recently uploaded (10)

PPTX
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
PDF
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
PDF
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
PDF
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
PDF
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
PDF
20250823_IoTLT_vol126_kitazaki_v1___.pdf
PDF
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
PPTX
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
PPTX
Vibe Codingを触って感じた現実について.pptx .
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
20250823_IoTLT_vol126_kitazaki_v1___.pdf
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
Vibe Codingを触って感じた現実について.pptx .

Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3

  • 1. OHS#3 論文紹介 Object Detection & Instance Segmentation 半谷
  • 2. Contents • Object Detection • タスクについて • R-CNN • Faster R-CNN • Region Proposal Networkのしくみ • SSD: Single Shot Multibox Detector • Instance Segmentation • タスクについて • End-to-End Instance Segmentation and Counting with Recurrent Attention 2
  • 3. 一般物体認識分野でのDeep Learning • 静止の分類タスクは、CNNによる特徴量抽出および学習により発展 • より高度なタスクである物体検出、物体領域抽出へと発展 Classification Object Detection Semantic Segmentation Instance Segmentation Plants http://www.nlab.ci.i.u-tokyo.ac.jp/pdf/CNN_survey.pdf http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html Plants Plants Plants より高度 3
  • 5. Object Detection • 画像中の複数の物体を漏れなく/重複無く検出することが目的。 • 物体の検出精度(Precision)と、漏れなく検出できているかの指標である適合率 (Recall)の関係(Precision-recall curve)から算出した、Average Precision (AP) が主な指標。 • 実問題への応用が期待され、APのほか予測時の計算時間も重要で、リアルタイム性が求め られている。 http://host.robots.ox.ac.uk/pascal/VOC/voc2007/ Precision Recall1 1 面積 = AP 5
  • 6. 主なモデル(1): Regions with CNN • R-CNN (Regions with CNN) • 物体領域候補の生成にSelective Search(SS)などの手法を利用 • 生成した領域を画像分類用のCNNに入力し、各領域に何が写っているか(あるいは 背景か)を分類する。 • Recallを確保するためには領域候補が2000程度必要であり、全てをCNNに入力し 計算するため非常に時間が掛かる • また多段階の学習が必要となり煩雑である R-CNN: http://arxiv.org/abs/1311.2524 6
  • 7. 主なモデル(2): Faster R-CNN • Faster R-CNN • 特徴抽出部分を共通化(これはFast R-CNNで提案された方法) • 特徴マップを入力に物体領域候補を生成するRegion Proposal Networkを提案 • 300程度の領域候補で十分な精度が確保できる • 1枚あたり0.2~0.3秒で処理できる Region Proposal Net (RPN) CNN (特徴抽出) Classifier 物体領域候補を生成 (~300程度) 各領域候補に写る物体を 分類する Faster R-CNN: http://arxiv.org/abs/1506.014977
  • 8. Region Proposal Network • 特徴マップ上にAnchorを定義(方眼紙に見立てて、各マスの中心のイメージ) • 各Anchor毎にk個のAnchor Boxを定義(スケールとアスペクト比の組み合わせ) • 各Anchor Box毎に、物体らしさのスコアと位置・サイズの修正項を予測するように訓練する Faster R-CNN: http://arxiv.org/abs/1506.01497 画像 特徴 マップ CNN (特徴抽出) ・・・ スケール アスペクト比 × 各アンカーごとにk個のBox (例: k = 3 × 3) 2k scores (物体 or 背景) 4k coordinates (x, y, w, hの 修正項) H x W x 3 H/16 x W/16 x 3 8
  • 9. SSD: Single Shot Multibox Detector Region Proposal Net (RPN) CNN (特徴抽出) Classifier ① 物体領域候補を生成 (物体らしさのスコア) ② 各クラスに分類 CNN (特徴抽出) Region Proposal + Classifier 物体領域候補を生成 (クラス毎のスコア)SSD Faster R-CNN • Faster RCNNよりも高速で精度も良いモデル • 入力画像サイズの小さいモデル(精度はそこそこ)では58FPSを達成 • Fasterにおいて①領域候補生成、②各領域の特徴ベクトルを切り出して分類、と2段階で 行っていた処理を一気に行う。 • 深さの異なる複数の特徴マップを使い、浅い側は小さい物体、深い側は大きい物体を検出。 SSD: http://arxiv.org/abs/1512.02325 9
  • 10. SSD: Single Shot Multibox Detector • Faster RCNNよりも高速で精度も良いモデル • 入力画像サイズの小さいモデル(精度はそこそこ)では58FPSを達成 • Fasterにおいて①領域候補生成、②各領域の特徴ベクトルを切り出して分類、と2段階で 行っていた処理を一気に行う。 • 深さの異なる複数の特徴マップを使い、浅い側は小さい物体、深い側は大きい物体を検出。 (深さにより、デフォルトのBoxサイズを変えている) 浅い側の特徴マップからは 小さい物体を検出する 深い側の特徴マップからは 大きい物体を検出する SSD: http://arxiv.org/abs/1512.02325 10
  • 11. SSD: Single Shot Multibox Detector • Pascal VOC 2007のDetectionタスクの結果 • 入力画像サイズが300x300のモデル(SSD300)では58FPSを達成し、mean AP も70%を超えている。 • 入力画像サイズが500x500のモデル(SSD500)では、Faster R-CNNより精度も高 く処理速度も速い。 SSD: http://arxiv.org/abs/1512.02325 11
  • 12. Instance Segmentation 紹介する論文: End-to-End Instance Segmentation and Counting with Recurrent Attention
  • 13. Instance Segmentation • 領域分割(Segmentation) • ピクセル毎のラベルを予測する • 形状や面積といった情報が得られるため応用先も多く、活発に研究されている。 • タスクの分類 • Semantic Segmentation • 各ピクセルにクラスのラベルを付与する問題。 • ボトルが4本ある場合でも、全て「ボトルクラス」のラベルをつける • Instance Segmentation • 個々の物体ごとに別のラベルを付与する問題 • ボトルが4本ある場合、別々のラベルを付与する (b) Instance ~ (a) Semantic ~Raw Image http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html 13
  • 16. End-to-End Instance Segmentation and Counting with Recurrent Attention • Instance Segmentation用のニューラルネットワーク • ステップ毎に1つの物体に注目して領域分割する • 一度見た領域は記憶しておく (人間の数え方を参考にしている) End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 16
  • 17. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 • モデルの全体像: 17
  • 18. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 一度見た領域を記憶しておく部品 18
  • 19. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 どこに注目するかを決める 19
  • 20. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 注目した領域のSegmentationを行う 20
  • 21. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 物体が見つかったかどうかの判定を行う (スコアが0.5以下になったら終了) 21
  • 22. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 一度見た部分は記憶する。 (以下繰返し) 22
  • 23. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 • 結果(1)葉っぱの領域分割 23
  • 24. End-to-End Instance Segmentation and Counting with Recurrent Attention End-to-End Instance Segmentation and Counting with Recurrent Attention: https://arxiv.org/abs/1605.09410 • 結果(2)車両の領域分割 24

Editor's Notes

  • #11: 動画; https://drive.google.com/file/d/0BzKzrI_SkD1_R09NcjM1eElLcWc/view?pref=2&pli=1 コード; https://github.com/weiliu89/caffe/tree/ssd