第3巻 第4章 Bag-of-Featuresに基づく物体認識(2)      2011.09.04




          CV勉強会@関東(第15回)
             3. 局所特徴量とbag-of-features


                       shirasy




                                               1
第3巻 第4章 Bag-of-Featuresに基づく物体認識(2)




    3.1 局所特徴量登場以前の物体認識
    3.2 局所特徴量
    3.3 Bag-of-features
        3.4 Spatial Pyramid Matching
        3.5 Bag-of-Featuresの拡張




                                       2
3.1 局所特徴量登場以前の物体認識

 画像認識研究の流れ

 1960年代
 1960年代
 • 対象:線画
 • 内容:線画解釈
 1970年代
 1970年代
 • 対象: 航空画像、風景画像
 • 内容: 各領域の形状、色、模様、領域間の関係などを手がかりに
       ラベリングにより認識
 1980年代
 1980年代
 • 内容:エキスパートシステム(複雑なルールに基づく認識システム)



                                     3
3.1 局所特徴量登場以前の物体認識

 画像認識研究の流れ

 1980年代後半
 1980年代後半
 • 対象:3次元の実世界
 • 内容:モデルベース
     人手によるルールや幾何形状モデルを認識モデルとして利用
     ⇒認識対象を増やすことが困難

 1990年代
 1990年代
 •内容:学習画像を用意、それから自動的に特徴量を抽出し認識(例:固有顔法)




                                    4
3.1 局所特徴量登場以前の物体認識

 画像認識研究の流れ

                      現在の物体認識の方法の基本的な考え方

 アピアランスベース
 3次元物体を3次元情報に復元せずに2次元(アピアランス)のみで認識


 CBIR(content-based image retrieval)
 見た目が類似している画像を画像データベース中から検索する、
 内容に基づく画像検索




                                           5
3.2 局所特徴量


 一般物体認識

 2000年前後まで、一般物体認識は極めて困難な問題として考えられていた。

 • 常に何らかの前提条件が必要
 • 制約のない一般的な画像に適用することは困難



 ブレークスルー(2000年代前半)
 ブレークスルー(2000年代前半)
             年代前半
 1. 局所特徴の組み合わせによる画像の表現
 2. 局所特徴の表現法
 3. 局所特徴のヒスグラム表現であるbag-of-features

                                        6
3.2 局所特徴量

 ブレイクスルー前夜

 1990年代後半:
 1990年代後半:
     年代後半
 • 内容:局所特徴の複数の組み合わせによって画像認識を行う
      特定物体認識法が提案[49]


  • 3次元物体復元のための対応点抽出に使われていた特徴点抽出
    アルゴリズムを物体認識に応用
  • 多数の特徴点周辺の局所パターンの組み合わせで物体認識が可能
  • オルクージョンや変形の影響を受けにくい




                                    7
3.2 局所特徴量

 SIFT(Scale Invariant Feature Transform)[33]

 局所パターンの組み合わせによる認識のための特徴点検出と特徴ベクトルの
 抽出法がセット

 特徴:
 • 回転、スケールの変化に不変な特徴量
  • 明るさの変化やアフィン変換(視点の移動)に頑強


 以下の2処理を含むアルゴリズム:
 (1)特徴点とその点の最適スケールの検出
 (2)特徴点の輝度勾配ヒストグラムによる128次元ベクトルによる記述


                                               8
3.3 Bag-of-features


    局所特徴量の問題点
   1枚の画像から数百~数千個抽出
   そのままでは、データ量が多すぎて扱いにくい




                      Bag-of-
                      Bag-of-features

                                データ量を少なくし扱いやすくする

  • 局所特徴量のデータ量圧縮のためのアプローチ
  • 局所特徴量をベクトル量子化し、1枚の画像から抽出された局所特徴量の集合
    を単一のヒストグラムで表現

                                               9
3.3 Bag-of-features

  ヒストグラム

  学習用画像データの各画像から抽出した多数の局所特徴量(濃淡変化に着目)
  から代表的な局所パターンをvisual wordとして選出

  • ヒストグラムを作成することにより画像を表現
  • 局所パターンは物体のカテゴリーと関係深い




                                   10
3.3 Bag-of-features


  一般物体認識と特定物体認識のアプローチの差分


  • 一般物体認識
     • visual words数:数百~数千
     • 一般物体認識においては同じカテゴリーに属する物体の細かな差異の
       吸収されることが望ましい

  • 特定物体認識
     • visual words数:数万~百万
     • 全く同じ局所パターンのみが1つのvisual wordに割り当てられることが
       望ましい



                                                11
3.3 Bag-of-features

  統計的言語処理と画像認識処理の差分


  • 統計的言語処理:bag-of-words
     • 文章をベクトル表現する方法として使用
     • 語順を無視して文章を単語の出現頻度で表現

  • 画像認識処理 :bag-of-features
     • 画像分類が文書分類と同じ問題として取り扱うことが可能



   bag-of-features提案直後、言語処理の分野で提案された手法が画像認識
   に応用されるということが起こった
   ・ サポートベクターマシンによるテキスト分類手法
   ・ 文書分類のための確率的トピック抽出手法                  12
3.3 Bag-of-features

 bag-of-featuresによる特徴表現への変換手順

  1. 特徴点抽出
     • 画像1枚に付き、数百~数千個程度
     • 最近では、決められたピクセルごとの格子点やランダムに選ばれた点を
       機械的に特徴点とする方法も活用(dense sampling)
  2. BoFベクトルの計算
     • SIFT記述子などを利用
  3. 全学習画像の全局所特徴ベクトルのk-meansによるクラスタリングによる
     visual wordsの選出(図4.3)
  4. visual wordsに基づいて各画像についてSIFT記述子ベクトルのヒストグラムを
     作成(図4.4)


                                              13
3.3 Bag-of-features




                       図4.3




                       図4.4         14
    引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
3.3 Bag-of-features

 sparse sampling / dense sampling

 認識・・・テクスチャのない均一な局所特徴も重要な情報
         画像の内容に関わらず機械的に特徴点の位置およびスケールを選択
         する方法も有効[16]

  • sparse sampling
     • 特徴点抽出法(SIFTやSURFを含む)を用いて特徴点を抽出する方法
  • dense sampling
     • 格子点やランダム点を特徴点として選択する方法


  dense samplingでは、特徴点の数を任意に設定可能であるため、sparse
  samplingよりも多くの局所特徴を抽出可能

                                               15
3.3 Bag-of-features

 sparse sampling / dense sampling




                           図4.5




                                    16
    引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
3.3 Bag-of-features


 BoFベクトルの生成
  一般的には方法 C)を選択することが多い
  A) TF-IFD(※)で重み付け
     ⇒bag-of-wordsでよく用いられる方法
  B) 各要素を1か0の2値にしてヒストグラムを構成
  C) visual wordsの出現回数をカウントしてヒストグラムを構成


  画像間でvisual wordsの合計頻度に差がある場合、以下を行うことが多い
  • L1正規化:BoFベクトルの要素の絶対値の和を1とする
  • L2正規化:BoFベクトルの要素の2乗和を1とする

(※) TF-IFD:索引語の重み付け方法のひとつ
    ex.一文書中に同じ索引語が多く出現すれば、TF-IDFの値は大きく
       また、多くの文書に索引語が出現すれば、値は小さくなる                    17
    引用元: http://nlp.nagaokaut.ac.jp/TF%E3%83%BBIDF
3.4 Spatial Pyramid Matching




 Bag-of-features表現・・・元の特徴点の位置を無視

 画像中での位置も物体認識のための重要な手がかりになることが多い


 自動車の場合
  • タイヤ : 画像中の下方に写っていることが多い
              ⇒タイヤ特有のvisual wordが存在
  • ルーフ : 画像中の上方に写っていることが多い
              ⇒ルーフ特有のvisual wordが存在




                                      18
3.4 Spatial Pyramid Matching

 Spaitial Pyramid Matching法[30]
     大まかな位置情報を考慮した画像間の類似度計算法
     画像を4分割および16分割し画像ピラミッドを構築して、それぞれからBoFを
     構築し、ピラミッドのレベルに応じ重みを付けて類似度を計算




                               図4.6     19
     引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
3.5 Bag-of-featuresの拡張


 アプローチ分類
  • コードブック作成法
     • オンラインクラスタリングとmean-shift[24]
     • 階層的クラスタリング[41]
     • ガウス混合分布およびEMアルゴリズムによる確率的クラスタリング[43]
     • Information Bottleneck法[58]
     • sparse coding[58]
  • BoFベクトル生成法[74]
  • 色情報の追加[69]
     • Bag-of-featuresとは異なる特徴との混合



                                        20
3.5 Bag-of-featuresの拡張
                               近年急速に拡大
 動作認識

  静止画像の局所特徴を時間軸方向に拡張
  例:人間の動作の分類(歩く、走るなど) [15]



 bag-of-featuresを用いない一般物体認識
  NBNN(Native Bayes Nearest Neighbor)[6]
     visual wordsを用いずに、特徴点マッチングのみで一般物体認識

       アイデア
        1. 未知画像の各特徴点と最も類似した学習データの特徴点まで
           の距離をクラスごとに別々に総和
        2. 最も和が小さいクラスに分類
                                           21

More Related Content

PPTX
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
PPTX
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
PDF
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PPTX
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
PPTX
光源方向推定のための構造色パターンマッチング
PDF
第126回 ロボット工学セミナー 三次元点群と深層学習
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PDF
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
光源方向推定のための構造色パターンマッチング
第126回 ロボット工学セミナー 三次元点群と深層学習
三次元点群を取り扱うニューラルネットワークのサーベイ
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」

What's hot (20)

PDF
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
PDF
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
PDF
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
PPTX
SLAM勉強会(PTAM)
PPTX
20160612 関東cv勉強会 sumisumithパート
PDF
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
PPTX
Online moving camera_background_subtraction
PDF
SSII2018TS: コンピュテーショナルイルミネーション
PDF
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
PDF
SLAMチュートリアル大会資料(ORB-SLAM)
PDF
論文紹介 LexToMap: lexical-based topological mapping
PDF
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
PDF
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
PDF
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
PDF
ImageJを使った画像解析実習〜数・形態・分布の解析〜
PDF
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
PPTX
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
PDF
Deformable Part Modelとその発展
PDF
ロボットによる一般問題解決
PPTX
Appropriate Mesh Density for the Optical Simulation of a Silver Nanoparticle ...
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SLAM勉強会(PTAM)
20160612 関東cv勉強会 sumisumithパート
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
Online moving camera_background_subtraction
SSII2018TS: コンピュテーショナルイルミネーション
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
SLAMチュートリアル大会資料(ORB-SLAM)
論文紹介 LexToMap: lexical-based topological mapping
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
ImageJを使った画像解析実習〜数・形態・分布の解析〜
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Deformable Part Modelとその発展
ロボットによる一般問題解決
Appropriate Mesh Density for the Optical Simulation of a Silver Nanoparticle ...
Ad

Similar to 20110904cvsaisentan(shirasy) 3 4_3 (20)

PDF
大規模画像認識とその周辺
PDF
画像認識の初歩、SIFT,SURF特徴量
PDF
画像認識における幾何学的不変性の扱い
PPTX
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
PDF
関西CVPRML勉強会(特定物体認識) 2012.1.14
PDF
ICCV2011 report
PPT
Cvim tomoaki-3-4-7,8
PPT
Cvim tomoaki-3-4-7,8
PDF
CV勉強会@関東 3巻3章4節 画像表現
PDF
20130925.deeplearning
PDF
VIEW2013 Binarycode-based Object Recognition
PDF
Opencv object detection_takmin
PDF
関西CVPRML 2011.8.27
PDF
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
PPTX
Introduction to Local Image Features....
PDF
Deep residual learning for image recognition
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
PDF
画像認識で物を見分ける
PPTX
cvsaisentan20141004 kanezaki
PDF
SSII2014 詳細画像識別 (FGVC) @OS2
大規模画像認識とその周辺
画像認識の初歩、SIFT,SURF特徴量
画像認識における幾何学的不変性の扱い
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
関西CVPRML勉強会(特定物体認識) 2012.1.14
ICCV2011 report
Cvim tomoaki-3-4-7,8
Cvim tomoaki-3-4-7,8
CV勉強会@関東 3巻3章4節 画像表現
20130925.deeplearning
VIEW2013 Binarycode-based Object Recognition
Opencv object detection_takmin
関西CVPRML 2011.8.27
コンピュータビジョンで作る未来の栽培技術POL共催セミナー_20220527
Introduction to Local Image Features....
Deep residual learning for image recognition
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
画像認識で物を見分ける
cvsaisentan20141004 kanezaki
SSII2014 詳細画像識別 (FGVC) @OS2
Ad

More from Yoichi Shirasawa (18)

PDF
動画にて、身体と人工物のインタラクションを表現する
PDF
写真に関わるユーザーエクスペリエンス(UX)のためのアプローチ
PDF
写真撮影プロセスとHCDプロセスの共通性
PDF
フォトグラファーのためのUXデザイン
PDF
20151004 hcdvalue LT_shirasy_スケッチモーション
PDF
写真を見る人の経験のためにできること
PDF
20131116 digitable shirasy
PDF
201312hcdnet2013-shirasy
PDF
20140321_abc2014spring_shirasy
PDF
20130622_gcs2013_shirasy
PDF
20121021hcdvalue_shirasy
PDF
20120623 cv勉強会 shirasy
PDF
20111212paper whiteboard prototyping(shibuyaux)
PDF
20111127 iccv祭り shirasy
PDF
20111107 cvim(shirasy)
PDF
20110625 cv 3_3_5(shirasy)
PDF
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
PDF
20100626 CVIM(3)6,7 shirasy
動画にて、身体と人工物のインタラクションを表現する
写真に関わるユーザーエクスペリエンス(UX)のためのアプローチ
写真撮影プロセスとHCDプロセスの共通性
フォトグラファーのためのUXデザイン
20151004 hcdvalue LT_shirasy_スケッチモーション
写真を見る人の経験のためにできること
20131116 digitable shirasy
201312hcdnet2013-shirasy
20140321_abc2014spring_shirasy
20130622_gcs2013_shirasy
20121021hcdvalue_shirasy
20120623 cv勉強会 shirasy
20111212paper whiteboard prototyping(shibuyaux)
20111127 iccv祭り shirasy
20111107 cvim(shirasy)
20110625 cv 3_3_5(shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20100626 CVIM(3)6,7 shirasy

20110904cvsaisentan(shirasy) 3 4_3

  • 1. 第3巻 第4章 Bag-of-Featuresに基づく物体認識(2) 2011.09.04 CV勉強会@関東(第15回) 3. 局所特徴量とbag-of-features shirasy 1
  • 2. 第3巻 第4章 Bag-of-Featuresに基づく物体認識(2) 3.1 局所特徴量登場以前の物体認識 3.2 局所特徴量 3.3 Bag-of-features 3.4 Spatial Pyramid Matching 3.5 Bag-of-Featuresの拡張 2
  • 3. 3.1 局所特徴量登場以前の物体認識 画像認識研究の流れ 1960年代 1960年代 • 対象:線画 • 内容:線画解釈 1970年代 1970年代 • 対象: 航空画像、風景画像 • 内容: 各領域の形状、色、模様、領域間の関係などを手がかりに ラベリングにより認識 1980年代 1980年代 • 内容:エキスパートシステム(複雑なルールに基づく認識システム) 3
  • 4. 3.1 局所特徴量登場以前の物体認識 画像認識研究の流れ 1980年代後半 1980年代後半 • 対象:3次元の実世界 • 内容:モデルベース 人手によるルールや幾何形状モデルを認識モデルとして利用 ⇒認識対象を増やすことが困難 1990年代 1990年代 •内容:学習画像を用意、それから自動的に特徴量を抽出し認識(例:固有顔法) 4
  • 5. 3.1 局所特徴量登場以前の物体認識 画像認識研究の流れ 現在の物体認識の方法の基本的な考え方 アピアランスベース 3次元物体を3次元情報に復元せずに2次元(アピアランス)のみで認識 CBIR(content-based image retrieval) 見た目が類似している画像を画像データベース中から検索する、 内容に基づく画像検索 5
  • 6. 3.2 局所特徴量 一般物体認識 2000年前後まで、一般物体認識は極めて困難な問題として考えられていた。 • 常に何らかの前提条件が必要 • 制約のない一般的な画像に適用することは困難 ブレークスルー(2000年代前半) ブレークスルー(2000年代前半) 年代前半 1. 局所特徴の組み合わせによる画像の表現 2. 局所特徴の表現法 3. 局所特徴のヒスグラム表現であるbag-of-features 6
  • 7. 3.2 局所特徴量 ブレイクスルー前夜 1990年代後半: 1990年代後半: 年代後半 • 内容:局所特徴の複数の組み合わせによって画像認識を行う 特定物体認識法が提案[49] • 3次元物体復元のための対応点抽出に使われていた特徴点抽出 アルゴリズムを物体認識に応用 • 多数の特徴点周辺の局所パターンの組み合わせで物体認識が可能 • オルクージョンや変形の影響を受けにくい 7
  • 8. 3.2 局所特徴量 SIFT(Scale Invariant Feature Transform)[33] 局所パターンの組み合わせによる認識のための特徴点検出と特徴ベクトルの 抽出法がセット 特徴: • 回転、スケールの変化に不変な特徴量 • 明るさの変化やアフィン変換(視点の移動)に頑強 以下の2処理を含むアルゴリズム: (1)特徴点とその点の最適スケールの検出 (2)特徴点の輝度勾配ヒストグラムによる128次元ベクトルによる記述 8
  • 9. 3.3 Bag-of-features 局所特徴量の問題点 1枚の画像から数百~数千個抽出 そのままでは、データ量が多すぎて扱いにくい Bag-of- Bag-of-features データ量を少なくし扱いやすくする • 局所特徴量のデータ量圧縮のためのアプローチ • 局所特徴量をベクトル量子化し、1枚の画像から抽出された局所特徴量の集合 を単一のヒストグラムで表現 9
  • 10. 3.3 Bag-of-features ヒストグラム 学習用画像データの各画像から抽出した多数の局所特徴量(濃淡変化に着目) から代表的な局所パターンをvisual wordとして選出 • ヒストグラムを作成することにより画像を表現 • 局所パターンは物体のカテゴリーと関係深い 10
  • 11. 3.3 Bag-of-features 一般物体認識と特定物体認識のアプローチの差分 • 一般物体認識 • visual words数:数百~数千 • 一般物体認識においては同じカテゴリーに属する物体の細かな差異の 吸収されることが望ましい • 特定物体認識 • visual words数:数万~百万 • 全く同じ局所パターンのみが1つのvisual wordに割り当てられることが 望ましい 11
  • 12. 3.3 Bag-of-features 統計的言語処理と画像認識処理の差分 • 統計的言語処理:bag-of-words • 文章をベクトル表現する方法として使用 • 語順を無視して文章を単語の出現頻度で表現 • 画像認識処理 :bag-of-features • 画像分類が文書分類と同じ問題として取り扱うことが可能 bag-of-features提案直後、言語処理の分野で提案された手法が画像認識 に応用されるということが起こった ・ サポートベクターマシンによるテキスト分類手法 ・ 文書分類のための確率的トピック抽出手法 12
  • 13. 3.3 Bag-of-features bag-of-featuresによる特徴表現への変換手順 1. 特徴点抽出 • 画像1枚に付き、数百~数千個程度 • 最近では、決められたピクセルごとの格子点やランダムに選ばれた点を 機械的に特徴点とする方法も活用(dense sampling) 2. BoFベクトルの計算 • SIFT記述子などを利用 3. 全学習画像の全局所特徴ベクトルのk-meansによるクラスタリングによる visual wordsの選出(図4.3) 4. visual wordsに基づいて各画像についてSIFT記述子ベクトルのヒストグラムを 作成(図4.4) 13
  • 14. 3.3 Bag-of-features 図4.3 図4.4 14 引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
  • 15. 3.3 Bag-of-features sparse sampling / dense sampling 認識・・・テクスチャのない均一な局所特徴も重要な情報 画像の内容に関わらず機械的に特徴点の位置およびスケールを選択 する方法も有効[16] • sparse sampling • 特徴点抽出法(SIFTやSURFを含む)を用いて特徴点を抽出する方法 • dense sampling • 格子点やランダム点を特徴点として選択する方法 dense samplingでは、特徴点の数を任意に設定可能であるため、sparse samplingよりも多くの局所特徴を抽出可能 15
  • 16. 3.3 Bag-of-features sparse sampling / dense sampling 図4.5 16 引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
  • 17. 3.3 Bag-of-features BoFベクトルの生成 一般的には方法 C)を選択することが多い A) TF-IFD(※)で重み付け ⇒bag-of-wordsでよく用いられる方法 B) 各要素を1か0の2値にしてヒストグラムを構成 C) visual wordsの出現回数をカウントしてヒストグラムを構成 画像間でvisual wordsの合計頻度に差がある場合、以下を行うことが多い • L1正規化:BoFベクトルの要素の絶対値の和を1とする • L2正規化:BoFベクトルの要素の2乗和を1とする (※) TF-IFD:索引語の重み付け方法のひとつ ex.一文書中に同じ索引語が多く出現すれば、TF-IDFの値は大きく また、多くの文書に索引語が出現すれば、値は小さくなる 17 引用元: http://nlp.nagaokaut.ac.jp/TF%E3%83%BBIDF
  • 18. 3.4 Spatial Pyramid Matching Bag-of-features表現・・・元の特徴点の位置を無視 画像中での位置も物体認識のための重要な手がかりになることが多い 自動車の場合 • タイヤ : 画像中の下方に写っていることが多い ⇒タイヤ特有のvisual wordが存在 • ルーフ : 画像中の上方に写っていることが多い ⇒ルーフ特有のvisual wordが存在 18
  • 19. 3.4 Spatial Pyramid Matching Spaitial Pyramid Matching法[30] 大まかな位置情報を考慮した画像間の類似度計算法 画像を4分割および16分割し画像ピラミッドを構築して、それぞれからBoFを 構築し、ピラミッドのレベルに応じ重みを付けて類似度を計算 図4.6 19 引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
  • 20. 3.5 Bag-of-featuresの拡張 アプローチ分類 • コードブック作成法 • オンラインクラスタリングとmean-shift[24] • 階層的クラスタリング[41] • ガウス混合分布およびEMアルゴリズムによる確率的クラスタリング[43] • Information Bottleneck法[58] • sparse coding[58] • BoFベクトル生成法[74] • 色情報の追加[69] • Bag-of-featuresとは異なる特徴との混合 20
  • 21. 3.5 Bag-of-featuresの拡張 近年急速に拡大 動作認識 静止画像の局所特徴を時間軸方向に拡張 例:人間の動作の分類(歩く、走るなど) [15] bag-of-featuresを用いない一般物体認識 NBNN(Native Bayes Nearest Neighbor)[6] visual wordsを用いずに、特徴点マッチングのみで一般物体認識 アイデア 1. 未知画像の各特徴点と最も類似した学習データの特徴点まで の距離をクラスごとに別々に総和 2. 最も和が小さいクラスに分類 21