2. Alexander G. Anderson, Cory P. Berg, Daniel P. Mossing, Bruno A. Olshusen, “DeepMoive: Using
Optical Flow and Deep Neural Networks to Stylize Movies”, in arXiv pre-print 1605.08153, 2016.
【1】
Keywords: Art Style,
新規性・差分
概要
自然画像と任意のArt Styleの合成は様々な研究が行われて
おり,例えばGatysらの画像合成などが提案されている(下
記リンク; コードあり).本論文では動画に対して画像合成
を行う手法を提案する.オプティカルフロー画像を生成し
てより安定した動画のStylizeを実現した.
・オプティカルフローを用いることで画風転移の最適化の
ための初期化にする.動画に対する画像合成には動作特徴
を用いることが重要であると位置付けた.
Links
論文 http://arxiv.org/pdf/1605.08153v1.pdf
プロジェクト http://alexanderganderson.github.io/
ビデオ
https://www.youtube.com/watch?v=nOrXeFBkP04&feature=yo
utu.be
A neural algorithm of artistic style
http://gitxiv.com/posts/jG46ukGod8R7Rdtud/a-neural-
algorithm-of-artistic-style
9. F. Perazzi, J. Pont-Tuset, B. McWilliams, L. Van Gool, M. Gross, A. Sorkine-Hornung, “A Benchmark
Dataset and Evaluation Methodology for Video Object Segmentation”, in CVPR, 2016.
【8】
Keywords: Segmentation
新規性・差分
概要
前景と背景を高精度に分離するセグメンテーション問題
のための密なラベル付けデータセットであるDAVIS
(Densely Annotated VIdeo Segmentation)を提供する.
・問題は従来のセグメンテーションにのっとっているが,
とにかく密に(Dense)することで現在までの手法がどの程
度できているかを再度認識した.
・従来手法としては教師なし学習による手法 (NLC, FST,
SAL, TRC, MSG, CVOS),半教師あり学習による手法
(SEA, JMP, TSP, HVS)をDAVISデータセットに対して実
装し,表のような精度を得た.
Links
論文
https://graphics.ethz.ch/~perazzif/davis/file
s/davis.pdf
プロジェクト
https://graphics.ethz.ch/~perazzif/davis/ind
ex.html
10. Ira Kemelmacher-Shlizerman, Steve Seitz, Daniel Miller, Evan Brossard, “The MegaFace Benchmark: 1
Million Faces for Recognition at Scale”, in CVPR, 2016.
【9】
Keywords: MegaFace, Dataset, Benchmark
新規性・差分
ベンチマーク概要
1,000,000の顔画像が含まれる顔認識ベンチマークである
MegaFaceを提供.実に690,572人の顔画像が含まれ,顔
検出や顔認証の精度を競う.
・顔認証の分野において比類なき人数のビッグデータを提
供した
・GoogleのFaceNet [CVPR15]の拡張版である,FaceNet-
v8が約75%の精度で同データに対して処理した
(NTechLABのFaceNLargeでも約73%を実現).右にCMC
曲線も示されている.
ベンチマークはFlickerを用いて収集され,その下図は写真数が1,027,060枚
(100万超),サブジェクト(Unique Faceと呼ばれる)が690,572人であった.
下図は顔やその検出枠である.
Links
論文
https://arxiv.org/pdf/1512.00596v1.pdf
プロジェクト
http://megaface.cs.washington.edu/
NTechLAB http://ntechlab.com/
FaceNet論文
https://arxiv.org/abs/1503.03832
OpenFace
https://cmusatyalab.github.io/openface/
11. Yuncheng Li, Yale Song, Liangliang Cao, Joel Tetreault, “TGIF: A New Dataset and Benchmark on
Animated GIF Description”, in CVPR, 2016.
【10】
Keywords: Animated GIF, Image Description
新規性・差分
概要
GIFアニメに対する画像説明文の研究.Tumblrからの100K
を超えるGIFアニメと,120Kに及ぶキャプションの収集を
クラウドソーシングにより行い,データセットについても
提案する.
・GIFアニメに対する画像説明文を提案する.さらにはデ
ータの収集についても解決する
・GIFアニメを多数含んだデータセットを提供し,さらに
は同データセットを現在の画像説明文のデータと比較した
・作成したデータセットに対して,既存のビデオ説明文の
手法を実装して比較した.
・コードをGitHubにて一般公開した
・下の表は提案のTGIFデータセットを用い,動画説明文
にDomain Adaptationした際の結果である.データ数が確
保できている分,精度が向上したものと思われる.
Links
論文 http://arxiv.org/pdf/1604.02748v2.pdf
プロジェクト http://raingo.github.io/TGIF-Release/
コード https://github.com/raingo/TGIF-Release
12. Jiale Cao, Yanwei Pang, Xuelong Li, “Pedestrian Detection Inspired by Appearance Constancy and
Shape Symmetry”, in CVPR, 2016.
【11】
Keywords: Pedestrian Detection
新規性・差分
概要
アピアランスの恒常性や形状の対称性を用いることでハン
ドクラフト特徴でも歩行者検出の精度がまだ向上すること
を示した.2種のNon-Neighboring Features (NNF)である
Side-Inner Difference Features (SIDF)やSymmetrical
Similarity Features (SSF)を提案する.
・ハンドクラフト特徴で非常に高いパフォーマンスを実現
した.
・SIDFは前景と背景を効果的に分離することができるだ
けでなく,人物の外輪郭や内側に存在する輪郭を分離する
ことができる.さらにSSFは人物の対称性を考慮した記述
によりSIDFにない表現を実装可能である.
Links
論文 https://arxiv.org/pdf/1511.08058v1.pdf
プロジェクト
SIDFのパッチペア例.SIDFやSSFの識別器には異なる深さのDecision
Treesを組み合わせた.これにより,SIDFやSSFの有効な空間を探索す
ることができ,歩行者と背景を高度に分離可能である.
提案のNNNF-L4はCaltech
Pedestrian Detection Benchmarkに
おいて16.84%のエラー率であった.
CheckerBoard特徴(CVPR2015)から
1.63%向上した.
15. Nikolaus Correll, Kostas E. Bekris, Dmitry Berenson, Oliver Brock, Albert Causo, Kris Hauser, Kei Okada,
Alberto Rodriguez, Joseph M. Romano, Peter R. Wurman, “Lessons from the Amazon Picking
Challenge”, in arXiv pre-print 1601.05484, 2016.
【14】
Keywords: Amazon Picking Challenge
新規性・差分
概要
Amzon Picking Challengeはロボットによる倉庫の自動化を図る大規
模プロジェクト&コンペティションである.2015年のICRAワークシ
ョップとして26チームが参加し,Perception, Motion Planning,
Grasping, Robotic Systemなどの総合力を競った.ルールは,(簡単
には)完全自動のロボットが20分の間に12の目的アイテムを棚から取
り出す.目的アイテムは右の図に示す.アイテムによっては加点・
減点の度合いが異なり,その総合点で順位を競う.
・日本から参加したトップはC^2M (中部大学藤吉・山下
研・中京大学橋本研・三菱電機)が最高の5位であった
・優勝はRBOであり,スコアは148.Single Arm,グリッ
プは吸引式,アームに取り付けた3次元画像,レーザスキ
ャン,物体検出や3次元バウンディングボックスの知覚特
徴はカラー・エッジ・高さなどにより行い把持のために用
いた、モーションプラニングは行っていなかった
Links
論文 http://arxiv.org/pdf/1601.05484v2.pdf
プロジェクト http://amazonpickingchallenge.org/
Gigazine http://gigazine.net/news/20150602-amazon-picking-
challenge-winner/
藤吉研APC
http://mprg.jp/research/amazon_picking_challenge_j
16. Sergey Levine, Peter Pastor, Alex Krizhevsky, Deidre Quillen, “Learning Hand-Eye Coordination for
Robotic Grasping with Deep Learning and Large-Scale Data Collection”, in arXiv pre-print 1603.02199,
2016.
【15】
Keywords: Hand-Eye Camera, Robot Grasping
新規性・差分
概要
ロボットの把持を自動で学習するための方法を提案した.
Google Research Blogで一時期話題になったロボットハン
ドの研究である(ビデオあり).14台のロボットがパラメー
タを共有し,CNNのモデルを学習し,把持の成功/失敗と
その際の環境を学習する.ロボットの稼働時間が合計
3,000時間,800,000回の試行を経て深層学習を学習.
・ロボットの把持に対して自動で学習を行うことでロボッ
トが賢くなる.
・データがなくても,トライ&エラーの繰り返しによりロ
ボットが自ら学習する.
・パラメータを共有して学習,とにかく試行を繰り返して
ロボットの知覚を強化する
Links
論文 http://arxiv.org/pdf/1603.02199v3.pdf
ビデオ https://www.youtube.com/watch?v=iaF43Ze1oeI
Google Research Blog
http://googleresearch.blogspot.jp/2016/03/deep-learning-for-
robots-learning-from.html
29. Hao Su, Charles R. Qi, Yangyan Li, Leonidas J. Guibas, “Render for CNN: Viewpoint Estimation in
Images Using CNNs Trained with Rendered 3D Model Views”, in ICCV, 2015.
【28】
Keywords: CNN, View Point Estimation, Rendered 3D Model Views,
新規性・差分
概要
2D画像から視点推定を行うCNNフレームワークの提案
PASCAL 3D+ benchmarkにおいてアウトパフォームな結
果を示した.
レンダリングベースの合成画像とCNNを組み合わせること
で,トレーニングデータの不足と能力不足に対処
Links
論文 http://arxiv.org/pdf/1505.05641v1
プロジェクト
https://shapenet.cs.stanford.edu/projects/RenderForCNN/
code https://github.com/shapenet/RenderForCNN
大規模な3Dモデルのコレクションからレンダリングされた画像を
実際の画像上に合成することでトレーニング画像を生成.
CNNは,Ground Truthの視点画像を学習.
テストデータとして実際の画像を利用して,視点の推定を行う.
CNNのトレーニング合成画像生成のパイプライン
46. Fang Wang, Le Kang, Yi Li, “Sketch-based 3D Shape Retrieval using Convolutional Neural Networks”, in
CVPR, 2015.
【45】
Keywords: 3D Object Retrieval, Sketck Retrieval
新規性・差分
概要
2次元スケッチをクエリ(入力)として,3次元モデルから対
象物体を検索する.検索するサーバ側には3次元モデルを
保持しておき,”best view”な2次元投影画像でマッチング
する.マッチングのモデルにはSiamese Convolutional
Networkを用い,片方にはスケッチを,もう一方には3次元
モデルを2次元に投影したモデルを用いる.
・スケッチを入力とした特徴表現方法としてSiamese
Networkを学習する.さらには,3次元モデルからの2次元
投影を実行してベストビューを選択する問題を解いた.
・2つのSiamese Networkを適用し,Cross-Domainでの類
似度を計測した.
・2つのデータセットにおいてstate-of-the-artな精度を達成
した.
Links
論文 http://users.cecs.anu.edu.au/~yili/publication/cvpr-2015-sbsr.pdf
プロジェクト http://users.cecs.anu.edu.au/~yili/cnnsbsr/
コード http://users.cecs.anu.edu.au/~yili/cnnsbsr/software/sbsr-cvpr15.zip
GitXiv http://gitxiv.com/posts/L63GfSyXG4yneS5mt/sketch-based-3d-
shape-retrieval-using-convolutional-neural
47. Nicholas Rhinehart, Kris M. Kitani, “Learning Action Maps of Large Environments via First-Person
Vision ”, in CVPR, 2016.
【46】
Keywords: Human Centric Functional Description, Action Map
新規性・差分
概要
3次元のマップと人物の行動の履歴から行動するマップ
(Action Map)を空間中に生成する.一人称視点からの入力
からStructure-from-Motionにより3次元のマップを生成し
て人物の行動する領域に対して履歴を投影する.
・従来では三人称視点からの解析がメインであった
Function認識を,一人称視点から実現した.
・Action MapというConceptiualな問題を提起した.
Links
論文 http://www.cs.cmu.edu/~kkitani/pdf/RK-CVPR16.pdf
プロジェクト
http://www.cs.cmu.edu/~nrhineha/slides/action_maps_2016_3
0min.pdf
48. Huan Fu, Chaofui Wang, Dacheng Tao, Michael J. Black, “Occlusion Boundary Detection via Deep
Exploration of Context”, in CVPR, 2016.
【47】
Keywords: Occlusion Boundary Detection
新規性・差分
概要
オクルージョンしている境界領域を識別するために(i) 位置
のパターン (local contextual correlations in pixel labeling)
や(ii) 周囲環境の観測 (contextual correlations between the
labeling of pixels),(iii) 時系列的なコンテキスト (temporal
contextual information in video sequences)を解析する.手
法としてはConvolutional Neural Networks (CNN)や
Conditional Random Fields (CRF)を用いる.
・CMUのベンチマークにおいて従来のstate-of-the-artな結
果を超越した.数値的には0.62から0.71に向上した.
・
Links
論文 http://files.is.tue.mpg.de/black/papers/FuCVPR2016.pdf
プロジェクト https://ps.is.tuebingen.mpg.de/publications/fu-
cvpr-2016
49. Wei Shen, Kai Zhao, Yuan Jiang, Yan Wang, Zhijiang Zhang, Xiang Bai, “Object Skeleton Extraction in
Natural Images by Fusing Scale-associated Deep Side Outputs”, in CVPR, 2016.
【48】
Keywords: DeepSkeleton
新規性・差分
概要
一般的な物体のスケルトン推定を実行するアルゴリズムを
提案.人物に限らずあらゆる物体や動物の姿勢を推定する
(上図)ために,Oxford VGG-16をベースとする(下図)が,
畳み込みの行程によって推定する部位を分け,最後に結果
を統合する.各層により得意・不得意を分別して学習する.
雰囲気的には与えられた前景の細線化を行うものである.
・煩雑な自然シーンにおいても物体のスケルトンを効果的
に推定することができる.
・色やテクスチャ,形状やサイズなどの多様性を許容して
物体のスケルトンを推定.
Links
論文 http://arxiv.org/pdf/1603.09446v2.pdf
コード https://github.com/zeakey/DeepSkeleton
67. Kris M. Kitani, Takahiro Okabe, Yoichi Sato, Akihiro Sugimoto, “Fast Unsupervised Ego-Action Learning
for First-Person Sports Videos”, in CVPR, 2011.
【65】
Keywords: First Person View, GoPro, Unsupervised Learning
新規性・差分
概要
一人称ビジョンからのスポーツ映像解析を行う.頭部に装
着したGoProカメラから行動を教師なしで学習し,映像の
セグメント化を実行する.具体的にはスパースオプティカ
ルフローにより抽出したモーションヒストグラムを
Stacked Dirichlet Process Mixture Modelsにより解析する
ことで自動で類似行動がクラスタリングされる.
・教師なし学習により行動を分割して高精度にセグメント
化することに成功した.
・一人称ビジョンにおいて頻繁に用いられるデータセット
UEC Dataset (PARK, Quad sequenceなど)を提案した論文
としても知られる.
Links
論文 http://www.cs.cmu.edu/~kkitani/pdf/KOSS-CVPR11.pdf
データセット http://www.cs.cmu.edu/~kkitani/datasets/
68. Yin Li, Zhefan Ye, James M. Rehg, “Delving into Egocentric Actions”, in CVPR, 2015.
【66】
Keywords: First-Person Vision (FPV), Dense Trajectories,
新規性・差分
概要
一人称ビジョンからの行動認識の改良に関する論文.Low-
levelとしてはDense Trajectories (DT)によるモーション特
徴,DTにLABチャネルから取り出したLBPも統合した物体
特徴を適用.Middle-levelな情報では,手の姿勢や動作,
頭部の動作,視線方向も参照する.また,一人称ビジョン
いおけるそれらの組み合わせについても詳細に評価を行っ
た.
・一人称ビジョンにおいて高度な特徴量であるDTを用い
ただけでなく,LABの各チャネルにおいてLBPを抽出する
特徴をDTのフレームワーク内にて実装した.
・中央の表のFPV datasetまとめも便利.
・下表の評価において,O(Object) + M(Motion) + E
(Egocentric cues) + H(Hand)の組み合わせがもっとも効果
的であることが判明した.HがあればG(gaze)はさほど重
要ではない?
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Li_Delv
ing_Into_Egocentric_2015_CVPR_paper.pdf
著者ページ http://yinli.cvpr.net/
69. Hamed Pirsiavash, Deva Ramanan, “Detecting Activities of Daily Living in First-person Camera Views”,
in CVPR, 2012.
【67】
Keywords: Activities of Daily Living (ADL), First Person Vision, Actiivty Detection
新規性・差分
概要
介護などで特に重要であると思われるActivities of Daily
Living (ADL)の認識に取り組む.物体検出をVisual Phrases
[Farhadi+, CVPR11]により実行し,行動認識ではTemporal
Pyramidsを参照し,visual wordsを物体モデルから抽出,
長期の行動解析にも耐えうる手法とした.
・長時間に渡って解析を実行したADL dataasetを提案.
・ADL認識のための物体検出や行動認識手法が右の表や
Confusion Matrixに示す通りである.行動認識の平均精度
は40.6%であった.
Links
論文 http://people.csail.mit.edu/hpirsiav/papers/adl_cvpr12.pdf
プロジェクト
http://vision.ics.uci.edu/papers/PirsiavashR_CVPR_2012_1/
ビデオ https://www.youtube.com/watch?v=tybmC0bS928
スライド
http://www.csc.kth.se/cvap/cvg/rg/materials/hossein_004_slide
s.pdf
70. Junhua Mao, Jonathan Huang,Alexander Toshev, Oana Camburu, Alan Yuille, Kevin Murphy,
“Generation and Comprehension of Unambiguous Object Descriptions”, in CVPR, 2016.
【68】
Keywords: text descriptions of images,dataset
新規性・差分
概要
・画像生成分の根本的な問題として,画像の説明の仕方
はいくらでもあるため,手法の評価が難しいという点が
ある.そこで一度に説明するbounding_box内の物を1つ
に限定することで,より明確な評価をする.右図のよう
に,画像と領域が入力されたら説明文が出力され,文と
画像が入力されたらその文に合う領域が出力される.
・Google Refexp (G-Ref) datasetを提案.右上の画像
のように,リッチなアノテーションが物体ごと(緑
のマーク)に付与されている.MS COCOに基づいた
ものなので物体のmaskやカテゴリーの情報にもアク
セスできる.
. datasetとtoolboxが公開されている.
https://github.com/ mjhucla/Google_Refexp_toolbox
Links
論文 https://arxiv.org/pdf/1511.02283v3.pdf
79. Alexandre Alahi, “Social LSTM: Human Trajectory Prediction in Crowded Spaces”, in CVPR, 2016.
【77】
Keywords:
新規性・差分
概要
・群衆の経路予測のためのRNNモデルの提案.(social
LSTM)
・従来の群衆解析は人同士はぶつからないことや同じような動きをすると
いった仮説の基に解かれてきた.しかし本手法では群衆予測に特化した
RNNアーキテクチャを構築することでデータ特化の群衆予測を可能にした.
Social LSTMを構築する上でSocial Poolingを提案した.Social Poolingとは
それぞれに近い存在の重みも考慮するpooling方法である.近い人間が複数
存在する場合はセルごとに重みを統合する
Links
論文
http://web.stanford.edu/~alahi/downloads/CVPR16_
N_LSTM.pdf
80. Zuxuan Wu, “Harnessing Object and Scene Semantics for Large-Scale Video Understanding”, in CVPR,
2016.
【78】
Keywords:
新規性・差分
概要
オブジェクトとシーンを意味的に融合させたネットワーク
の構築(Object-Scene semantic Fusion:OSF). 物体認識,シ
ーン認識,フレームベースの低レベルCNNの3層のCNN特
徴を意味的に融合する.ActivityNetとFCVIDで学習された
m出るを用いている.Fusion Netに誤差逆伝搬情報を入力
することでビデオと物体・シーンの意味的関係性を観測す
ることが可能
オブジェクト特化のCNN特徴ととシーン特化のCNN特徴
を意味的に融合した特徴抽出が可能.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Wu_
Harnessing_Object_and_CVPR_2016_paper.pdf
81. Yin Li, Alireza Fathi, James M. Rehg, “Learning to Predict Gaze in Egocentric Video”, in ICCV, 2013.
【79】
Keywords: Gaze Estimation, Egocentric Vision
新規性・差分
概要
一人称カメラの装着者の潜在的な手がかりを学習すること
で,視線推定を自動で行うことができるという研究.特に,
ユーザの頭部動作や手領域の位置に着目し,それらを総合
的に判断することで視線を高度に推定する.右図のグラフ
ィカルモデルにより視線を推定する.入力は操作位置・グ
ローバルモーション・手のモーション・手の位置.
・頭部動作や手領域といった潜在的な動作から視線を推定
することに成功した.
・従来のsaliencyはIttiらのボトムアップモデルや対象物あ
りきのトップダウンモデルであったが,一人称ビジョンな
らではの視線推定方法を提案した.
・AUC scoreで87.8%,AAEで8.35 degreeと比較手法と比
べても最も良好な性能を示した.
Links
論文 http://ai.stanford.edu/~alireza/publication/Li-Fathi-Rehg-
ICCV13.pdf
82. Stefano Alletto, Giuseppe Serra, Simone Calderara, Rita Cucchiara, “Understanding social relationships
in egocentric vision”, in Pattern Recognition, 2015.
【80】
Keywords: Social Relationship, Egocentric Vision
新規性・差分
概要
一人称ビジョンにおけるインタラクション認識.時系列モ
デルであるHMMを用いて顔ランドマークや形状を記述.
さらには複数人物の頭部向き(head orientation)や人物間の
距離から教師ありクラスタリングによりインタラクション
を検出する.
一人称ビジョンにおいて,
・低解像かつ煩雑な環境においてもロバストな頭部姿勢推
定技術を提案
・キャリブレーションによらない3次元の位置推定技術
・Supervised Correlation ClusteringやStructural SVMによ
りインタラクション認識を行う
・提案手法については右のフローチャートがわかりやすい
・Landmark+HOG+HMMを組み合わせる手法が最適な方
法であると判断した
Links
論文
https://www.researchgate.net/publication/28
0528864_Understanding_social_relationshi
ps_in_egocentric_vision
83. Jun Yuan+, “Temporal Action Localization with Pyramid of Score Distribution Features”, in CVPR, 2016.
【81】
Keywords:
新規性・差分
概要
・時系列方向のアクションローカライゼーションのための
アーキテクチャ構築.
Pyramid of Score Distribution Features (PSDF) の提案.
・従来の行動認識は行動ごとにトリムされた動画像を対象
としていた.本論文では行動の始まりから終わりまでをピ
ラミッド状にスコアとして評価しトリムされていない動画
像から行動を検出する手法の提案を行っている.
PSDFは各検出領域を中心とする複数の分解能を持つ動き
情報を抽出するために提案されている.
Links
論文 http://www.cv-
foundation.org/openacc
ess/content_cvpr_2016/
papers/Yuan_Temporal
_Action_Localization_C
VPR_2016_paper.pdf
84. Jagannadan Varadarajan, “A Topic Model Approach to Represent and Classify American Football Plays”,
in BMVC, 2013.
【82】
Keywords:
新規性・差分
概要
・アメリカンフットボールの映像解析にトピックモデルを
応用した例.選手の動きを入力とし選手の動作方向、時間、
配置を文章として記述.その後教師ありトピックモデルの
一種であるMedLDAを用いてプレイのタイプを出力する.
・アメリカンフットボールの映像解析(選手の軌跡を用い
た)でのトピックモデルを用いたフレームワークを提案し
高い精度で分類が行えている.
選手の軌跡を文章と捉え統計的に解析する手法の検証を行
っている.またデータセットの提案も行なっている.
Links
論文
https://www.researchgate.net/profile/Bernard_Ghanem/publicat
ion/262009746_A_Topic_Model_Approach_to_Represent_and
_Classify_American_Football_Plays/links/55808f4608ae47061
e5f3322.pdf
85. L Neumann, J Matas, “Real-time scene text localization and recognition, ” Computer Vision and Pattern
Recognition (CVPR), 2012 IEEE Conference on ...
【83】
Keywords:Class-specific Extremal Regions, ERs
新規性・差分
概要
エンドツーエンドのリアルタイムシーンテキストのローカ
ライゼーションと認識の手法を提案している.リアルタイ
ムのパフォーマンスを達成するために,文字検出問題に焦
点を当て,極地領域(ERs)から順次に領域を選択すること
でローカライゼーションと認識を達成している.
Class-specific Extremal Regionsという情景画像文字検
出の手法を提案している.この手法はでは,
ERs(Extremal Regions)という周囲より高い画素を1つ
の領域としてグループ分けしていく.この領域を候補
領域とすることで,高い再現率を示した.
Links
論文 :
http://ieeexplore.ieee.org/xpls/abs_all.j
sp?arnumber=6248097
・ER detectionチャンネルごとの再現率と適合率を実験し
た結果,HSI表色系のH,S,Iチャンネルに勾配強度の大
きさのチャンネルを加えることで高い再現率を示した.
・ICDAR2011データセットセットにおいて高い再現率を
示した
86. Stefano Alletto, Giuseppe Serra, Simone Calderara, Francesco Solera, Rita Cusshiara, “From Ego to
Nos-vision: Detecting Social Relationships in First-Person Views”, in CVPRW, 2014.
【84】
Keywords: Social Relationship, Egocentric Vision, First Person Vision
新規性・差分
概要
一人称ビジョンにおいて,人物間の社会的な関係性/イン
タラクションを把握する論文.具体的には撮影されたカメ
ラから誰と誰が会話しているかを理解する.頭部姿勢推定
や3次元位置を推定して,Structured SVMによりグループ
を推定する.
・一人称ビジョンにおいて新規に頭部姿勢推定する手法を
提案した
・3次元のシーン再構成する手法を提案 (頭部や人物の位置
を空間にマッピング)
・Structural SVMによる学習で,グループごとのくくりを
学習する
・EGO-GROUP Dataset(右図)を提案し,各環境における
グループを認識する問題を提供した.
Links
論文 http://www.cv-
foundation.org/openac
cess/content_cvpr_wor
kshops_2014/W16/pap
ers/Alletto_From_Ego_
to_2014_CVPR_paper
.pdf
プロジェクト
87. Suriya Singh, Chetan Arora, C. V. Jawahar, “First Person Action Recognition Using Deep Learned
Descriptors”, in CVPR, 2016.
【85】
Keywords: First Person View(FPV), CNN,
新規性・差分
概要
・ウェアラブルカメラを付けた人物の姿勢と自然な頭部運
動によって, 動画に急激な動きが生じ, 着用者の行動認識が
困難である.最後に行った行動と着用者の行動分類をCNN
で学習させた.
・ 第三者のビデオ分析により, FPVを用いた行動認識のデ
ータセットを多くて一般化できない.
本研究では, FPVを用いた動作認識のために着用者の動きと
事前にビデオ分析に訓練を受けた空間的・時間的の流れを入
れた
CNNを提案する.これにより精度が従来研究より向上.
Links
論文 https://cvit.iiit.ac.in/images/ConferencePapers/2016/EgoConvNetCVPR2016.pdf
89. Tomasz Malisiewicz, Abhinav Gupta, Alexei Efros, “Ensemble of Exemplar-SVMs for Object Detection
and Beyond”, in ICCV, 2011.
【87】
Keywords: Exemplar SVM, Object Detection
新規性・差分
概要
Exemplar SVMによる物体検出の提案.通常SVMではカテ
ゴリごとにクラスを分類するが,Exemplar SVMではイン
スタンスごとにSVMを用意して,近いサンプルを割りあて
るため,物体の姿勢や見え方の非常に近いものが割り当て
られるというアイディア.セグメンテーションや幾何学的
構造,3Dモデルなどへの転移も可能と判断した.
・クラスごとではなく,SVMをインスタンスごとに割りあ
てるExemplar SVMを提案する.
・直感的にはNearest Neighbor をSVMで行っている.作
者らはこの手法は驚くほどうまくいっていると言及した.
Links
論文
http://repository.cmu.edu/cgi/viewcontent.cgi?article=1780&co
ntext=robotics
プロジェクト http://www.cs.cmu.edu/~tmalisie/projects/iccv11/
コード https://github.com/quantombone/exemplarsvm
90. H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, T. Serre, “HMDB: A Large Video Database for Human
Motion Recognition”, in ICCV, 2011.
【88】
Keywords: HMDB, Action Recognition
新規性・差分
概要
行動認識の大規模データベースであるHMDB (a large human motion database)の提案
論文.51の行動クラス(次ページ図),6,766動画クリップを含み,学習/テストは3分割
されたファイルを参照して交差検証を行う.各クラス最低でも101の動画を含んでお
り,クラス内のサンプル数は十分確保されている.2016年の最先端の精度でも
65~66%台(UCF101ですら90%超えている)ともっとも難しいとされている.カメラモ
ーション有,上半身のみの評価,体向きの違い,低画質を含むなど画像認識の困難な
課題を含んでいる.
・それまでの行動認識データセットの中でも最大級の規模を誇るデータセットとなっ
た.(2016年現在はそれよりも大規模なUCF101 - http://crcv.ucf.edu/data/UCF101.php,
THUMOS15 - http://www.thumos.info/download.html, ActivityNet - http://activity-
net.org/ などが存在する)
・感覚的には不要なフレームを自動で判断して除く機能が必要.すべてのフレームを
一様に評価する方法では限界であるため60%台からの移行がない?
Links
論文
http://cbcl.mit.edu/cbcl/publications/ps/Kuehn
e_etal_iccv11.pdf
プロジェクト http://serre-
lab.clps.brown.edu/resource/hmdb-a-large-
human-motion-database/
92. Bolei Zhou, Liu Liu, Aude Oliva, Antonio Torralba, “Recognizing City Identity via Attribute Analysis of
Geo-tagged Images”, in ECCV, 2014.
【89】
Keywords: City Identity, Attribute Analysis, GPS, Geo-tagged Images
新規性・差分
概要
都市ごとの「アイデンティティ」を属性ベースで解析して都市間の類似度
を計算した論文.都市計画などに役立てることを想定.21の都市から集め
られた約2,000,000枚のGPSタグが付与された画像から解析を行う.MIT
City Databaseを同時に公開し,交通の様子 (Transportation)や(歴史的)建造
物 (Architecture)などが含まれる.画像は画像共有SNSであるInstagram,
Flickr, Panoramioなどから取得した.
・膨大な画像から属性の解析や都市間の類似度などを計算可能とした.
・画像からAttributeを解析する技術を用いた.論文が出版された当初はハ
ンドクラフト特徴+SVMであったが,現在ではPlaces-CNNによる属性解析
に置き換えられた.
Links
論文
http://people.csail.mit.edu/bzhou/project/eccv2014/ECCV14_cit
yperception.pdf
プロジェクト http://cityimage.csail.mit.edu/
著者 http://people.csail.mit.edu/bzhou/
93. James Hays, Alexei A. Efros, “IM2GPS: estimating geographic information from a single image”, in
CVPR, 2008.
【90】
Keywords: Geo Information Estimation, GPS
新規性・差分
概要
写真を入力として,その画像がどこで撮影されたのかを推
定する問題(IM2GPSと命名した).6,472,304枚のGPSタグ
が付与された画像を用いて学習することにより地球上の有
名な位置であればランダムよりも30倍高い精度での位置推
定が可能になる.特徴量としてはLAB, Texton, Line
Feature, Gist, Geometric Context [Hoiem+, 2005]を適用し
た.
・画像入力として,地球上の位置を推定する
・Nearest Neighborで推定した結果をずに示す.ランダム
よりも明らかに良い結果となった.横軸がDatabase size,
縦軸が%である.最終的には120-NNが良好な精度を達成
した.
Links
論文 http://graphics.cs.cmu.edu/projects/im2gps/im2gps.pdf
プロジェクト http://graphics.cs.cmu.edu/projects/im2gps/
著者 http://www.cc.gatech.edu/~hays/
94. David M. Chen, Georges Baatz, Kevin Koser, Sam S. Tsai, Ramakrishna Vedantham, Timo Pylvanainen,
Kimmo Roimela, Xin Chen, Jeff Bach, Marc Pllefeys, Bernd Girod, Radek Grzezczuk, “City-Scale
Landmark Identification on Mobile Devices”, in CVPR, 2011.
【91】
Keywords:
新規性・差分
概要
パノラマ画像やそれに対するGPSデータ,クエリイメージ
のペアを含んだデータセットを提供することで,都市レベ
ルのランドマークマッチング問題の促進を図る.データベ
ース中には約1,700,000枚の画像が含まれる.
・モバイル端末におけるランドマークマッチングのデータ
セットを一般的に提供する.
・総合的な位置認識技術を提案する.
Links
論文
http://web.stanford.edu/~bgir
od/pdfs/Chen_CVPR2011.p
df
プロジェクト
https://sites.google.com/site/
chenmodavid/datasets
95. Xiaowei Li, Changchang Wu, Christopher Zach, Svetlana Lazebnik, Jan-Michael Frahm, “Modeling and
Recognition of Landmark Image Collections Using Iconic Scene Graphs”, in ECCV, 2008.
【92】
Keywords: Iconic Scene, Image Collection, 3D Reconstruction
新規性・差分
概要
Webベースの検索から,物体認識により対象となるランド
マークを選択し,それらを用いて3次元再構成を行う.右
の画像の例では”Statue of Liberty”の3次元モデルを復元す
る課題であり,Webから抽出した45,284枚の画像から不要
なものを40%除去し,また,図の例では世界の自由の女神
- NewYork, Tokyo, LasVegas を復元した.
・2次元の物体認識や3次元の再構成を組み合わせたような
論文.両者のメリットを組み合わせた形で研究が行われて
いる.
Links
論文
http://web.engr.illinois.edu/~slazebni/publications/eccv08.pdf
96. David Crandall, Lars Backstrom, Daniel Huttenlocher, Jon Kleinberg, “Mapping the World’s Photos”, in
WWW, 2009.
【93】
Keywords: Geotagged Photos
新規性・差分
概要
位置情報が付加された写真をいかに集めてデータを構成す
るかについて言及した論文.画像収集はFlickr内にて行い,
合計で35,000,000枚の画像を収集するに至った.コンテキ
スト解析や位置情報を元に探索を行った.SIFT+BoFによ
るランドマーク識別やクラスタリングにより類似画像を構
造化した.
・Webないに煩雑に存在している画像を,位置やコンテキ
ストなどの情報を元にして構造化に成功した
・3千万枚という大規模なデータベースを生成し,いずれ
の画像にもGPS情報が付けられている
Links
論文
http://www.cs.cornell.edu/~crandall/papers/mapping09www.pdf
プロジェクト http://www.cs.cornell.edu/~crandall/photomap/
97. Slava Kisilevich, Milos Krstajic, Daniel Keim, Natalia Andrienko, Gennady Andrienko, “Event-based
analysis of people’s activities and behavior using Flickr and Panoramio geotagged photo collections”, in
Information Visualisation, 2010.
【94】
Keywords: Geotagged Images, Photo-sharing websites
新規性・差分
概要
写真共有サービスから位置情報が付けられた画像を抽出し
て空間的・時間的な解析を行い可視化する研究である.面
白そう/有名な場所の解析,行動パターンから興味を持つ
場所の解析などを行う.定期イベントによる場所と人の移
り変わりや,観光地ランク,モビリティなどの解析を行う.
マイニングにより時間的や空間的に特徴的な傾向を抽出し
た.
右の図は解析の結果得られた可視化の例であり,下記のよ
うなものを含む.
・写真が撮られやすい場所
・観光地における密度マップ
・イベントとその人数の変遷
・FlickrとPanoramioによる行動の違い
Links
論文 https://bib.dbvis.de/uploadedFiles/264.pdf
プロジェクト
98. Carl Doersch, Saurabh Singh, Abhinav Gupta, Josef Sivic, Alexei A. Efros, “What Makes Paris Look like
Paris?”, in ACM Transactions on Graphics (ToG), 2012.
【95】
Keywords: Geo-tagged Images
新規性・差分
概要
その街らしさを説明する要素はどこにあるか?を解析した
論文である.例えば「パリ(フランス)」らしさを説明する
際には建物の窓やバルコニー,街の看板やランドマークな
どが挙げられる.Web上の数万の画像を解析することで他
の街とは異なる特徴を見つける.
・「特徴的な」パターンを見つけるに成功した.エッフェ
ル塔や看板のパターンなどは非常に有効な情報であること
が判明した.バルコニーの平均画像においても他の都市と
の違いを明らかにした.また,木や車などその街を説明す
る度合いが低いものに関しては除去することができる
・
Links
論文
http://graphics.cs.cmu.edu/projects/whatMakesParis/paris_sigg
_reduced.pdf
ビデオ https://www.youtube.com/watch?v=s5-30NKSwo8
ビデオ2 https://vimeo.com/145472163
著者 https://www.cs.cmu.edu/~cdoersch/
125. Lisa Anne Hendricks, Subhashini Venugopalan, Marcus Rohrbach, Raymond Mooney, Kate Saenko,
Trevor Darrell, “Deep Compositional Captioning: Describing Novel Object Categories without Paired
Training Data”, in CVPR, 2016.
【122】
Keywords: Image Captioning
新規性・差分
概要
画像を説明するのみならず,質問に対する回答文を用意す
る.従来では画像性成分のミスが回答文のミスに繋がって
いたが,外部データを有効に(ペアとして)学習することで
該当する知識の転移を行う.
Word2vecを用いることでペアの概念の距離を計算する.
これを画像特徴量と対応づけることで効果的に画像説明文
を行えることが判明した.
・MSCOCOにて非常に高い精度を達成した.METEORに
て21,F1にて39.78を達成
・DCCによる転移により,データサンプルの少ないような
ものに対しても効果的に学習ができることが判明した
・ビデオへの適用や,NOCにより表現能力を拡張しただけ
でなく,
Links
論文 https://arxiv.org/abs/1511.05284
126. Junhua Mao, Jonathan Huang, Alexander Toshev, Oana Camburu, Alan Yuille, Kevin Murphy,
“Generation and Comprehension of Unambiguous Object Descriptions”, in CVPR, 2016.
【123】
Keywords: Image Captioning
新規性・差分
概要画像認識レベルではなく,画像の説明文のための表現能力
を向上する.(x: a man, o: a man is wearing a blue
sweater) また,画像説明文の評価は非常に難しいが,これ
をわしゃの意図に沿うように、さらには受けてにもわかり
やすい文章にするべく画像を理解する.
CNN特徴やLSTMにより全ての候補領域からの説明を行い,
最大化する.LSTMモデルは全ての候補領域から生成され
たものとLoss関数を最小化するものが選択される.
・・話し手や受け手の意図をLSTMモデルに反映させるこ
とにより,効果的な画像説明文の生成が可能となった.
Links
論文
http://cbmm.mit.edu/sites/defau
lt/files/publications/object_descr
iption_cbmm.pdf
138. Abhijit Bendate, Terrance E. Boult, “Towards Open Set Deep Networks”, in CVPR, 2016.
【135】
Keywords: Open World Setting
新規性・差分
概要
従来のAlexNetのような物体のカテゴリ認識ではなく,カ
テゴリにプラスして様々な環境におけるカテゴリを認識す
るためにソフトマックス関数の出力を用いる(Open Set ).
Softmaxのみならず,Openmax関数を定義してこの問題に
取り組み,この問題に取り組んだ.Openmaxでは
unknownクラスなども含み,実世界をより深く認識するた
めの枠組みとなっている.
・Softmaxに加えて,より表現能力をましたOpenMaxと呼
ばれる出力層を提案した.
・CNN easily fooledにインスパイアされて,「よくわから
ない」クラスなどより実世界の認識に近い性質を識別器に
もたせた.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Bendal
e_Towards_Open_Set_CVPR_2016_paper.pdf
139. Mark Wolff, Robert T. Collins, Yanxi Liu, “Regularity-Driven Building Façade Matching Between Aerial
and Street Views ”, in CVPR, 2016.
【136】
Keywords:
新規性・差分
概要
ストリートビューと航空画像を対応づける問題.この問題
に対して建物の窓など少ないながらも特徴的な部分をマッ
チングすることにより解決する.エッジやカラー,テクス
チャや変形のコストを用いることによりマッチング精度を
向上した.NYUやSF, Romaのデータにおいて高い精度を
実現した.
・Street-viewとAerial-view間の誤
差関数を決定したことが新規性と
して挙げられる.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr
_2016/papers/Wolff_Regularity-
Driven_Facade_Matching_CVPR_2016_
paper.pdf
140. R. T. Pramod, S. P. Arun, “Do Computational Models Differ Systematically From Human Object
Perception?”, in CVPR, 2016.
【137】
Keywords:
新規性・差分
概要
人間に近い物体検出手法を実現する.人間の視覚機能(特
徴抽出)と画像特徴の比較を行うことで,人間とコンピュ
ータの違いを見分けるというものである.これに対して形
状が微小に異なる物体やその位置を変更して反応時間を計
測した.
・形状変化を微小に含むデータセットを用いて人間の反応
速度やコンピュータによる物体検出を行うことで,両者の
違いを明らかにする.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Pramod
_Do_Computational_Models_CVPR_2016_paper.pdf
141. Wei Wang, Zhen Cui, Yan Yan, Jiashi Feng, Shuicheng Yan, Xianbo Shu, Nicu Sebe, “Recurrent Face
Aging”, in CVPR, 2016.
【138】
Keywords: Face Aging, Recurrent Neural Networks
新規性・差分
概要
人物の顔の経年変化を表現した.年齢のグループを9つに分類,
データを男女で合計6,000のペアを用意した.データに対しては半
自動で年齢のアノテーションを行っている.Interpolation +
Eigenfaces & OpticalFlowにより顔特徴量を取っている.さらに,
経年による人物の顔変化においてもデータから表現する.
・RNNを用いて,特徴を効果的に捉えたうえでRNNアー
キテクチャを設定した.
・中間顔 (intermediate faces)を生成することができるよう
になった
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Wang_
Recurrent_Face_Aging_CVPR_2016_paper.pdf
142. Justus Thies, Michael Zollhofer, Marc Stamminger, Christian Theobalt, Matthias Niessner, “Face2Face:
Real-Time Face Capture and Reenactment of RGB Videos”, in CVPR, 2016.
【139】
Keywords: Face Reenactment with Single View
新規性・差分
概要
顔特徴点の追跡により,顔から別の顔への投影を実施する.
Parametric Face Modelでは個人差や顔の表情,その他の
動作や照明などによる顔の見え方を推定するためのモデル
とする.ReenactmentではRGBの画像から各種パラメータ
や特徴点追跡の結果を,ターゲット側でも各種パラメータ
を推定しておく.
・単眼カメラからの入力で,顔の置き換えをリアルタイム
で実行できるようにした.これにより,ウェブカメラのみ
で顔の置き換えができるようになったと言える.
・顔の微小な特徴点追跡を行うことができた
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Thies_
Face2Face_Real-Time_Face_CVPR_2016_paper.pdf
144. Leon A. Gatys, Alexander S. Ecker, Matthias Bethge, “Image Style Transfer Using Convolutional Neural
Networks”, in CVPR, 2016.
【141】
Keywords: Style Transfer, CNN
新規性・差分
概要
CNNを用いた画風の変換に関する研究.CNNに含まれる
特徴マップのマルチスケール性をうまく利用して詳細な領
域においても画風の変換を実行する.風景画を変換して,
絵画に若干近づけたあとに変換を行うことで,どのような
画像でも自然な画風変換が可能になる.
・生成モデルを改良して,画像の表現方法を拡張した
・画風変換のための制御しやすくなり,より人間のイメー
ジに沿うような画像変換とした
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Gatys_I
mage_Style_Transfer_CVPR_2016_paper.pdf
145. Arthur Daniel Costea, Sergiu Nedevschi, “Semantic Channels for Fast Pedestrian Detection”, in CVPR,
2016.
【142】
Keywords: Semantic Segmentation, ICF, Pedestrian Detection
新規性・差分
概要
セマンティックセグメンテーションをチャネルとして用い
た歩行者検出.直感的にはIntegral Channel Features (ICF)
のチャネルを増やしていると捉えることができる.セマン
ティックセグメンテーションは人や建物,路面などが含ま
れる.
・セマンティックセグメンテーションの結果をチャネルと
してICFを取得
・チャネルに対するフィルタを複数階層に渡り抽出できる
ようになった
・ICFの高速な処理(15fps)のみならず,Caltech Pedestrian
にてエラー率16.83%という数字を記録した
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Costea
_Semantic_Channels_for_CVPR_2016_paper.pdf
146. Hakan Bilen, Basura Fernando, Efstratios Gavves, Andrea Vedaldi, Stephen Gould, “Dynamic image
networks for action recognition”, in CVPR, 2016.
【143】
Keywords:
新規性・差分
概要
ビデオフレームを一枚の画像に投影した状態でCNNにより
時系列特徴を抽出をして行動認識を実行する.Two-
Stream CNNのTemporal-Streamの改良である.時系列画
像よりランク学習を行い”Dynamic Image”を生成する.
Rank pooling layerやさらには学習の効率化のための近似
により時系列のまとまりを効果的に学習し,行動認識に効
果的な特徴を捉える.
・Rank Pooling Layerやその近似手法により誤差逆伝播法
を用いた際にも高速かつ高精度な時系列表現を実現.
・行動認識に対して効果的な性能を発揮した.
Links
論文
https://www.robots.ox.ac.uk/~vgg/publications/2016/Bilen16a/b
ilen16a.pdf
147. Vignesh Ramanathan, Jonathan Huang, Sami Abu-Le-Hajia, Alexander Gorban, Kevin Murphy, Li Fei-
Fei, “Detecting Events and Key Actors in Multi-person Videos”, in CVPR, 2016.
【144】
Keywords: Event Recognition, Action Recognition
新規性・差分
概要
(学習のアノテーションなしに)Key-Actorを見つけることでより複雑
な行動認識やイベント認識を効果的に行う.Basketball Databaseを
公開し,複雑なイベント認識を行う際にいかに自動で重要人物を捉
えるかを提案する.学習では人物のアノテーションがないので,人
物の検出と追跡を行い,イベント認識と同時に重要人物の学習を行
い,テスト時にはKey-Actorとそのラベルを返却する.重要人物やイ
ベントの学習とテストにはBidirectional LSTMを用いた.
・アノテーションがない状態から人物の検出や追跡を行い,
イベント認識のラベルから重要人物の学習を行うことがで
きる.
・Bidirectional LSTM (BLSTM)をイベント認識のタスクに
用いることができた
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Raman
athan_Detecting_Events_and_CVPR_2016_paper.pdf
プロジェクト http://basketballattention.appspot.com/
データセット
http://basketballattention.appspot.com/bball_dataset_april_4.cs
v
148. , “Regularizing Long Short Term Memory With 3D Human Skeleton Sequences for Action Recognition”,
in CVPR, 2016.
【145】
Keywords: LSTM, RNN, 3D Pose
新規性・差分
概要
カメラのビューポイントやモーションの分散が大きい大規
模データベースからの行動認識を扱う.モデルにはLSTM
が用いられており,2層構成でエンコードとデコードを行
う.クラスの損失やクラス内分散に関する拘束を与えて学
習を実行する.
・現在の行動モデルはCNNをより深くかつデータを大規模
にしているが,次元人体姿勢を推定して学習することでそ
れらの問題を解決した.特徴空間も低次元である.
・低次元ながら大規模データベースに対しても一定の精度
を達成した.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2
016/papers/Mahasseni_Regularizing_Long
_Short_CVPR_2016_paper.pdf
149. Zuxuan Wu, Yanwei Fu, Yu-Gang Jiang, Leonid Sigal, “Harnessing Object and Scene Semantics for
Large-Scale Video Understanding”, in CVPR, 2016.
【146】
Keywords:
新規性・差分
概要
イベント認識を行う際に物体やシーンの認識を行う.
20,954クラスの物体情報や205のシーン情報を追加して時
系列画像からの認識を行う.また,Zero-shot Learningの
枠組みも使用している.
・イベントの認識に対して物体やシーンの認識による表現
を取り入れた
・行動認識やイベント認識の大規模データベースに対して
も効果的に働くことが判明した
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Wu_Ha
rnessing_Object_and_CVPR_2016_paper.pdf
プロジェクト
https://www.disneyresearch.com/publication/harnessing-
object-and-scene-semantics/
150. Oscar Koller, Hermann Ney, Richard Bowden, “Deep Hand: How to Train a CNN on 1 Million Hand
Images When Your Data is Continuous and Weakly Supervised”, in CVPR, 2016.
【147】
Keywords:
新規性・差分
概要
弱教師あり学習のための大規模な手のデータセットを公開
した.アプリケーションとしては手話認識のためである.
ImageNetにて学習済みのモデルを用いて,GoogLeNetを
学習する.
・とにかくデータを大量に用意して,データを対応づける
という手法をとる
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Koller_
Deep_Hand_How_CVPR_2016_paper.pdf
YouTube https://www.youtube.com/watch?v=TPXzc3GKF9c
151. Edward Johns, Stefan Leutenegger, Andrew J. Davidson, “Pairwise Decomposition of Image Sequences
for Active Multi-View Recognition”, in CVPR, 2016.
【148】
Keywords:
新規性・差分
概要
ロボットの認識のためにカメラビュー推定とアクティブな
物体認識を実現するという研究.ModelNetと呼ばれる,
3D ShapeNetを参考にした手法を考える.提案手法ではペ
アとなる画像の回転を推定するネットワークを構築してカ
メラビューを推定する.
・回転を計算するネットワークを構築することで
全ての領域にて
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Johns_
Pairwise_Decomposition_of_CVPR_2016_paper.pdf
152. Yixin Zhu, Chenfanfu Jiang, Yibiao Zhao, “Inferring Force and Learning Human Utilities From Videos”, in
CVPR, 2016.
【149】
Keywords:
新規性・差分
概要
ビデオの入力と3次元の環境から体内の力のかかり具合を
推定するという問題設定である.人物の姿勢や屋内環境に
おける家具や床の状況から重心のみならず,体重の分散や
体における力のかかり具合を推定する.
・体内の力のかかり具合を推定するという新しい
問題設定にチャレンジした
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Zhu_Inf
erring_Forces_and_CVPR_2016_paper.pdf