cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com
Alexander G. Anderson, Cory P. Berg, Daniel P. Mossing, Bruno A. Olshusen, “DeepMoive: Using
Optical Flow and Deep Neural Networks to Stylize Movies”, in arXiv pre-print 1605.08153, 2016.
【1】
Keywords: Art Style,
新規性・差分
概要
自然画像と任意のArt Styleの合成は様々な研究が行われて
おり,例えばGatysらの画像合成などが提案されている(下
記リンク; コードあり).本論文では動画に対して画像合成
を行う手法を提案する.オプティカルフロー画像を生成し
てより安定した動画のStylizeを実現した.
・オプティカルフローを用いることで画風転移の最適化の
ための初期化にする.動画に対する画像合成には動作特徴
を用いることが重要であると位置付けた.
Links
論文 http://arxiv.org/pdf/1605.08153v1.pdf
プロジェクト http://alexanderganderson.github.io/
ビデオ
https://www.youtube.com/watch?v=nOrXeFBkP04&feature=yo
utu.be
A neural algorithm of artistic style
http://gitxiv.com/posts/jG46ukGod8R7Rdtud/a-neural-
algorithm-of-artistic-style
Gustav Larsson, Michael Maire, Gregory Shakharovich, “FractalNet: Ultra-Deep Neural Networks without
Residuals”, in arXiv pre-print 1605.07648, 2016.
【2】
Keywords: FractalNet, Ultra-Deep, CNN
新規性・差分
概要
残差最適化を用いるResidual Network (ResNet)を用いるこ
となく畳み込みネットワークの構造を深くした.フラクタ
ルのように再帰的な畳み込みの構造を積み上げることで非
常に効果的に精度を向上させることが可能.Drop-pathに
より畳み込みのパスの組み合わせを増やすことで表現能力
を向上.
・ResNetを用いることなく,極めて構造を深くかつ畳み
込みによる勾配を損なわずに精度を向上させることができ
ることを示した.
・フラクタル構造による畳み込みの性質を明らかにして,
それまでのCNNとの違いを検証した.
・CIFAR-100にてstate-of-the-artな22.85%のエラー率を記
録した.
Links
論文 http://arxiv.org/pdf/1605.07648v1.pdf
プロジェクト
Fractal architecture: (左) フラクタル構造を模した単純な畳み込みの拡張.緑は
特徴マップの統合を示す.(右)フラクタルによる再帰的な拡張.幅Cを広げるた
びに畳み込み数が2^C-1個に増加する.(C=4の場合には15の畳み込み) プーリン
グと畳み込みを積み上げることで特徴を強固にする.
Yan Huang, Wei Wang, Liang Wang, “Bidirectional Recurrent Convolutional Networks for Multi-Frame
Super-Resolution”, in NIPS, 2015.
【3】
Keywords: Bidirectional Recurrent Convolutional Networks, Multi-Frame Super-Resolution
新規性・差分
手法
結果概要
映像の高解像度化を効率的に行うbidirectional recurrent
convolutional network(BRCN)の提案
cheapな畳み込み演算により,低い計算コストかつ高速に
処理が可能である.
BRCNのフレームワークを右図に示す.
右図に示すように,本フレームワークはforward recurrent
convolutional sub-networkとbackward recurrent
convolutional sub-networkから構成され,これにより時間
的な依存関係をモデル化する.
各ネットワークは,入力層,第1中間層,第2中間層,出力
層で構成されており,Feedforward Convolution, Recurrent
Convolution, Conditional Convolutionを行い,次に層に接
続する.
(1)処理にかかった時間の
比較結果
(2)高解像処理の比較結果
処理時間,処理結果いづ
れにおいても優れた結果
がでていることがわかる
Links
論文
http://papers.nips.cc/paper/5778-
bidirectional-recurrent-convolutional-
networks-for-multi-frame-super-
(1)
(2)
Zhicheng Yan, Hao Zhang, Robinson Piramuthu, Vignesh Jagadeesh, Dennis DeCoste, Wei Di, Yizhou
Yu, “HD-CNN: Hierarchical Deep Convolutional Neural Networks for Large Scale Visual Recognition”, in
ICCV, 2015.
【4】
Keywords: Hierarchical Deep Convolutional Neural Networks, Visual Recognition,
新規性・差分
手法
結果
概要
2レベルのカテゴリ階層にCNNを組み込んだ階層型CNN,
Hierarchical Deep Convolutional Neural
Networks(HDCNN)の提案
HDCNNは粗いカテゴリ分類器と詳細なカテゴリ分類器を
持つことで,詳細なカテゴリ分類に特化させている
以下にHCCNNのアーキテクチャを示す.
本アーキテクチャは, Shared layers, Coarse component
independent layers, Fine component independent layers Fk or
Fi, Probabilistic averaging layerの5つの層を持つ.
入力された画像は共有層に送られ,その後Coarse component
とFine componentの学習を行う層に送られる.
Probabilistic averaging layerで各層からの予測結果を出力する
(1)CIFAR100 datasetでのエラー率
(2)CIFAR100 と ImageNet datasetsで
のエラー率,メモリ使用率,処理時間
の比較
(3)ImageNet validation setでのエラー
率の比較
Links
論文
http://www.cv-
foundation.org/openaccess/content_iccv_2015/papers/Yan_HD-
(1)
(2)
(3)
Ke Zhang, Wei-Lun Chao, Fei Sha, Kristen Grauman, “Video Summarization with Long Short-term
Memory”, in arXiv pre-print 1605.08110, 2016.
【5】
Keywords: Video Summarization
新規性・差分
概要
Recurrent Neural Netowork (RNN)のなかでも,Long-Short
Term Memory (LSTM)を用いてビデオサマライズ (Video
Summarization)を実行する.中でも特に,Domain Adaptation
が改善に有効であることが判明した.ここでは人物の意図をダ
イレクトに要約に反映できることから,教師ありのビデオ要約
に取り組み,高度な意味理解に務める.
・ビデオ要約に対してLSTMを適用し,ビデオに対して順
方向/逆方向の解析を行った.
・SumMeやTVSumといったビデオ要約のデータに対して
高い精度を実現.教師なし(Unsupervised Learning)よりも
高度にビデオを理解して要約した.
Links
論文 http://arxiv.org/pdf/1605.08110v1.pdf
著者 http://www-scf.usc.edu/~weilunc/index.html
提案のvsLong-Short Term Memory (LSTM).LSTMは2階層に積
み上げられており,片方がビデオの進行に対して順方向,もう
一方が逆方向の流れを把握する.
Michael Gygli, Helmut Grabner, Hayko Riemenshneider, Luc Van Gool, “Creating Summaries from User
Videos”, in ECCV, 2014.
【6】
Keywords: Video Summarization, SumMe Dataset
新規性・差分
データセットSumMe
概要
画像要約(Video Summarization)における体系化されたデー
タセット”SumMe”を提案した論文.データセットはプロジ
ェクトページよりダウンロード可能.手法としては画像全
体のアピアランスから動画を荒くセグメント化
(Superframe Segmentation)し,注目度 (顕著性,顔/人物/,
物体等)から詳細にビデオ要約する.
・Superframe Segmentと注目度による手法を提案した.
有効な順に,Attention, Colorful, Landmark, Edges, Person
Areaということが判明した.F値をper-frame (0.234),
per-segment (0.170)ごとに算出した.
データセットは25の動画から構成され,ビデオの平均時間は2分40秒である.
ビデオの流れは5~15%になるように人により要約され,人物間による整合性
(Human Consistency)も考慮してビデオ要約を実行した.
Links
論文
https://people.ee.ethz.ch/~gyglim/vsum/GygliECCV14_vsum.p
df
プロジェクト https://people.ee.ethz.ch/~gyglim/vsum/
Waqas Sultani, Mubarak Shah, “Automatic Action Annotation in Weakly Labeled Videos”, in arXiv pre-
print 1605.08125, 2016.
【7】
Keywords: Action Annotation, Weakly Labeled Video
新規性・差分
概要
ビデオに対する自動ラベル付けの論文.行動の候補領域を
抽出し,3次元のMarkov Random Fields (3D-MRF)により
候補をランク付けして領域数を限定する.モーション特徴
はImproved Dense Trajectories (IDT)により取得.
・行動における自動ラベル付けを提案
・表は各データ(UCF sports, THUMOS’13, JHMDB)に対す
るラベル付けの結果である
Links
論文 http://arxiv.org/pdf/1605.08125v1.pdf
プロジェクト
F. Perazzi, J. Pont-Tuset, B. McWilliams, L. Van Gool, M. Gross, A. Sorkine-Hornung, “A Benchmark
Dataset and Evaluation Methodology for Video Object Segmentation”, in CVPR, 2016.
【8】
Keywords: Segmentation
新規性・差分
概要
前景と背景を高精度に分離するセグメンテーション問題
のための密なラベル付けデータセットであるDAVIS
(Densely Annotated VIdeo Segmentation)を提供する.
・問題は従来のセグメンテーションにのっとっているが,
とにかく密に(Dense)することで現在までの手法がどの程
度できているかを再度認識した.
・従来手法としては教師なし学習による手法 (NLC, FST,
SAL, TRC, MSG, CVOS),半教師あり学習による手法
(SEA, JMP, TSP, HVS)をDAVISデータセットに対して実
装し,表のような精度を得た.
Links
論文
https://graphics.ethz.ch/~perazzif/davis/file
s/davis.pdf
プロジェクト
https://graphics.ethz.ch/~perazzif/davis/ind
ex.html
Ira Kemelmacher-Shlizerman, Steve Seitz, Daniel Miller, Evan Brossard, “The MegaFace Benchmark: 1
Million Faces for Recognition at Scale”, in CVPR, 2016.
【9】
Keywords: MegaFace, Dataset, Benchmark
新規性・差分
ベンチマーク概要
1,000,000の顔画像が含まれる顔認識ベンチマークである
MegaFaceを提供.実に690,572人の顔画像が含まれ,顔
検出や顔認証の精度を競う.
・顔認証の分野において比類なき人数のビッグデータを提
供した
・GoogleのFaceNet [CVPR15]の拡張版である,FaceNet-
v8が約75%の精度で同データに対して処理した
(NTechLABのFaceNLargeでも約73%を実現).右にCMC
曲線も示されている.
ベンチマークはFlickerを用いて収集され,その下図は写真数が1,027,060枚
(100万超),サブジェクト(Unique Faceと呼ばれる)が690,572人であった.
下図は顔やその検出枠である.
Links
論文
https://arxiv.org/pdf/1512.00596v1.pdf
プロジェクト
http://megaface.cs.washington.edu/
NTechLAB http://ntechlab.com/
FaceNet論文
https://arxiv.org/abs/1503.03832
OpenFace
https://cmusatyalab.github.io/openface/
Yuncheng Li, Yale Song, Liangliang Cao, Joel Tetreault, “TGIF: A New Dataset and Benchmark on
Animated GIF Description”, in CVPR, 2016.
【10】
Keywords: Animated GIF, Image Description
新規性・差分
概要
GIFアニメに対する画像説明文の研究.Tumblrからの100K
を超えるGIFアニメと,120Kに及ぶキャプションの収集を
クラウドソーシングにより行い,データセットについても
提案する.
・GIFアニメに対する画像説明文を提案する.さらにはデ
ータの収集についても解決する
・GIFアニメを多数含んだデータセットを提供し,さらに
は同データセットを現在の画像説明文のデータと比較した
・作成したデータセットに対して,既存のビデオ説明文の
手法を実装して比較した.
・コードをGitHubにて一般公開した
・下の表は提案のTGIFデータセットを用い,動画説明文
にDomain Adaptationした際の結果である.データ数が確
保できている分,精度が向上したものと思われる.
Links
論文 http://arxiv.org/pdf/1604.02748v2.pdf
プロジェクト http://raingo.github.io/TGIF-Release/
コード https://github.com/raingo/TGIF-Release
Jiale Cao, Yanwei Pang, Xuelong Li, “Pedestrian Detection Inspired by Appearance Constancy and
Shape Symmetry”, in CVPR, 2016.
【11】
Keywords: Pedestrian Detection
新規性・差分
概要
アピアランスの恒常性や形状の対称性を用いることでハン
ドクラフト特徴でも歩行者検出の精度がまだ向上すること
を示した.2種のNon-Neighboring Features (NNF)である
Side-Inner Difference Features (SIDF)やSymmetrical
Similarity Features (SSF)を提案する.
・ハンドクラフト特徴で非常に高いパフォーマンスを実現
した.
・SIDFは前景と背景を効果的に分離することができるだ
けでなく,人物の外輪郭や内側に存在する輪郭を分離する
ことができる.さらにSSFは人物の対称性を考慮した記述
によりSIDFにない表現を実装可能である.
Links
論文 https://arxiv.org/pdf/1511.08058v1.pdf
プロジェクト
SIDFのパッチペア例.SIDFやSSFの識別器には異なる深さのDecision
Treesを組み合わせた.これにより,SIDFやSSFの有効な空間を探索す
ることができ,歩行者と背景を高度に分離可能である.
提案のNNNF-L4はCaltech
Pedestrian Detection Benchmarkに
おいて16.84%のエラー率であった.
CheckerBoard特徴(CVPR2015)から
1.63%向上した.
Spyros Gidaris, Nikos Komodakis, “Object detection via a multi-region & semantic segmentation-aware
CNN model”, in ICCV, 2015.
【12】
Keywords: Object Detection, multi-region, semantic segmentation, CNN 新規性・差分
概要
・セマンティックセグメンテーションを利用した物体認識
システムであるmulti-region deep convolutional neural
networkの提案.
・PASCAL VOC2007 では78.2%, PASCAL VOC2012 で
は73.9%となった.
・物体の検出候補のボックスのスコアリングと,CNNの回
帰モデルによるボックス位置の精緻化を行う.
Links
論文 http://www.cv-
foundation.org/openaccess/content_iccv_2015/papers/Gidaris_Object_Det
ection_via_ICCV_2015_paper.pdf
入力画像をActivation Maps Module に送り畳み込む.同時に検
出候補域を切り抜いたイメージを作成.切り抜いたイメージ
と入力画層の活性化イメージをCropping Layerに送信する.各
部位ごとにRegion Adaptation Moduleでプーリング処理を行い,
Concatenate Layerで結合する.
Songfan Yang, Deva Ramanan, “Multi-scale recognition with DAG-CNNs”, in ICCV, 2015.
【13】
Keywords: Multi-scale Recognition, directed acyclic graph CNN
新規性・差分
概要
画像分類に向けたマルチスケールのCNNの提案
MIT67 では23.9%, Scene15 datasetsでは9.5%エラー率
を軽減させた.
・現在のアプローチは,単一の出力層から特徴を抽出して
いる.→本提案手法はマルチスケール
・複数の層から特徴を抽出することで,高,中,低レベル
の特徴について同時に推定することが可能
・粗な分類と詳細な分類のタスク間で効率的に情報を共有
Links 論文 http://www.cv-
foundation.org/openaccess/content_iccv_2015/papers/Yang_Multi-
Scale_Recognition_With_ICCV_2015_paper.pdf
スライドhttp://www.slideshare.net/hirokiyamamoto969/multi-scale-
recognition-with-dagcnns
マルチスケールDAG-CNNのアーキテクチャは,オリジナルのCNNにマル
チスケールの出力コネクトを追加することで構築される.
具体的には,各スケール毎に,空間的平均プーリングを行い,ユニットノ
ルムで正規化する.その後fully-connected (FC) layerの計算を行い,K個の
出力のクラスに向けた予測スコアを加算する.
Nikolaus Correll, Kostas E. Bekris, Dmitry Berenson, Oliver Brock, Albert Causo, Kris Hauser, Kei Okada,
Alberto Rodriguez, Joseph M. Romano, Peter R. Wurman, “Lessons from the Amazon Picking
Challenge”, in arXiv pre-print 1601.05484, 2016.
【14】
Keywords: Amazon Picking Challenge
新規性・差分
概要
Amzon Picking Challengeはロボットによる倉庫の自動化を図る大規
模プロジェクト&コンペティションである.2015年のICRAワークシ
ョップとして26チームが参加し,Perception, Motion Planning,
Grasping, Robotic Systemなどの総合力を競った.ルールは,(簡単
には)完全自動のロボットが20分の間に12の目的アイテムを棚から取
り出す.目的アイテムは右の図に示す.アイテムによっては加点・
減点の度合いが異なり,その総合点で順位を競う.
・日本から参加したトップはC^2M (中部大学藤吉・山下
研・中京大学橋本研・三菱電機)が最高の5位であった
・優勝はRBOであり,スコアは148.Single Arm,グリッ
プは吸引式,アームに取り付けた3次元画像,レーザスキ
ャン,物体検出や3次元バウンディングボックスの知覚特
徴はカラー・エッジ・高さなどにより行い把持のために用
いた、モーションプラニングは行っていなかった
Links
論文 http://arxiv.org/pdf/1601.05484v2.pdf
プロジェクト http://amazonpickingchallenge.org/
Gigazine http://gigazine.net/news/20150602-amazon-picking-
challenge-winner/
藤吉研APC
http://mprg.jp/research/amazon_picking_challenge_j
Sergey Levine, Peter Pastor, Alex Krizhevsky, Deidre Quillen, “Learning Hand-Eye Coordination for
Robotic Grasping with Deep Learning and Large-Scale Data Collection”, in arXiv pre-print 1603.02199,
2016.
【15】
Keywords: Hand-Eye Camera, Robot Grasping
新規性・差分
概要
ロボットの把持を自動で学習するための方法を提案した.
Google Research Blogで一時期話題になったロボットハン
ドの研究である(ビデオあり).14台のロボットがパラメー
タを共有し,CNNのモデルを学習し,把持の成功/失敗と
その際の環境を学習する.ロボットの稼働時間が合計
3,000時間,800,000回の試行を経て深層学習を学習.
・ロボットの把持に対して自動で学習を行うことでロボッ
トが賢くなる.
・データがなくても,トライ&エラーの繰り返しによりロ
ボットが自ら学習する.
・パラメータを共有して学習,とにかく試行を繰り返して
ロボットの知覚を強化する
Links
論文 http://arxiv.org/pdf/1603.02199v3.pdf
ビデオ https://www.youtube.com/watch?v=iaF43Ze1oeI
Google Research Blog
http://googleresearch.blogspot.jp/2016/03/deep-learning-for-
robots-learning-from.html
Min Bai, Wenjie Luo, Kaustav Kundu, Raquel Urtasun, “Deep Semantic Matching for Optical Flow”, in
arXiv pre-print 1604.01827, 2016.
【16】
Keywords: Deep Optical Flow, Semantic Matchiing
新規性・差分
概要
FlowNet (http://arxiv.org/abs/1504.06852)の改良版である
という立ち位置である.FlowNetでは静的なカメラからの
密なオプティカルフロー推定であったが,自動運転のよう
な動的な環境においてもオプティカルフローが行えるよに
なっただけでなく,さらにインスタンスレベルでのデンス
オプティカルフローを抽出可能とした.
・インスタンス(物体)ごとに別のフローであることを認識
することができる.さらに,動的な環境においてもデンス
オプティカルフローを抽出する.
・フローのマッチングを自動で行うことができるCNNを提
案した.
・自動運転を目的としたKITTI2015データセットに対して
実験を行い,良好な性能を示した.
Links
論文 http://arxiv.org/pdf/1604.01827v1.pdf
プロジェクト
提案のアーキテクチャ.Siamese CNNを参考に構造化されたネットワークは,
フレーム間の変位を学習する.異なるサイズの畳み込みマップがブロックマ
ッチングのように働く?
Phillip Isola, Daniel Zoran, Dilip Krishnan, Edward H. Adelson, “Learning Visual Groups from Co-
occurrences in Space and Time”, in ICLR, 2016.
【17】
Keywords: Unsupervised Patch Learning, Siamese Network
新規性・差分
概要
2枚の画像を入力し,畳み込みにより類似度計算や次元削
減などを行うSiamese Networkを用いて,パッチの類似度
を教師なし学習.画像内の小さなパッチであっても物体検
出的に類似領域を計算可能である.
さらに,パッチAとBを学習することにより,類似するパ
ッチCを予測するというものであるP(C=1|A, B).
・パッチの評価だけでなく,似たようなパッチを予測する
働きを持たせることにある.
・Object Discovery [Rubinstein+, CVPR13]
(http://people.csail.mit.edu/mrub/ObjectDiscovery/)のよう
な側面も持つと考えられる.
Links
論文 http://arxiv.org/pdf/1511.06811.pdf
著者 http://web.mit.edu/phillipi/
Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralbe, Raquel Urtasun, Sanja Fidler,
“MovieQA: Understanding Stories in Movies through Question-Answering”, in CVPR, 2016.
【18】
Keywords: Movie Question Answering
新規性・差分
概要
動画像に対する質問回答文 (Movie Question Answering;
MovieQA)のデータを提供する.右図はデータや質問回答
の例を示す.データセットには400動画に対して15,000の
回答文が対応付けられる.質問にはWho, What, Whom,
Whyなどで始まる文が含まれ,それに回答するために画像
や時系列情報を解析するタスクを与える.
・質問回答のみでなく,動画に対する回答文の問題を提供
し,そのデータセットも公開した.
・表は各QAデータセットの比較である.ひとつの動画に
対して複数の回答文が含まれていることが非常に大きな進
捗である.動画説明文からさらに先に踏み込めている.
Links
論文
http://www.cs.toronto.edu/~urt
asun/publications/Tapaswi_et
al_cvpr16.pdf
プロジェクト
http://movieqa.cs.toronto.edu/
home/
動画像に対応するストーリーとその質問
文を入れて,Softmax層ではその回答文を
Ground Truthとしてネットワークを構成
する.
Xiaozhi Chen, Kaustav Kundu, Ziyu Zhang, Huimin Ma, Sanja Fidler, Raquel Urtasun, “Monocular 3D
Object Detection for Autonomous Driving”, in CVPR, 2016.
【19】
Keywords: Autonomous Driving, 3D Object Detection
新規性・差分
概要
自動運転の文脈で単眼カメラからの3次元物体検出を実行
する.物体検出の枠組みは通常の物体検出の流れを参考に
していて,候補領域の抽出から物体の識別を行う.本論文
が着目した範囲はエネルギーの最小化により3次元空間内
の候補領域を生成することである.さらに,物体検出をす
るのみならず,3次元情報を用いることで,インスタンス
レベルのセグメンテーションを獲得できる.
・自動運転の文脈で用いることができるよう,動的なカメ
ラからでも3次元の物体候補領域が抽出できる.3次元情報
はGround-Planeの事前情報により得ている.
Links
論文
http://www.cs.toronto.edu/~urtasun/
publications/chen_etal_cvpr16.pdf
Raquel Urtasun
http://www.cs.toronto.edu/~urtasun/
3次元物体候補領域の手がかりとなるのはクラス情報(SegNetを使用),インスタ
ンス情報,外輪郭,物体形状,コンテキスト,それからGround-Planeを事前情
報とした一情報である.これらの最適化問題によりパラメータを決定する.最
終的な結果はNMSを通り抜けたのちに得られる.識別はFast R-CNNを用いる.
各手法(SS,EdgeBox)と比較した際
のAverage Precision
KITTI Object Detection Benchmark
のAverage Precisionの比較
Wenjie Luo, Alexander G. Schwing, Raquel Urtasun, “Efficient Deep Learning for Stereo Matching”, in
CVPR, 2016.
【20】
Keywords: Siamese Network, Stereo Matching
新規性・差分
概要
Siamese Networkを用いた計算において,非常に高速なパ
ッチ間の類似度計算を実装し,ステレオマッチングの処理
速度を1秒以内にした.さらに,複数の可能な限りの視差
を複数クラス分類の枠組みで扱えるようにした.
・2015年くらいからCNN/Siamese Netを用いたステレオ
マッチングの研究は [Zbontar+, JMLR2016]や[Zagoruyko+,
CVPR2015]が挙げられるが,非常に正確かつ1.0second以
内での処理を目指した(ただし,GPUは使う).
・従来のSiamese Networkと異なるのは,統合レイヤ
(Concatenation layer)と以下に続くレイヤ(Subsequent
layer)を単一の積を計算するレイヤ(Single Product layer)に
置き換えたことである.
Links
論文
http://www.cs.toronto.edu/~urtasun/publications/luo_etal_cvpr1
6.pdf
プロジェクト http://www.cs.toronto.edu/deepLowLevelVision/
コード https://bitbucket.org/saakuraa/cvpr16_stereo_public
図は左右の視差画像を示し,
畳み込みが行われたあと,積
を計算して相関を計算する.
表はKITTI2012ベンチマーク
のステレオタスクに対して行
った評価.距離推定の誤差や
速度を高速化した.
Limin Wang, Zhe Wang, Sheng Guo, Yu Qiao, “Better Exploiting OS-CNNs for Better Event Recognition
in Images”, in ICCVW, 2015.
【21】
Keywords: Two-Stream ConvNet, Event Recognition
新規性・差分
概要
Two-Stream ConvNetをイベント認識用のデータで学習し
直したObject-Scene Convolutional Neural Network (OS-
CNN)の提案.Two-StreamはそれぞれImageNetで学習済
みの物体情報やPlaces205で学習済みのシーン情報を用い
て,さらにタスクに合わせてFine-tuningを行う.全結合層
の出力をそのまま用いるだけでなく,CNN特徴をFisher
Vectorにてエンコードして用い,識別器を構成することで
精度を向上させた.
・オリジナルのTwo-StreamではSoftmax層の出力をSVM
により学習していたが,ここでは値を蓄積して用いること
でラベルを推定する.
・CNNを特徴抽出器として扱い,局所的かつ大域的な特徴
の評価を行う.
・ICCVWorkshopとして開催されたChaLearn LAPにて3位
を獲得した.
Links
論文 http://www.cv-
foundation.org//openaccess/content_iccv_2015_workshops/w1
1/papers/Wang_Better_Exploiting_OS-
CNNs_ICCV_2015_paper.pdf
Edgar Simo-Serra, Hiroshi Ishikawa, “Fashion Style in 128 Floats: Joint Ranking and Classification using
Weak Data for Feature Extraction”, in CVPR, 2016.
【22】
Keywords:
新規性・差分
概要
多様なファッション画像を効果的に分類できる特徴量抽出
手法を提案する.提案手法では,ランキングロスとクロス
エントロピーロスを合わせて畳込みニューラルネットワー
クを学習させることで,ノイズが多く含まれるようなデー
タセットに対しても良好に特徴抽出が行えることを示した.
(下記プロジェクトページより参照)
・インターネットから得られる画像はラベルが十分につい
ているわけではないので,弱教師あり学習の枠組みであつ
かえるようにする.
・コンパクトかつ識別性に優れたCNN特徴量を,比較的少
ないデータから調整する.
・ユークリッド空間にて距離計算できるようにする.さら
に下図のように可視化することでファッションの解析を効
果的に行う.
Links
論文
http://hi.cs.waseda.ac.jp/~esimo/publications/SimoSerraCVPR
2016.pdf
プロジェクト
http://hi.cs.waseda.ac.jp/~esimo/ja/research/stylenet/
David F. Fouhey, Abhinav Gupta, Andrew Zisserman, “3D Shape Attributes”, in CVPR, 2016.
【23】
Keywords: 3D object recognitiion, Shape Attributes
新規性・差分
概要
3次元物体のアトリビュートを単一の画像から推定する.
見えの情報からいかに3次元の形状を説明する属性を推定
するかが非常に困難な課題である.本論文では,3次元形
状のアトリビュートをCurvature Properties, Contact
Properties, Volumetric Propertiesの3分類,12種類に分け
て分類する.データはFlickrにより収集され,アノテーシ
ョンした後にラベル付けのミスを修正した.
・複雑な3次元形状(例:上図)のアトリビュートを推定する
CNNアーキテクチャを構築した.
・大規模データベースを提供する.DBには143,000枚の画
像と属性情報が含まれている.
・アトリビュートの推定が72.3%と非常に高精度.
Links
論文
http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/f
ouhey16.pdf
プロジェクト
http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/
提案のMulti-task Network.最
終層が分岐しており,12種の
アトリビュート推定器と形状
を説明する特徴に分類されて
いる.
Zhile Ren, Erik B. Sudderth, “Three-Dimensional Object Detection and Layout Prediction using Clouds of
Oriented Gradients”, in CVPR, 2016. (oral)
【24】
Keywords: Clouds of Oriented Gradients (COG), 3D Object Recognition
新規性・差分
概要
3次元物体認識のための特徴量Cloud of Oriented Gradients
(COG)を提案する.COGはHOGのように,点群データか
ら効果的に勾配を抽出するための特徴である.論文中では
Manhattan Voxelも提案し,3次元の部屋のレイアウト推定
にも貢献する.6x6x6voxelsのグリッド単位で点群の密度
や画像を参照した際の勾配を計算.
・シンプルなアイディア(HOGのように点群の密度や勾配
を扱うCOGを提案)を三次元物体認識に対して適用し,高
水準の成果をあげた.
・Manhattan Voxelも提案し,3次元のレイアウト推定に適
用した.空間を72分割(72dimsとして表現)する.
Links
論文
https://cs.brown.edu/people/sudderth/papers/cvpr16cog.pdf
著者 http://cs.brown.edu/people/ren/
プロジェクト
Timo Hackel, Jan D. Wegner, Konrad Schindler, “Contour detection in unstructured 3D point clouds”, in
CVPR, 2016. (oral)
【25】
Keywords: Point Cloud Contour Detection
新規性・差分
概要
屋外環境における3次元点群から外輪郭を抽出するための
手法を提案する.2次元画像でなく,3次元点群情報から外
輪郭を復元するのは探索する空間が膨大で非常に難しい問
題であるが,(1) 各点群の「外輪郭」尤度を計算 (2) 候補
同士をつないでいく (3) MRFの推定により接続/除去を行い,
点群における外輪郭推定.
・3次元点群からの「外輪郭尤度」の計算である.幾何的
に隣接する点群との関係性を評価してスコアを算出する.
この尤度に従って,次の行程で詳細に外輪郭を評価.
・点群同士をつないでエッジに,さらにMRFによる推定で
外輪郭を推定する.
・Precision-Recall curveを下図に示した.パラメータ調整
やCanny 3Dとの比較が含まれる.
Links
論文 https://www.ethz.ch/content/dam/ethz/special-
interest/baug/igp/photogrammetry-remote-sensing-
dam/documents/pdf/timo-jan-cvpr2016.pdf
著者
http://www.prs.igp.ethz.ch/content/specialinterest/baug/institute
-igp/photogrammetry-and-remote-
sensing/en/group/people/person-detail.html?persid=186562
Limin Wang, Yu Qiao, Xiaoou Tang, “Action Recognition with Trajectory-Pooled Deep-Convolutional
Descriptors”, in CVPR, 2015.
【26】
Keywords: TDD; Trajectory-Pooled Deep-Convolutional Descriptors, IDT, Two-stream ConvNet
新規性・差分
手法
結果
概要
単純にはImproved Dense Trajectories (IDT)とTwo-Stream
Convolutional Networks (Two-Stream ConvNet)の統合によ
り,ハンドクラフト特徴や深層学習の特徴jマップを統合す
る.IDTの密な動線上を用い,Two-Streamの畳み込みマッ
プにアクセスして特徴抽出,Fisher Vectorsによるエンコ
ーディングを実行.
・ハンドクラフトな手法とディープ特徴のいい面を効果的
に統合した.行動認識においては,動的な部位と学習によ
り得られた特徴を融合してFisher Vectorsにより円コーデ
ィンするとさらなる精度の向上につながった.
・UCF101にて91.5%,HMDB51にて65.9%とそれまでの
state-of-the-artを大きく塗り替えた.
IDTの動線抽出方法とTwo-streamの特徴マップを適用する.IDTはそのまま
の仕組みを用いて,CNNの特徴マップにアクセスする際には拡大・縮小を考
慮.Two-streamのSpatialNetはImageNetで学習済みのモデルを初期パラメー
タとして,UCF101により学習,その後HMDB51にて転移学習.動画像を通
してエンコーディングを実行するため,ひとつの動画に対してひとつのベク
トルを算出.
Fisher VectorsによるエンコーディングのPCA
圧縮は64次元,特徴マップのChannel正規化や
Spatio-temporal正規化は両者ともに統合した
方が精度が向上することが判明した.畳み込
みマップについて,Conv-3, 4, 5はReLU Layer
を,Conv-1, 2についてはMax-Pool Layerを参
照する.結果,UCF101にて91.5%,HMDB51
にて65.9%を達成.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Wang_
Action_Recognition_With_2015_CVPR_paper.pdf
プロジェクト https://wanglimin.github.io/tdd/index.html
参考 (VGG_CNN_M_2048)
https://gist.github.com/ksimonyan/78047f3591446d1d7b91#file
-readme-md)
Tsung-Yu Lin, Aruni RoyChowdhury, Subhransu Maji, “Bilinear CNN Models for Fine-grained Visual
Recognition”, in ICCV, 2015.
【27】
Keywords: Bilinear CNN, Fine-grained Visual Recognition
新規性・差分
概要
Fine-grainedな認識に向けた,2つの特徴抽出器で構成され
る双線形CNNアーキテクチャの提案
・局所特徴のペアの対応をモデル化することでfine-
grainedな分類に特に有用
・勾配の計算を簡素化し,画像のラベルのみでend-to-end
な学習が可能
Links
論文 http://arxiv.org/pdf/1504.07889v3.pdf
code https://bitbucket.org/tsungyu/bcnn.git
プロジェクト http://vis-www.cs.umass.edu/bcnn/
テスト時,入力画像は2つのCNN層A, Bに入力される.
出力画像の各位置で外積を使用して乗算し,プーリングを行う.
分類の予測を得るために,分類層へ入力する.
Hao Su, Charles R. Qi, Yangyan Li, Leonidas J. Guibas, “Render for CNN: Viewpoint Estimation in
Images Using CNNs Trained with Rendered 3D Model Views”, in ICCV, 2015.
【28】
Keywords: CNN, View Point Estimation, Rendered 3D Model Views,
新規性・差分
概要
2D画像から視点推定を行うCNNフレームワークの提案
PASCAL 3D+ benchmarkにおいてアウトパフォームな結
果を示した.
レンダリングベースの合成画像とCNNを組み合わせること
で,トレーニングデータの不足と能力不足に対処
Links
論文 http://arxiv.org/pdf/1505.05641v1
プロジェクト
https://shapenet.cs.stanford.edu/projects/RenderForCNN/
code https://github.com/shapenet/RenderForCNN
大規模な3Dモデルのコレクションからレンダリングされた画像を
実際の画像上に合成することでトレーニング画像を生成.
CNNは,Ground Truthの視点画像を学習.
テストデータとして実際の画像を利用して,視点の推定を行う.
CNNのトレーニング合成画像生成のパイプライン
Khurram Soomro, Haroon Idrees, Mubarak Shah, “Action Localization in Videos through Context Walk”,
in ICCV, 2015.
【29】
Keywords: Action Localization, Context Walk
新規性・差分
概要
・動画内の行動のローカライズを効率的に行うために,前
後のコンテキストの関係を学習するアプローチの提案
・いくつかのデータセットでの検証の結果,提案手法は行
動のローカライズに非常に有用であると結論づけた.
・行動の境界を維持し,問題の複雑さを軽減するために動
画をsupervoxelに分割する.
・コンテキストの関係はトレーニング中に学習
・テスト動画を入力すると,supervoxelをランダムに選択
し,前回の行動に属するsupervoxelの確率を推定,行動提
案を行う.
・SVMを用いて行動提案から行動を決定する.
Links
論文
http://www.cs.ucf.edu/~haroon/Soomro_ICC
V2015.pdf
動画
https://www.youtube.com/watch?v=Mbs5oR
Wpwus
Ye Luo, Loong-Fah Cheong, An Tran, “Actionness-assisted Recognition of Actions”, in ICCV, 2015.
【30】
Keywords: Actionness, Action Proposal, Action Recognition
新規性・差分
概要
動画像から行動候補領域(Action Proposal, Actionness)を抽
出する論文.行動の候補領域を(1) 急な変化 (Sudden
Changes),(2) 同期した動き (Synchronized Motions), (3)
繰り返し動作 (Repetitive Motions),(4) 顕著な領域
(Salient Region)の情報から推定する.
・行動に対する候補領域を複数情報から推定する枠組みを
提案した.急な変化・同期・繰り返し動作・顕著領域から
情報を抽出.
Links
論文 http://www.cv-
foundation.org/openaccess/content_iccv_2015/papers/Luo_Act
ionness-Assisted_Recognition_of_ICCV_2015_paper.pdf
ビデオ https://www.youtube.com/watch?v=rKPBWE4kMNE
コード https://github.com/antran89/BoW_frameworks
Hang Su, Subhransu Maji, Evangelos Kalogerakis, Erik Learned-Miller, “Multi-view Convolutional Neural
Networks for 3D Shape Recognition”, in ICCV, 2015.
【31】
Keywords: Multi-view CNN, 3D Shape Recognition
新規性・差分
概要
・2次元の画像から,3次元の物体認識を行うCNNアーキ
テクチャの提案.
・単一の視点からの物体認識において,最先端の3次元形
状記述子よりも遥かに高い精度を実現.また複数視点から
の認識での場合,さらに高精度.
・3次元の物体を複数視点から撮影・レンダリングしCNN
に学習(右図上にパイプラインを示す)
・コンパクトな記述子かつ高精度
Links
論文 http://arxiv.org/pdf/1505.00880v3
プロジェクトhttp://vis-www.cs.umass.edu/mvcnn/
動画 http://vis-
www.cs.umass.edu/mvcnn/docs/1694_video.mp4
Code https://github.com/suhangpro/mvcnn
Zezhou Cheng, Qingxiong Yang, Bin Sheng, “Deep Colorization”, in ICCV, 2015.
【32】
Keywords: Colorization
新規性・差分
概要
グレースケール画像をカラー付きの画像に変換する問題を
扱う.参照する画像からグレースケール/カラーの対応を
学習し,グレースケール画像の入力からカラー付き画像を
復元する.深層畳み込みネットによりカラー画像を復元.
・ディープラーニングベースのグレースケール画像に対す
る色付けを著者らの調査において初めて行い,実験により
有効性を示した.
・Low-levelからHigh-levelまでの画像特徴により,情報量
を多く含みかつ識別性に優れた表現を実行.グレースケー
ルの色付けに特化した深層学習のモデルを構築した.
Links
論文 http://www.cv-
foundation.org/openaccess/content_iccv_2015/papers/Cheng_
Deep_Colorization_ICCV_2015_paper.pdf
プロジェクト
Richard Zhang, Philip Isola, Alexei A. Efros, “Colorful Image Colorization”, in arXiv pre-print 1603.08511,
2016.
【33】
Keywords: Colorization
新規性・差分
概要
深層学習を用いたグレースケール画像の色付けに関する論
文である.ここでは従来より綺麗な色付けを目的としてお
り,畳み込みやDeep Supervisionを含む構造により色付け
を行う.評価は”Colorization Turing Test”により行い,実
に20%もの人をだますことができたと主張.
・学習画像を100万枚以上とデータ量を増やすことで可視
化性に優れたカラー画像を生成可能とした.
・多様性に富んでいる色の表現ができるようになった
Links
論文 http://arxiv.org/pdf/1603.08511.pdf
プロジェクト http://richzhang.github.io/colorization/
コード https://github.com/richzhang/colorization
複数回畳み込みとReLUを繰り返し,それぞれバッチ正規
化を行う.このカラーリングの構造に対してプーリング層
は含まれてない.DeepSupervisionを6,7,8層に採用してお
り,学習による損失をすでに中間層にて学習する.損失関
数はCross-Entropy Lossにより計算する.最初の5層は
VGGNetにより初期値を定め,プーリング層を除去したも
のである.
Satoshi Iizuka, Edgar Simo-Serra, Hiroshi Ishikawa, “Let there be Color!: Joint End-to-end Learning of
Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification”, in
SIGGRAPH, 2016.
【34】
Keywords: Colorization, CNN
概要
本研究では,ディープネットワークを用いて白黒画像をカラー画像に自動
変換する手法を提案する.提案手法では,画像の大域特徴と局所特徴を考
慮した新たな 畳込みネットワークモデルを用いることで,画像全体の構造
を考慮した自然な色付けを行うことができる.提案モデルにおいて,大域
特徴は画像全体から抽出さ れ,局所特徴はより小さな画像領域から計算さ
れる.これらの特徴は“結合レイヤ”によって一つに統合され,色付けネット
ワークに入力される.このモデル構 造は入力画像のサイズが固定されず,
どんなサイズの画像でも入力として用いることができる.また,モデルの
学習のために既存の大規模な画像分類のデータ セットを利用し,それぞれ
の画像の色とラベルを同時に学習に用いることで,効果的に大域特徴を学
習できるようにしている.提案手法により,100年前の白 黒写真など,様々
な画像において自然な色付けを実現できる.色付けの結果はユーザテスト
によって評価し,約90%の色付け結果が自然であるという回答が得られた.
(プロジェクトページより)
Links
論文 http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/data/colorization_sig2016.pdf
プロジェクト http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/ja/
プロジェクト2 http://hi.cs.waseda.ac.jp/~esimo/ja/research/colorization/
コード https://github.com/satoshiiizuka/siggraph2016_colorization
Xiao Chu, Wanli Ouyang, Wei Yang, Xiaogang Wang, “Multi-task Recurrent Neural Network for
Immediacy Prediction”, in ICCV, 2015.
【35】
Keywords: Multi-task Recurrent Neural Network, Immediacy Predction
新規性・差分
概要
・静止画から人物のインタラクションの予測に向けた
Multi-task Recurrent Neural Networkの提案.
・人物のインタラクションおよび骨格情報の注釈が付けら
れた大規模なデータセットの提案
Multi-task Recurrent Neural Networkは,提案したデータセ
ットのインタラクション・骨格情報から,予測したデータ
間の関係を学習する
Links
論文 http://www.cv-
foundation.org/openaccess/content_iccv_2015/papers/Chu_M
ulti-Task_Recurrent_Neural_ICCV_2015_paper.pdf
プロジェクト
http://www.ee.cuhk.edu.hk/~xgwang/projectpage_immediacy.h
tml
Mark Yatskar, Luke Zettlemoyer, Ali Farhadi, “Situation Recognition: Visual Semantic Role Labeling for
Image Understanding”, in CVPR, 2016.
【36】
Keywords: Role Recognition, Image Understanding, Situation Recognition, FrameNet, Dataset
新規性・差分
概要
画像内の詳細な理解を行う.画像に写っているメインの
物体(人,動物など)やその目的,道具,場所などの関係
性や役割なども推定可能とする.500の行動,1700の役
割(Role),11,000の物体,125,000枚の画像を含む大規
模データを構成した.この大規模なデータはFrameNet
と呼ぶこととする.
・画像の総合的な理解のために大規模なデータセットであ
るFrameNetを提案した.
・各行動・役割・物体・道具などの要素を含んでいる非常
に困難な課題を提供した.
・VGG-CRFの枠組みで識別を実行したが,思うように精
度が出ていない.この問題はこれから取り扱われるべき課
題である.
Links
論文
http://homes.cs.washington.edu/~my89/publications/situations.
pdf
プロジェクト https://homes.cs.washington.edu/~ali/index.html
Xiaolong Wang, Ali Farhadi, Abhinav Gupta, “Actions ~ Transformation”, in CVPR, 2016.
【37】
Keywords: Action Recognition, Precondition
新規性・差分
概要
人物行動が生起する前の事前状態をプレコンディション
(Precondition)と定義して,「起こりそう」な行動を前の状
態から察知,また生起した際の認識精度を高めるというア
イディア.Siamese Networkを用いてこのアイディアを実
装した.今回はUCF101やHMDB51などマルチメディアの
データセットに対して実験を行った.
・行動認識の新しい表現方法を提案
・UCF101にてstate-of-the-artな精度を達成した.UCF101
に対して92.4%,HMDBに対して63.4%という数字を実現
した.
・Cross-Categoryのタスクを提案し,ACT datasetを提案
した.同データには43の行動ラベル,16グループ,11234
の動画が含まれる.
Links
論文
http://www.cs.cmu.edu/~xiaolonw/papers/precondition_effect_
CVPR16.pdf
プロジェクト
Iro Laina, Christian Rupprecht, Visileios Belagiannis, Federico Tombari, Nassir Navab, “Deeper Depth
Prediction with Fully Convolutional Residual Networks”, in arXiv pre-print 1606.00373, 2016.
【38】
Keywords: Deep Residual Network (ResNet), CRF, Depth Prediction
新規性・差分
概要
単眼のRGB画像を入力して距離画像を復元する問題.正解値が距
離画像であり,Deep Residual Networks (ResNet)を用いることで
高精度な推定をするが,提案手法ではさらに少ないパラメータで
深い構造を持つように設計された.パラメータ数を抑えたことで
学習画像の枚数を抑えることにも成功.損失関数にはHuber lossを
用いるのが良いことがわかった.Un-poolingやUp-projectionも採用
して,畳み込みマップから距離画像への対応を図った.
・Up-projectionを導入して畳み込みマップから解像度をあげて距
離画像へと対応する.パラメータは1.0/3.5に減少し,少ない学習
サンプルでも距離画像が復元できるようになった.
・高精度に距離画像を推定できるようになったことで単眼RGB画
像からのSLAMを実行した.
Links
論文 https://arxiv.org/pdf/1606.00373v1.pdf
プロジェクト
Limin Wang, Sheng Guo, Weilin Huang, Yu Qiao, “Places205-VGGNet Models for Scene Recognition”,
in arXiv pre-print 1508.01667, 2015.
【39】
Keywords: Scene Understanding, Places205, Places365
新規性・差分
概要
シーン認識のチャレンジであるPlaces205 datasetを用いた
コンペティションの手法について提案.VGGNetをベース
としたアーキテクチャは11, 13, 16, 19層を提案した.
Places205のみならず,MIT67やSUN397といったシーン
認識のデータベースに対しても処理を行った.
・Places205にて学習済みのVGGNetモデルを提供した.
GitHubにコードをアップロードした.
・全チーム中2位の精度を達成した.(表参照)
・MIT67やSUN397においてもCNN off-the-shelfの要領で
転移学習による認識が可能になった.
Links
論文 http://wanglimin.github.io/papers/WangGHQ15.pdf
プロジェクト https://github.com/wanglimin/Places205-
VGGNet
Scene205 dataset
http://places.csail.mit.edu/downloadData.html
Xiaojiang Peng, Limin Wang, Zhuowei Cai, Yu Qiao, Qiang Peng, “Hybrid Super Vector with Improved
Dense Trajectories for Action Recognition”, in ICCV Workshop on THUMOS, 2013.
【40】
Keywords: Action Recognition, THUMOS
新規性・差分
概要
中国のShenzhen Institutes of Advanced Technology
(SIAT)の行動認識コンペティションの提案手法の紹介.
ベースアルゴリズムにはImproved Dense Trajectories
(IDT)を使用するが,ふたつのSuper VectorであるFisher
Vectors (FV)やVector of Locally Aggregated Descriptors
(VLAD)を組み合わせたHybrid Super Vector (HSV)を用い
ることで高精度な認識を達成した.
・THUMOSのデータであるUCF101に対して87.46%を記
録し,全体の4位になった.
・実験の結果,特徴量の前処理(コードワードや正規化)や
ベクトルの正規化が非常に重要であることが判明した.
・IDTのベクトルの次元数を落とした方がよかった (20, 48,
54, 48, 48 for traj, hog, hof, mbhx, mbhy) その後,
whiteningをする.
・VLFeatを用いて,GMMベース(クラスタリング数 512)
のFV,K-meansベース(クラスタリング数512)のVLADを
実装した.
・FVやVLADを連結ベクトルとしてSVMにて学習.One -
vs - allのSVM識別器を採用し,Cの値は100に設定.
Links
論文
http://wanglimin.github.io/contests/PengWCQ_Thumos13.pdf
プロジェクト http://crcv.ucf.edu/ICCV13-Action-Workshop/
Limin Wang, Zhe Wang, Yuanjun Xiong, Yu Qiao, “CUHK&SIAT Submission for THUMOS15 Action
Recognition Challenge”, in CVPR Workshop on THUMOS, 2015.
【41】
Keywords: THUMOS 2015, Action Recognition
新規性・差分
概要
Chinese University of Hong Kong (CUHK) & Shenzhen
Institutes of Advanced Technology (SIAT)の行動認識コ
ンペティションTHUMOS2015の提案手法.ベースアル
ゴリズムにはTwo-Stream ConvNet [Simonyan+,
ICLR15]を用いているが,さらにネットワーク構造を深
くして特徴抽出を高度にする.さらにImproved
Trajectoriesを用いて畳み込み特徴マップにアクセス,
Fisher Vectorによるエンコーディングを行う.
・THUMOS15のデータセットにて68%を記録し,全体
の5位となった(右表).
・Two-StreamにてClarifai Net (AlexNetベース)や
GoogLeNet, VGGNetを実装して比較したところ,空間
的にも時間的にもVGGNetが有効であることが判明した.
Two-streamの空間・時間統合,さらにIDT+FVとも統合
することで68.1%にまで向上する.
Links
論文
http://storage.googleapis.com/www.thumos.info/thumos15_not
ebooks/TH15_CUHK&SIAT.pdf
プロジェクト http://www.thumos.info/
スライド
http://wanglimin.github.io/contests/WangWXQ_Thumos15_slid
e.pdf
Bhrooz Mahasseni, Sinisa Todorovic, “Regularizing Long Short Term Memory with 3D Human-Skeleton
Sequences for Action Recognition”, in CVPR, 2016.
【42】
Keywords: Skeleton, Action Recognition
新規性・差分
概要
大規模データにおいて,映像からスケルトンを推定し,さらには行動のラ
ベルを学習して行動認識を実行する.CNNの特徴量を取り出し,
Recurrent Neural Networks (RNN)のうちLong Short Term Memory
(LSTM)を学習する.
右図の右は教師なし学習による3次元スケルトン,v_t, s_tはそれぞれ時間t
におけるビデオやスケルトンを示す.r_vやr_sはLSTMやencoder LSTMの
出力を表す.y_tやy_tのハットは正解値と推定値を示し,この両者により
損失を計算する.hはそれぞれLSTMの隠れ層を示す.
・LSTMの学習について新しい枠組みを提案した.通常はdropoutやweight
decayにより最適化を行うが,ここではLSTMやeLSTMの誤差をユークリ
ッド距離で計測しパラメータを調整する.誤差伝播の仕組みは
Backpropagation through Time (BPTT)により操作した.
・提案手法はUCF101に対して85.7%,HMDB51に対して55.3%を達成し,
通常のLSTMのみではそれぞれ75.2%(UCF101),43.1%(HMDB)だったの
で提案法の効果を示した.
Links
論文
http://web.engr.oregonstate.edu/~sinisa/research/publications/
cvpr16_multimodal.pdf
プロジェクト
Rasmus Rothe, Radu Timofte, Luc Van Gool, “Some like it hot - visual guidance for preference
prediction”, in CVPR, 2016.
【43】
Keywords: Autonomous Rating
新規性・差分
概要
Collaborative Filteringを用いた評価付けに関する論文.論
文中ではデートサイトから抽出した評価付けデータを元に
している.写真や評価付けを行ったアクセス履歴をもとに
して結果を推定するパラメータを学習する.
・デートサイトから取得したプロフィールやアクセス履歴,
評価などによるデータベースを作成した.
・視覚的な情報を含めたCollaborative Filteringによる解析
手法を提案.
・最終的には画像のみからの効果的な回帰モデルを提案.
評価値を画像のみから推定できるようになった.
Links
論文 http://arxiv.org/pdf/1510.07867v2.pdf
プロジェクト http://howhot.io/
著者 http://www.vision.ee.ethz.ch/~timofter/
Shengfeng He, Rynson W.H. Lau, Qingxiong Yang, “Exemplar-Driven Top-Down Saliency Detection via
Deep Association”, in CVPR, 2016.
【44】
Keywords: Top-down saliency
新規性・差分
概要
Knowledgeベースの顕著性マップ生成方法を探る.具体的
には,カテゴライズされたラベルを探索して顕著性マップ
を生成.このトップダウンのカテゴリ数は最大で4に設定
する.モデルは2段階のCNNモデルを構築し,参照物体
(exemplar)とクエリ(query)となる物体内の関連付けを行い,
顕著性マップを生成.最初のステージでは物体間の関連付
け,次のステージでは背景との分離を試みた.
・対象となる物体をあらかじめ決めておく知識ベースの顕
著性マップの提案と,2段階のCNNモデルを提案.
・Multi-exemplar ベースのCNNモデルを用いて初めて顕著
性推定を実施した.
Links
論文
http://www.shengfenghe.com/uploads/
1/5/1/3/15132160/exemplar_saliency.p
df
プロジェクト(コードあり)
http://www.shengfenghe.com/exemplar
saliency.html
Fang Wang, Le Kang, Yi Li, “Sketch-based 3D Shape Retrieval using Convolutional Neural Networks”, in
CVPR, 2015.
【45】
Keywords: 3D Object Retrieval, Sketck Retrieval
新規性・差分
概要
2次元スケッチをクエリ(入力)として,3次元モデルから対
象物体を検索する.検索するサーバ側には3次元モデルを
保持しておき,”best view”な2次元投影画像でマッチング
する.マッチングのモデルにはSiamese Convolutional
Networkを用い,片方にはスケッチを,もう一方には3次元
モデルを2次元に投影したモデルを用いる.
・スケッチを入力とした特徴表現方法としてSiamese
Networkを学習する.さらには,3次元モデルからの2次元
投影を実行してベストビューを選択する問題を解いた.
・2つのSiamese Networkを適用し,Cross-Domainでの類
似度を計測した.
・2つのデータセットにおいてstate-of-the-artな精度を達成
した.
Links
論文 http://users.cecs.anu.edu.au/~yili/publication/cvpr-2015-sbsr.pdf
プロジェクト http://users.cecs.anu.edu.au/~yili/cnnsbsr/
コード http://users.cecs.anu.edu.au/~yili/cnnsbsr/software/sbsr-cvpr15.zip
GitXiv http://gitxiv.com/posts/L63GfSyXG4yneS5mt/sketch-based-3d-
shape-retrieval-using-convolutional-neural
Nicholas Rhinehart, Kris M. Kitani, “Learning Action Maps of Large Environments via First-Person
Vision ”, in CVPR, 2016.
【46】
Keywords: Human Centric Functional Description, Action Map
新規性・差分
概要
3次元のマップと人物の行動の履歴から行動するマップ
(Action Map)を空間中に生成する.一人称視点からの入力
からStructure-from-Motionにより3次元のマップを生成し
て人物の行動する領域に対して履歴を投影する.
・従来では三人称視点からの解析がメインであった
Function認識を,一人称視点から実現した.
・Action MapというConceptiualな問題を提起した.
Links
論文 http://www.cs.cmu.edu/~kkitani/pdf/RK-CVPR16.pdf
プロジェクト
http://www.cs.cmu.edu/~nrhineha/slides/action_maps_2016_3
0min.pdf
Huan Fu, Chaofui Wang, Dacheng Tao, Michael J. Black, “Occlusion Boundary Detection via Deep
Exploration of Context”, in CVPR, 2016.
【47】
Keywords: Occlusion Boundary Detection
新規性・差分
概要
オクルージョンしている境界領域を識別するために(i) 位置
のパターン (local contextual correlations in pixel labeling)
や(ii) 周囲環境の観測 (contextual correlations between the
labeling of pixels),(iii) 時系列的なコンテキスト (temporal
contextual information in video sequences)を解析する.手
法としてはConvolutional Neural Networks (CNN)や
Conditional Random Fields (CRF)を用いる.
・CMUのベンチマークにおいて従来のstate-of-the-artな結
果を超越した.数値的には0.62から0.71に向上した.
・
Links
論文 http://files.is.tue.mpg.de/black/papers/FuCVPR2016.pdf
プロジェクト https://ps.is.tuebingen.mpg.de/publications/fu-
cvpr-2016
Wei Shen, Kai Zhao, Yuan Jiang, Yan Wang, Zhijiang Zhang, Xiang Bai, “Object Skeleton Extraction in
Natural Images by Fusing Scale-associated Deep Side Outputs”, in CVPR, 2016.
【48】
Keywords: DeepSkeleton
新規性・差分
概要
一般的な物体のスケルトン推定を実行するアルゴリズムを
提案.人物に限らずあらゆる物体や動物の姿勢を推定する
(上図)ために,Oxford VGG-16をベースとする(下図)が,
畳み込みの行程によって推定する部位を分け,最後に結果
を統合する.各層により得意・不得意を分別して学習する.
雰囲気的には与えられた前景の細線化を行うものである.
・煩雑な自然シーンにおいても物体のスケルトンを効果的
に推定することができる.
・色やテクスチャ,形状やサイズなどの多様性を許容して
物体のスケルトンを推定.
Links
論文 http://arxiv.org/pdf/1603.09446v2.pdf
コード https://github.com/zeakey/DeepSkeleton
Keywords:
新規性・差分
手法
結果
概要
物体のスケッチ画像を詳細物体分類に用
いた手法(fine-graind sketch-based
image retieval)
1.物体とフリーハンドの画像を対応し
たデータセットを作成
2. 抽象的な画像を用いた画像識別を行っ
た
データセット例を以下に示す.また識別
を行うアーキテクチャを以下に示す.デ
ータオーギュメンテーションはStroke
Removalを用いて一枚の画像から9枚に
拡張する
物体分類の従来手法
と比較し識別性能が
向上した.
Qian Yu+, “Sketch Me That Shoe”, in CVPR, 2016.
【49】
Links
https://qmro.qmul.ac.uk/xmlui/bitstream/handle/123456789/11936/Hosped
ales%20Sketch%20Me%20That%20Shoe%202016%20Published.pdf?seq
uence=1
Keywords:
新規性・差分
手法
結果
概要
CNNアーキテクチャとRNNを組み合わ
せマルチクラス分類をend-to-endで行う
フレームワークを提案した論文
end-to-endでマルチクラス分類を行う
コンパクトかつ強力な多クラス分類モデ
ルの設計
implicit attention mechanismは画像中の
小さな物体認識に有効であることも示さ
れた.
フレームワークの概略図を以下に示す.フレームワークは、ラベル
の依存関係だけでなく、画像ラベルの関係を特徴づけるために、
joint embedding spaceを学習する.赤と青のドットはそれぞれ、ラ
ベルと画像であり、黒丸は画像およびRNN出力の合計です。RNNは、
順次、joint embedding spaceにラベル埋め込みをリンクすることに
より、関節埋め込み空間でのラベルの共起の依存関係をモデル化.
各時間ステップで、ラベルの確率は、画像の埋め込みおよびRNN出
力に基づいて計算される.以下にRNNのネットワーク構成図を示す.
NUS-WIDEとMSCOCOで実験従来の手
法より良い結果となった
Jiang Wang+, “CNN-RNN: A Unified Framework for Multi-label Image Classification”, in CVPR, 2016.
【50】
Links
PDF
David Ferstl, Christian Reinbacher. , Gernot Riegler, Matthias Rüther, Horst Bischof, “Learning Depth
Calibration of Time-of-Flight Cameras”, in BMVC, 2015.
【51】
Keywords: Time of Flight (ToF), depth sensor, RGB-D camera, Random Regression Forest (RRF)
新規性・差分
手法概要
・ToF型カメラは奥行きマップの品質はシーン内のシーンジ
オメトリと表面特性に依存している.また,RGB-Dカメラ
は以下の2つの誤差源が有る.それは固有のキャリブレーシ
ョンのエラーと空間的に変化する測定された深さに依存する
ことにより起こるエラーである.本論文では新規キャリブレ
ーションフレームワークを使用 してRGB-Dカメラシステム
の両方の誤差を減らす取り組みを 行う.そしてToF RGB-D
カメラの完全自動較正のための方法を提案する.
・私たちの手法では,深度カメラの強度画像を非線形レンズ
歪みの標準ピンホールモデルを用いて深度カメラをパラメー
タ化 する通常のカメラの強度画像として扱う.機械学習を
用いて誤差分布をモデル化することにより,直接深バイアス
キャリブレーションの問題を解決する.また,私たちの手法
では,すべての誤差源を排除オフセット深さに深さと強度特
徴からマッピングを推測するためにRRFを使用する.
・提案手法は2つの部分に分かれている.1つの部分では幾何学的なRGB-
Dシステムの内部・外部パラメータを推定する.パラメータの特徴は自動
的に単一のカメラとステレオキャリブレーションの両方で使用されるサ
ブピクセル精度で較正ターゲット上で検出する. もう1つの部分では測
定された深さの誤差の補正を行う. 誤差の補正は、幾何学的なカメラキ
ャリブレーション中に取得されたグラウンドトゥルース深度データから
学ぶ.
・RGB-D校正フレームワークの概要を図を下に示す.
結果
・学習データに存在するエラーの分布を評価結果を左下図に示す.また,RFにより選択された特徴を分析した結果を右下に
示す.
・深度較正実験の結果を以下に示す.表と図より提案手法が他の手法よりも高精度となっていることを示している.
Links
論文: http://www.bmva.org/bmvc/2015/papers/paper102/paper102.pdf
補足資料: http://www.bmva.org/bmvc/2015/papers/paper102/index.html
著者: https://rvlab.icg.tugraz.at/personal_page/personal_page_ferstl.html
Lingxi Xie, Liang Zheng, Jingdong Wang, Alan Yuille, Qi Tian, “InterActive: Inter-Layer Activeness
Propagation”, in CVPR, 2016.
【52】
Keywords: Activation Function of CNN, InterActive
新規性・差分
概要
CNNの上位層では空間的なコンテキストに着目した特徴が
抽出できないため,Low-levelな特徴量やHigh-levelな特徴
量を組み合わせることで特徴抽出の仕組みを強化.これを
バックプロパゲーションの仕組みでhigh-levelな活性化関
数の値をlow-levelな活性化関数により高い重みで学習させ
る.
・より上位の層から下位の層に情報を伝えて特徴量を学習
することで,活性化関数を用いた転移学習の精度を向上さ
せることに成功した.
・様々なチューニングの結果,提案手法が各データにて高
い精度を達成した(下表).
Links
論文 http://research.microsoft.com/en-
us/um/people/jingdw/pubs%5CCVPR16-
ActivenessBackPropagation.pdf
プロジェクト
Chuang Gan, “You Lead, We Exceed: Labor-Free Video Concept Learning by Jointly Exploiting Web
Videos and Images”, in CVPR, 2016.
【53】
Keywords:
新規性・差分
概要
概念学習のためのウェブ動画を用いたデータセット構築方
法.[Lead Net]
インターネット上の動画には概念学習に用いれないノイズ
が存在し(図:右下)従来では人の手によってタグ付けされて
いた.本論文ではCNNアーキテクチャの自動学習と
RNN(LSTM)を用いて動画像からノイズとなるフレームを
除去し高品質な学習データを自動学習する仕組みを提案し
ている.基本概念は動画像を用いて学習しチューニングし
たアーキテクチャを用いてWeb画像を学習する.さらに
Web画像によってチューニングしなおされたアーキテクチ
ャで学習データのトリミング(ノイズ除去)を行う.その後
トリミングされた動作像からLSTMの学習を行う.
実験は学習方法を変更した手法で比較している(UCF101).
本手法の自動学習が有用であることが示された.
またイベント認識でも有用な結果が得られた(MEDtest13).
Links 論文
http://research.microsoft.com/pubs/266581/CVPR16_webly_fin
al.pdf
プロジェクト
Xiao Chu, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, “Structured Feature Learning for Pose
Estimation”, in CVPR, 2016.
【54】
Keywords: Pose Estimation
新規性・差分
概要
異なる関節をまたいで,また空間や特徴マップ間の共起的
な関係を同時に学習する.異なる画像であっても,特徴量
を学習することで効果的な姿勢推定を提案する.主に特徴
量とその相対的な関係がEnd-to-Endで学習され,双方向の
木構造モデルを提案とする.
・End-to-Endの学習フレームワークを提案し,特徴レベ
ルで関節間の構造を捉えることができる.
・特徴マップをまたいで関節位置を学習可能である.直
感的には異なる人であっても姿勢の特徴は似ている.
・双方向の木構造モデル(Bi-directional tree-structured
model)を提案する.
Links
論文 http://arxiv.org/pdf/1603.09065v1.pdf
プロジェクト
http://www.ee.cuhk.edu.hk/~xgwang/projectpage_structured_f
eature_pose.html
Robert T. Collins, Weina Ge, “CSDD Features: Center-Surround Distribution Distance for Feature
Extraction and Matching”, in ECCV, 2008.
【55】
Keywords: Keypoint, Feature Descriptor
新規性・差分
概要
SIFTのようなキーポイント記述や特徴記述子である
Center-Surround Distribution Distance (CSDD)を提案する.
CSDDではキーポイントを中心とした前景とその周辺の背
景となるピクセルの比較により記述が行われる.CSDDは
顕著な領域からキーポイント検出を行うものである.下の
図は直感的なCSDDの取得方法の説明であり,黄色領域と
青色領域の特徴分布の距離を比較することで顕著な領域を
抽出する.
・通常のキーポイント検出のようにコーナーから抽出する
のではなく,周りと比較して顕著なものを取り出すという
考え方のキーポイント検出器である.
・
Links
論文
http://www.cse.psu.edu/~rtc12/Papers/eccv08CollinsGe.pdf
ポスター
http://vision.cse.psu.edu/research/CSDD/csdd_poster.pdf
プロジェクト
http://vision.cse.psu.edu/research/CSDD/index.shtml
CSDDによるキーポイント検出.中央の画像はスコアの可視化,右の画像は上
位30の優位な特徴点を表示したものである.
Kota Yamaguchi, M. Hadi Kiapour, Luis E. Ortiz, Tamara L. Berg, “Parsing Clothing in Fashion
Photographs”, in CVPR, 2012.
【56】
Keywords: Cloth Parsing
新規性・差分
概要
ファッションスナップからの洋服の総合的な理解を行う論
文である.人物ベースのセグメンテーションや姿勢推定を
行い,各ファッションアイテムごとに分離するなど困難な
課題をいくつも含んでいる.53もの衣服のクラスに分類す
る問題を扱う.
・53の衣服タイプのクラス,158,235枚のファッションス
ナップを含むデータセットを公開した.
・SuperpixelによるセグメンテーションやHOGとMAP推定
による姿勢推定,CRFによるファッションラベルを付加し
た..
・領域ベースのファッションクラスラベルについて,Pixel
Accuracyやmean Average Garment Recall (mAGR)を表に
示した.それぞれ89.0%, 69.8%と良好な性能を示した.そ
の他,姿勢推定の精度も評価を行った.
Links
論文 http://www.referitgame.com/home/publications/parsingclothing.pdf
プロジェクト
http://vision.is.tohoku.ac.jp/~kyamagu/ja/research/clothing_parsing/
Jose M. Saavedra and Juan Manuel Barrios, “Sketch based Image Retrieval using Learned KeyShapes
(LKS)”, in BMVC, 2015.
【57】
Keywords: image retrieval, Sketck Retrieval
新規性・差分
概要
スケッチベースの類似画像検索手法の提案.物体のスケッチでは,
物体ごとにキーとなるストローク(KeyShape)が組み合わさっている,
という前提のもとに,下図のような辞書をk-menasによるクラスタ
リングによって作成する(Learnd Key Shape: LKS).
物体ごとの辞書内におけるKeyShapeの組み合わせと,入力画像
のKeyShapeの照合によって類似画像を検索する.
物体ごとのキーとなるエッジではなく,スケッチのキーとなる
ストロークを学習し(LKS)生成した辞書による類似画像検索手
法の提案.
LKSを用いることで,従来手法より精度が向上した,
Links
Paper :
http://www.bmva.org/bmvc/2015/papers/paper164/paper164.pdf
Author :
http://users.dcc.uchile.cl/~jsaavedr/publications.htm:
LKS descriptorの流れ.まずSketch datasetからkeyshapeの辞書
を生成する.つぎに辞書を用いて,検索画像から抽出した輪郭,
スケッチ画像からkeyshapeを検出する.最後に(1)投票(2)空間分
割(3)正規化によりLKS Histogramを生成し,LKS descriptorとす
る.
LSKによるスケッチ
ベースの類似画像検
索結果
Vivek Veeriah, Naifan Zhuang, Guo-Jun Qi, “Differential Recurrent Neural Networks for Action
Recognition”, in ICCV, 2015.
【58】
Keywords: Action Recognition, Differential Recurrent Neural Network,
新規性・差分
概要
・顕著な行動パターンに対応する時系列のダイナミクスの
影響を考慮した行動認識手法Differential Recurrent Neural
Networks(DRNN)の提案.
・複雑な時系列表現の学習の可能性を提示
・LSTMの特性は様々な行動のダイナミクスを学習するに
非常に有効的であるが,時系列の行動のダイナミクスを考
慮した研究はされていない.
・連続したフレーム間の顕著な動きによって発生する情報
のゲインの変化を強調する方式をLSTMに採用
Links
論文 http://arxiv.org/pdf/1504.06678v1
プロジェクト
Tanaya Guha, Rabab Kreidieh Ward, “Learning Sparse Representations for Human Action Recognition”,
in IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012.
【59】
Keywords: Action recognition, dictionary learning, expression recognition, overcomplete, orthogonal matching pursuit, sparse, representation,
spatio-temporal descriptors
新規性・差分
概要
・本稿では,オーバーコンプリートな辞書を学習するフレ
ームワークの提案と,そのフレームワークを用いることで
行動認識のコンテキストを学習し,得られた粗な表現の有
効性の検証を行う.
・提案したフレームワークへ向けた新規の分類アルゴリズ
ムの提案
・提案したフレームワークは,顔の表情や身体的動作を含
むデータセット上で,State-of-the-artな結果が得られた.
・オーバーコンプリートな辞書の各記述子は,spatio-
temporal descriptorsのセットを用いて構成される.これに
より,動画の表現がより豊か,かつコンパクト
Links
論文
http://home.iitk.ac.in/~tanaya/Project1_files/GuhaWardPAMI20
12.pdf
プロジェクト
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Spatial Pyramid Pooling in Deep Convolutional
Networks for Visual Recognition”, in ECCV, 2014.
【60】
Keywords: Spatial Pyramid Pooling, deep convolutional neural network, visual recognition
新規性・差分
概要
・既存のDCNNは入力画像のサイズが固定されている.こ
の要求を排除するためのプーリング法「Spatial Pyramid
Pooling」を提案.
・ImageNet 2012における精度の向上,Pascal VOC 2007
と Caltech101データセットにおいてはファインチューニ
ングを行うことなくstate-of-the-art な分類結果を達成した.
・既存のCNNでは入力画像のサイズ/スケールが固定され
ており,認識精度を下げる恐れがあった.「Spatial
Pyramid Pooling」を使用することで,この固定サイズの
画像を入力する必要を排除
・一度全体画像を入力することで,特徴マップを生成し,
因子の領域の特徴プーリングを行うことで,繰り返し特徴
の畳み込み計算を行う必要を避ける.
Links
論文 https://arxiv.org/pdf/1406.4729v4
code https://github.com/ShaoqingRen/SPP_net
プロジェクト
Ming Yang, Kai Yu, “Real-Time Clothing Recognition in Surveillance Videos”, in ICIP, 2011.
【61】
Keywords: Clothing Recognition, Cloth Segmentation, SVM
新規性・差分
概要
監視カメラ中から人物の服装をリアルタイムに推定する研
究.服装認識のみならず,セグメンテーションについても
実行する.領域の抽出は背景差分など候補領域においてボ
ロノイ画像,RegionGrowにより人物位置の獲得,局所特
徴抽出ではHOGやDenseSIFT,2D DCTを用いる.抽出し
たベクトルはSVMにより識別される.
・新規に服装認識の問題を設定し,937人,25441の服装
インスタンスにおいて解析を行った.8種類のカテゴリに
ついてSVMにより分類を行った.
・識別の結果,平均Recall率が約80%になるなど良好な解
析である.
・監視カメラのように静的な環境であればこのような手法
で十分と感じる.
Links
論文
http://www.ece.northwestern.edu/~mya671/mypapers/ICIP11_
Yang_Yu.pdf
プロジェクト
Agnes Borras, Francesc Tous, Josep Llados, Maria Vanrell, “High-level Clothes Description Based on
Colour-Texture and Structural Features”, in Pattern Recognition and Image Analysis, 2003.
【62】
Keywords: Cloth Description
新規性・差分
概要
監視カメラにおける服装解析の先駆的研究であるが,上半
身のみの解析という非常に限られた問題設定を扱っている
と言える.色やテクスチャ,服装の構造に着目した特徴量
を用いた服装の解析.セグメンテーションはGraphCutを
用いている.
・色やテクスチャ,服装の構造に着目した特徴を新規に提
案した.色特徴は[1]に基づいているが,テクスチャは中央
図(5ステップにて異なるパーツを参照する),服装の構造
(clothing component)は下図の通りである.
・限られた環境ではあるものの,64%の精度で服装の識別
ができるようになったと主張.
Links
論文
http://cat.uab.es/Public/Publications/2003/BTL2003/p114.pdf
プロジェクト
http://www.cat.uab.cat/Public/Publications/2003/BTL2003/
Alireza Fathi, Ali Farhadi, James M. Rehg, “Understanding Egocentric Activities”, in ICCV, 2011.
【63】
Keywords: Egocentric Vision, Activity Recognition
新規性・差分
概要
一人称ビジョンからの日常行動の認識.ここでは食事の準
備を題材としており,7種類の異なる行動(e.g. cheese
sandwich, coffee)やそのデータセットを提供した.一人称
ビジョンにおける行動認識の先駆的研究と言える.手領域
や物体領域のセグメンテーションを行い,意味づけやイン
タラクションを解析した上でActivity (上記の7種)やさらに
詳細に分割されたActionを認識する.
・一人称ビジョンにおいて行動認識するという問題設定を
提供した.さらに,セグメンテーションやインタラクショ
ン,行動とサブ行動分割といった問題を解決している.
・グラフィカルモデルはy=activity, a=action, h=object /
hand, x=observeを示し,それらは階層的に計算される.
・Actionをヒストグラムとして扱っていて,集合体が
Activityと判断される.識別にはCRFを用いた.
・Per-frameにおける行動認識がSTIP14.4%, SIFT + BoW
29.1%だったのに対してAdaBoostによる手法では45.0%.
・物体認識の正答率も右の棒グラフに示される.特に手領
域の推定は96%と高精度.物体や行動を合わせた詳細行動
においては64クラスで32.4%(提案手法)を達成.
Links
論文 http://ai.stanford.edu/~alireza/publication/ICCV11.pdf
プロジェクト http://ai.stanford.edu/~alireza/GTEA/
Alireza Fathi, Yin Li, James M. Rehg, “Learning to Recognize Daily Actions using Gaze”, in ECCV, 2012.
【64】
Keywords: Gaze, GTEA Gaze+ Dataset, Egocentric Vision
新規性・差分
概要
一人称ビジョンにおいて,日常行動や物体を操作する際の
視線情報を推定する研究である.GTEAにおいて視線情報
を追加したデータセットGTEA Gaze+ Datasetを提供する
ことで,行動認識だけでなく視線も同時推定する研究の問
題が提供された.まずは既存のシステムで視線を推定,そ
の後は行動と視線の同時推定を行った.
・一人称における行動認識において視線は有効であるかを
検証した.
・行動と視線を同時に推定することに成功した.さらには
視線が行動において重要であることを実証.
・従来手法[Fathi+, ICCV2011]が27%だったのに対して,
提案手法の視線を用いる方法では47%の行動認識を達成し
た.視線を用いる有効性が示せた.
・「視線が与えられた際の行動認識」「行動が与えられた
際の視線推定」ともに精度が向上することが判明した.こ
こから,同時推定と推定された情報からもう一方を推定す
る方が効率が良いことがわかった.
Links
論文 http://ai.stanford.edu/~alireza/publication/ECCV12.pdf
プロジェクト
http://ai.stanford.edu/~alireza/GTEA_Gaze_Website/
Kris M. Kitani, Takahiro Okabe, Yoichi Sato, Akihiro Sugimoto, “Fast Unsupervised Ego-Action Learning
for First-Person Sports Videos”, in CVPR, 2011.
【65】
Keywords: First Person View, GoPro, Unsupervised Learning
新規性・差分
概要
一人称ビジョンからのスポーツ映像解析を行う.頭部に装
着したGoProカメラから行動を教師なしで学習し,映像の
セグメント化を実行する.具体的にはスパースオプティカ
ルフローにより抽出したモーションヒストグラムを
Stacked Dirichlet Process Mixture Modelsにより解析する
ことで自動で類似行動がクラスタリングされる.
・教師なし学習により行動を分割して高精度にセグメント
化することに成功した.
・一人称ビジョンにおいて頻繁に用いられるデータセット
UEC Dataset (PARK, Quad sequenceなど)を提案した論文
としても知られる.
Links
論文 http://www.cs.cmu.edu/~kkitani/pdf/KOSS-CVPR11.pdf
データセット http://www.cs.cmu.edu/~kkitani/datasets/
Yin Li, Zhefan Ye, James M. Rehg, “Delving into Egocentric Actions”, in CVPR, 2015.
【66】
Keywords: First-Person Vision (FPV), Dense Trajectories,
新規性・差分
概要
一人称ビジョンからの行動認識の改良に関する論文.Low-
levelとしてはDense Trajectories (DT)によるモーション特
徴,DTにLABチャネルから取り出したLBPも統合した物体
特徴を適用.Middle-levelな情報では,手の姿勢や動作,
頭部の動作,視線方向も参照する.また,一人称ビジョン
いおけるそれらの組み合わせについても詳細に評価を行っ
た.
・一人称ビジョンにおいて高度な特徴量であるDTを用い
ただけでなく,LABの各チャネルにおいてLBPを抽出する
特徴をDTのフレームワーク内にて実装した.
・中央の表のFPV datasetまとめも便利.
・下表の評価において,O(Object) + M(Motion) + E
(Egocentric cues) + H(Hand)の組み合わせがもっとも効果
的であることが判明した.HがあればG(gaze)はさほど重
要ではない?
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Li_Delv
ing_Into_Egocentric_2015_CVPR_paper.pdf
著者ページ http://yinli.cvpr.net/
Hamed Pirsiavash, Deva Ramanan, “Detecting Activities of Daily Living in First-person Camera Views”,
in CVPR, 2012.
【67】
Keywords: Activities of Daily Living (ADL), First Person Vision, Actiivty Detection
新規性・差分
概要
介護などで特に重要であると思われるActivities of Daily
Living (ADL)の認識に取り組む.物体検出をVisual Phrases
[Farhadi+, CVPR11]により実行し,行動認識ではTemporal
Pyramidsを参照し,visual wordsを物体モデルから抽出,
長期の行動解析にも耐えうる手法とした.
・長時間に渡って解析を実行したADL dataasetを提案.
・ADL認識のための物体検出や行動認識手法が右の表や
Confusion Matrixに示す通りである.行動認識の平均精度
は40.6%であった.
Links
論文 http://people.csail.mit.edu/hpirsiav/papers/adl_cvpr12.pdf
プロジェクト
http://vision.ics.uci.edu/papers/PirsiavashR_CVPR_2012_1/
ビデオ https://www.youtube.com/watch?v=tybmC0bS928
スライド
http://www.csc.kth.se/cvap/cvg/rg/materials/hossein_004_slide
s.pdf
Junhua Mao, Jonathan Huang,Alexander Toshev, Oana Camburu, Alan Yuille, Kevin Murphy,
“Generation and Comprehension of Unambiguous Object Descriptions”, in CVPR, 2016.
【68】
Keywords: text descriptions of images,dataset
新規性・差分
概要
・画像生成分の根本的な問題として,画像の説明の仕方
はいくらでもあるため,手法の評価が難しいという点が
ある.そこで一度に説明するbounding_box内の物を1つ
に限定することで,より明確な評価をする.右図のよう
に,画像と領域が入力されたら説明文が出力され,文と
画像が入力されたらその文に合う領域が出力される.
・Google Refexp (G-Ref) datasetを提案.右上の画像
のように,リッチなアノテーションが物体ごと(緑
のマーク)に付与されている.MS COCOに基づいた
ものなので物体のmaskやカテゴリーの情報にもアク
セスできる.
. datasetとtoolboxが公開されている.
https://github.com/ mjhucla/Google_Refexp_toolbox
Links
論文 https://arxiv.org/pdf/1511.02283v3.pdf
Flora Ponjou Tasse, Jiri Kosinka, Neil Dodgson, “Cluster-based point set saliency ”, ICCV, 2015.
【69】
Keywords: cluster-based, saliency
新規性・差分
概要
・本論文では,位相情報が欠ける点に対してクラスターベ
ース手法の顕著点検出を提案する.手法の流れはfuzzy
clusteringを使用して小さなクラスタに分解する.クラス
タの一意性と各クラスタの空間分布を評価し,クラスタの
特性関数にこれらの値を組み合わせる.各点の顕著性を割
りはめるために各クラスタに属する点の確率を使用する.
・ポリゴンスープや範囲スキャンデータを含む3次元形状表
現の広い範囲に使用できる.また,本手法は一貫して低い
顕著性を割りはめるために各クラスタに属する点の確率を
使用する.
Links
論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Tasse_Cluster-Based_Point_Set_ICCV_2015_paper.pdf
結果
任意の位相情報を使用せずに,false positive and false negativeのエラー率が上記のグラフのように合理的なバランスを達成している
ことが示されてた.
Nima Sedaghat, Thomas Brox, “Unsupervised Generation of a Viewpoint Annotated Car Dataset from
Videos”, ICCV, 2015.
【70】
Keywords: fully automated, viewpoint, bounding box, dataset
新規性・差分
概要
・物体認識手法は学習データやCADモデルにviewpointや
keypointを必要とする.そこで完全に自動で静的なシーン
の動画からviewpointやbounding boxのアノテーション画像
のデータセットを生成する手法を提案する.
・従来手法では手動ステップを含んでいるが提案手法はビ
デオからのviewpoint label付き学習データセットを生成す
るための完全自動化されている.また,パフォーマンスの
全体的な向上のために手動でラベルされたImageNet学習
データセットと提案手法のデータを結合することができる.
Links
論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Sedaghat_Unsupervised_Generation_of_ICCV_2015_paper.pdf
プロジェクト http://lmb.informatik.uni-freiburg.de/Publications/2015/SB15/
Amir Ghodrati, Ali Diba, Marco Pedersoli, Tinne Tuytelaars, Luc Van Gool, “DeepProposal: Hunting
Objects by Cascading Deep Convolutional Layers”, in ICCV, 2015.
【71】
Keywords: DeepProposal, Deep Convolutional Layer
新規性・差分
概要
・CNN特徴に基づいた物体位置を提案する手法の提案
・本手法はCNN最終層から最初の畳み込みそうへ遡り,最
も有効な物体位置を選択し,ボックスを洗練する逆カスケ
ード法を提案する.
1)検出に向け抽出された特徴と同じ特徴を使用
2)積分画像を用いて特徴を集約
3)粗密カスケードによって位置提案の粗密な評価を回避
以上により,効率的に物体位置を提案することができる
Links
論文 http://arxiv.org/pdf/1510.04445v1
プロジェクト
DeepProposalの提案フレームワーク
画像中の有効な物体位置提案を得るために,粗密カスケードに畳み込み層
の機能を使用する.
最終畳み込み層(5層)から密な提案サンプリングを行ない,初期層(2層)まで
徐々にボックスをフィルタリングを行う.
最終段階では,提案手法の改良を行うために第2層から抽出した輪郭を使
用する.
生成したボックスは,物体検出パイプラインで使用する事ができる.
Mathieu Aubry, Bryan C. Russell, “Understanding deep features with computer-generated imagery”, in
ICCV, 2015.
【72】
Keywords: Understanding deep features, CNN,
新規性・差分
概要
・画像において発生する要因(物体形状や色,3D視点,照明)
に対して,CNNで生成された特徴の分析を行う.
・3次元のCADモデルの大規模データセットからレンダリン
グした画像を使用し,その画像内の要因を変化させることで,
様々なシーンに対応したCNN特徴の応答を解析する.
・分析し,得られた成分を定性的・定量的に解析,PCAを用
いて可視化を行う.
・CNNは,AlexNet, Places, Oxford VGGの3つを使用する.
・大規模なデータセットを学習した3つのCNNの定性的・
定量的な結果を提示
・様々なシーンの要因や物体のカテゴリに向けたネットワ
ークおよびCNNの層全体の違いを観測
Links
論文 https://arxiv.org/pdf/1506.01151v1
動画 https://www.youtube.com/watch?v=aDq5IGw--lc
プロジェクト
Dong Zhang, Mubarak Shah, “Human Pose Estimation in Videos”, in ICCV, 2015.
【73】
Keywords: Human Pose Estimation,
新規性・差分
概要
・制約のない動画中の人間の姿勢を推定する手法を提案す
る
・本提案手法の核となるアイデアは「抽象化」と「結合」
である.これにより,動画のフレーム内およびフレーム間
の身体のパーツの動きを制約し,強制する.
・提案手法は効率的にツリーベースの姿勢を生成しながら
も,既存の手法に比べ,動画中の時間的・空間的な身体の
パーツの制約を複雑な計算処理を行わずにモデル化できる
・「抽象化」ではツリーベースの身体のパーツの構成と空
間的制約を付与
・「結合」では,身体のパーツに時間的制約を付与し,最
適な追跡を実現する.
Links
論文
http://www.dromston.com/download.php?Down=HumanPoseE
stimationInVideos.pdf
著者 http://www.dromston.com/
dataset
http://www.dromston.com/download.php?Down=HPEV_Datas
ets.zip
Yair Poleg, Chetan Arora, Shmuel Peleg, “Temporal Segmentation of Egocentric Videos”, in CVPR, 2014.
【74】
Keywords: Video Segmentation, Egocentric Vision
新規性・差分
概要
一人称ビジョンからビデオのセグメント化を実行するた
めの手法を提案する.本論文ではモーションベースの手
法に着目し,一人称ビジョンのような動的な環境でも適
切に動作特徴を捉えるCumulative Displacement Curves
(CDC)を提案する.
・一人称ビジョンにおけるモーションベースの特徴量
Cumulative Displacement Curves (CDC)を提案した.フロ
ーの蓄積とbinary classificationによる新しい識別の戦略も
示した.
・CDC+SVMを用いて,7つのクラス分類やGaze Fixation
を高精度に行った.
Links
論文 http://www.cs.huji.ac.il/~peleg/papers/cvpr14-egoseg.pdf
プロジェクト
CDCの記述方法.10x5ブロックに分割された領域から特徴点の移動
(Displacement)を蓄積する.右が実際のカーブの様子である.頭部の(意図しな
い)回転は統計的に除去される傾向にあるという.識別は上図のようなbinary
classificationにより木構造で判別する.
Alireza Fathi, Xiaofeng Ren, James M. Rehg, “Learning to Recognize Objects in Egocentric Activities”, in
CVPR, 2011.
【75】
Keywords: Egocentric Vision, Object Recognition, Segmentation
新規性・差分
概要
一人称ビジョンから弱教師あり学習により物体や手領域の
セグメンテーションを行う.各行動(に紐付いた物体名)が
わかっている状態で,いかに物体セグメンテーションを行
うかを問う問題.Multiple Instance Learning (MIL)を用い
て物体セグメンテーションを行う.
・ジョージア工科大学のデータセットであるGTEA
datasetを提案.その後,一人称ビジョンにおいて行動認
識や物体セグメンテーションのタスクとして用いられるよ
うになる.
・弱教師あり学習にて物体や手領域のセグメンテーション
ができるようになる.
Links
論文 http://ai.stanford.edu/~alireza/publication/CVPR11.pdf
プロジェクト http://ai.stanford.edu/~alireza/GTEA/]
ビデオ https://vimeo.com/21723853
Jean-Baptiste Alayrac+, “Unsupervised Learning from Narrated Instruction Videos”, in CVPR, 2016.
【76】
Keywords:
新規性・差分
概要
・教師なし学習でナレーションに含まれる行動タスクと動
画像を対応づける手法の提案.特定のタスクを完了するた
めに必要な共通の行動を自動で学習する.
・入力された映像とナレーションの相補的性質を活用し教
師なし学習する手法の提案.新規データセットの提案.実
験的検証.各ナレーションはオブジェクトの関係性の行動
列に変換され,意味的な統合を行い,K個のタスクに分離
される
Links
論文 http://www.di.ens.fr/~alayrac/papers/alayrac16unsupervised.pdf
Alexandre Alahi, “Social LSTM: Human Trajectory Prediction in Crowded Spaces”, in CVPR, 2016.
【77】
Keywords:
新規性・差分
概要
・群衆の経路予測のためのRNNモデルの提案.(social
LSTM)
・従来の群衆解析は人同士はぶつからないことや同じような動きをすると
いった仮説の基に解かれてきた.しかし本手法では群衆予測に特化した
RNNアーキテクチャを構築することでデータ特化の群衆予測を可能にした.
Social LSTMを構築する上でSocial Poolingを提案した.Social Poolingとは
それぞれに近い存在の重みも考慮するpooling方法である.近い人間が複数
存在する場合はセルごとに重みを統合する
Links
論文
http://web.stanford.edu/~alahi/downloads/CVPR16_
N_LSTM.pdf
Zuxuan Wu, “Harnessing Object and Scene Semantics for Large-Scale Video Understanding”, in CVPR,
2016.
【78】
Keywords:
新規性・差分
概要
オブジェクトとシーンを意味的に融合させたネットワーク
の構築(Object-Scene semantic Fusion:OSF). 物体認識,シ
ーン認識,フレームベースの低レベルCNNの3層のCNN特
徴を意味的に融合する.ActivityNetとFCVIDで学習された
m出るを用いている.Fusion Netに誤差逆伝搬情報を入力
することでビデオと物体・シーンの意味的関係性を観測す
ることが可能
オブジェクト特化のCNN特徴ととシーン特化のCNN特徴
を意味的に融合した特徴抽出が可能.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Wu_
Harnessing_Object_and_CVPR_2016_paper.pdf
Yin Li, Alireza Fathi, James M. Rehg, “Learning to Predict Gaze in Egocentric Video”, in ICCV, 2013.
【79】
Keywords: Gaze Estimation, Egocentric Vision
新規性・差分
概要
一人称カメラの装着者の潜在的な手がかりを学習すること
で,視線推定を自動で行うことができるという研究.特に,
ユーザの頭部動作や手領域の位置に着目し,それらを総合
的に判断することで視線を高度に推定する.右図のグラフ
ィカルモデルにより視線を推定する.入力は操作位置・グ
ローバルモーション・手のモーション・手の位置.
・頭部動作や手領域といった潜在的な動作から視線を推定
することに成功した.
・従来のsaliencyはIttiらのボトムアップモデルや対象物あ
りきのトップダウンモデルであったが,一人称ビジョンな
らではの視線推定方法を提案した.
・AUC scoreで87.8%,AAEで8.35 degreeと比較手法と比
べても最も良好な性能を示した.
Links
論文 http://ai.stanford.edu/~alireza/publication/Li-Fathi-Rehg-
ICCV13.pdf
Stefano Alletto, Giuseppe Serra, Simone Calderara, Rita Cucchiara, “Understanding social relationships
in egocentric vision”, in Pattern Recognition, 2015.
【80】
Keywords: Social Relationship, Egocentric Vision
新規性・差分
概要
一人称ビジョンにおけるインタラクション認識.時系列モ
デルであるHMMを用いて顔ランドマークや形状を記述.
さらには複数人物の頭部向き(head orientation)や人物間の
距離から教師ありクラスタリングによりインタラクション
を検出する.
一人称ビジョンにおいて,
・低解像かつ煩雑な環境においてもロバストな頭部姿勢推
定技術を提案
・キャリブレーションによらない3次元の位置推定技術
・Supervised Correlation ClusteringやStructural SVMによ
りインタラクション認識を行う
・提案手法については右のフローチャートがわかりやすい
・Landmark+HOG+HMMを組み合わせる手法が最適な方
法であると判断した
Links
論文
https://www.researchgate.net/publication/28
0528864_Understanding_social_relationshi
ps_in_egocentric_vision
Jun Yuan+, “Temporal Action Localization with Pyramid of Score Distribution Features”, in CVPR, 2016.
【81】
Keywords:
新規性・差分
概要
・時系列方向のアクションローカライゼーションのための
アーキテクチャ構築.
Pyramid of Score Distribution Features (PSDF) の提案.
・従来の行動認識は行動ごとにトリムされた動画像を対象
としていた.本論文では行動の始まりから終わりまでをピ
ラミッド状にスコアとして評価しトリムされていない動画
像から行動を検出する手法の提案を行っている.
PSDFは各検出領域を中心とする複数の分解能を持つ動き
情報を抽出するために提案されている.
Links
論文 http://www.cv-
foundation.org/openacc
ess/content_cvpr_2016/
papers/Yuan_Temporal
_Action_Localization_C
VPR_2016_paper.pdf
Jagannadan Varadarajan, “A Topic Model Approach to Represent and Classify American Football Plays”,
in BMVC, 2013.
【82】
Keywords:
新規性・差分
概要
・アメリカンフットボールの映像解析にトピックモデルを
応用した例.選手の動きを入力とし選手の動作方向、時間、
配置を文章として記述.その後教師ありトピックモデルの
一種であるMedLDAを用いてプレイのタイプを出力する.
・アメリカンフットボールの映像解析(選手の軌跡を用い
た)でのトピックモデルを用いたフレームワークを提案し
高い精度で分類が行えている.
選手の軌跡を文章と捉え統計的に解析する手法の検証を行
っている.またデータセットの提案も行なっている.
Links
論文
https://www.researchgate.net/profile/Bernard_Ghanem/publicat
ion/262009746_A_Topic_Model_Approach_to_Represent_and
_Classify_American_Football_Plays/links/55808f4608ae47061
e5f3322.pdf
L Neumann, J Matas, “Real-time scene text localization and recognition, ” Computer Vision and Pattern
Recognition (CVPR), 2012 IEEE Conference on ...
【83】
Keywords:Class-specific Extremal Regions, ERs
新規性・差分
概要
エンドツーエンドのリアルタイムシーンテキストのローカ
ライゼーションと認識の手法を提案している.リアルタイ
ムのパフォーマンスを達成するために,文字検出問題に焦
点を当て,極地領域(ERs)から順次に領域を選択すること
でローカライゼーションと認識を達成している.
Class-specific Extremal Regionsという情景画像文字検
出の手法を提案している.この手法はでは,
ERs(Extremal Regions)という周囲より高い画素を1つ
の領域としてグループ分けしていく.この領域を候補
領域とすることで,高い再現率を示した.
Links
論文 :
http://ieeexplore.ieee.org/xpls/abs_all.j
sp?arnumber=6248097
・ER detectionチャンネルごとの再現率と適合率を実験し
た結果,HSI表色系のH,S,Iチャンネルに勾配強度の大
きさのチャンネルを加えることで高い再現率を示した.
・ICDAR2011データセットセットにおいて高い再現率を
示した
Stefano Alletto, Giuseppe Serra, Simone Calderara, Francesco Solera, Rita Cusshiara, “From Ego to
Nos-vision: Detecting Social Relationships in First-Person Views”, in CVPRW, 2014.
【84】
Keywords: Social Relationship, Egocentric Vision, First Person Vision
新規性・差分
概要
一人称ビジョンにおいて,人物間の社会的な関係性/イン
タラクションを把握する論文.具体的には撮影されたカメ
ラから誰と誰が会話しているかを理解する.頭部姿勢推定
や3次元位置を推定して,Structured SVMによりグループ
を推定する.
・一人称ビジョンにおいて新規に頭部姿勢推定する手法を
提案した
・3次元のシーン再構成する手法を提案 (頭部や人物の位置
を空間にマッピング)
・Structural SVMによる学習で,グループごとのくくりを
学習する
・EGO-GROUP Dataset(右図)を提案し,各環境における
グループを認識する問題を提供した.
Links
論文 http://www.cv-
foundation.org/openac
cess/content_cvpr_wor
kshops_2014/W16/pap
ers/Alletto_From_Ego_
to_2014_CVPR_paper
.pdf
プロジェクト
Suriya Singh, Chetan Arora, C. V. Jawahar, “First Person Action Recognition Using Deep Learned
Descriptors”, in CVPR, 2016.
【85】
Keywords: First Person View(FPV), CNN,
新規性・差分
概要
・ウェアラブルカメラを付けた人物の姿勢と自然な頭部運
動によって, 動画に急激な動きが生じ, 着用者の行動認識が
困難である.最後に行った行動と着用者の行動分類をCNN
で学習させた.
・ 第三者のビデオ分析により, FPVを用いた行動認識のデ
ータセットを多くて一般化できない.
本研究では, FPVを用いた動作認識のために着用者の動きと
事前にビデオ分析に訓練を受けた空間的・時間的の流れを入
れた
CNNを提案する.これにより精度が従来研究より向上.
Links
論文 https://cvit.iiit.ac.in/images/ConferencePapers/2016/EgoConvNetCVPR2016.pdf
Huizhong Chen, Andrew Gallagher, Bernd Girod, “Describing Clothing by Semantic Attributes”, in ECCV,
2012.
【86】
Keywords: Fashion Attribute, Clothing, Semantic Attribute
新規性・差分
概要
自然画像からのファッション属性 (Clothing Attributes,
Fashion Attributes)を推定する問題.Low-levelな特徴やそ
れを補足する特徴をConditional Random Fields (CRF)を用
いることで属性推定を実行する.データセットはAmazon
Mechanical Truk (AMT)により収集し,1,856枚の画像に対
して右図(list of attributes)のような283,107の属性を付与し
た.フローチャートのように各属性ごとにSVM識別を行い,
出力をCRFに入力することで複数の属性を認識する.特徴
量はSIFTやLAB,Maximum Response Filtersを用いた.
・人体の姿勢にも適応した洋服の特徴を提案した
・ファッション属性間の関係性を考慮した法則に着目して
学習を実行
・ファッションに関する新しいアプリケーションを提案し
た.性別の分類についても言及した
Links 論文
http://web.stanford.edu/~hchen2/papers/ECCV2012_ClothingA
ttributes.pdf
データセット http://web.stanford.edu/~hchen2/datasets.html
Tomasz Malisiewicz, Abhinav Gupta, Alexei Efros, “Ensemble of Exemplar-SVMs for Object Detection
and Beyond”, in ICCV, 2011.
【87】
Keywords: Exemplar SVM, Object Detection
新規性・差分
概要
Exemplar SVMによる物体検出の提案.通常SVMではカテ
ゴリごとにクラスを分類するが,Exemplar SVMではイン
スタンスごとにSVMを用意して,近いサンプルを割りあて
るため,物体の姿勢や見え方の非常に近いものが割り当て
られるというアイディア.セグメンテーションや幾何学的
構造,3Dモデルなどへの転移も可能と判断した.
・クラスごとではなく,SVMをインスタンスごとに割りあ
てるExemplar SVMを提案する.
・直感的にはNearest Neighbor をSVMで行っている.作
者らはこの手法は驚くほどうまくいっていると言及した.
Links
論文
http://repository.cmu.edu/cgi/viewcontent.cgi?article=1780&co
ntext=robotics
プロジェクト http://www.cs.cmu.edu/~tmalisie/projects/iccv11/
コード https://github.com/quantombone/exemplarsvm
H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, T. Serre, “HMDB: A Large Video Database for Human
Motion Recognition”, in ICCV, 2011.
【88】
Keywords: HMDB, Action Recognition
新規性・差分
概要
行動認識の大規模データベースであるHMDB (a large human motion database)の提案
論文.51の行動クラス(次ページ図),6,766動画クリップを含み,学習/テストは3分割
されたファイルを参照して交差検証を行う.各クラス最低でも101の動画を含んでお
り,クラス内のサンプル数は十分確保されている.2016年の最先端の精度でも
65~66%台(UCF101ですら90%超えている)ともっとも難しいとされている.カメラモ
ーション有,上半身のみの評価,体向きの違い,低画質を含むなど画像認識の困難な
課題を含んでいる.
・それまでの行動認識データセットの中でも最大級の規模を誇るデータセットとなっ
た.(2016年現在はそれよりも大規模なUCF101 - http://crcv.ucf.edu/data/UCF101.php,
THUMOS15 - http://www.thumos.info/download.html, ActivityNet - http://activity-
net.org/ などが存在する)
・感覚的には不要なフレームを自動で判断して除く機能が必要.すべてのフレームを
一様に評価する方法では限界であるため60%台からの移行がない?
Links
論文
http://cbcl.mit.edu/cbcl/publications/ps/Kuehn
e_etal_iccv11.pdf
プロジェクト http://serre-
lab.clps.brown.edu/resource/hmdb-a-large-
human-motion-database/
HMDBに含まれる51の行動クラス
Bolei Zhou, Liu Liu, Aude Oliva, Antonio Torralba, “Recognizing City Identity via Attribute Analysis of
Geo-tagged Images”, in ECCV, 2014.
【89】
Keywords: City Identity, Attribute Analysis, GPS, Geo-tagged Images
新規性・差分
概要
都市ごとの「アイデンティティ」を属性ベースで解析して都市間の類似度
を計算した論文.都市計画などに役立てることを想定.21の都市から集め
られた約2,000,000枚のGPSタグが付与された画像から解析を行う.MIT
City Databaseを同時に公開し,交通の様子 (Transportation)や(歴史的)建造
物 (Architecture)などが含まれる.画像は画像共有SNSであるInstagram,
Flickr, Panoramioなどから取得した.
・膨大な画像から属性の解析や都市間の類似度などを計算可能とした.
・画像からAttributeを解析する技術を用いた.論文が出版された当初はハ
ンドクラフト特徴+SVMであったが,現在ではPlaces-CNNによる属性解析
に置き換えられた.
Links
論文
http://people.csail.mit.edu/bzhou/project/eccv2014/ECCV14_cit
yperception.pdf
プロジェクト http://cityimage.csail.mit.edu/
著者 http://people.csail.mit.edu/bzhou/
James Hays, Alexei A. Efros, “IM2GPS: estimating geographic information from a single image”, in
CVPR, 2008.
【90】
Keywords: Geo Information Estimation, GPS
新規性・差分
概要
写真を入力として,その画像がどこで撮影されたのかを推
定する問題(IM2GPSと命名した).6,472,304枚のGPSタグ
が付与された画像を用いて学習することにより地球上の有
名な位置であればランダムよりも30倍高い精度での位置推
定が可能になる.特徴量としてはLAB, Texton, Line
Feature, Gist, Geometric Context [Hoiem+, 2005]を適用し
た.
・画像入力として,地球上の位置を推定する
・Nearest Neighborで推定した結果をずに示す.ランダム
よりも明らかに良い結果となった.横軸がDatabase size,
縦軸が%である.最終的には120-NNが良好な精度を達成
した.
Links
論文 http://graphics.cs.cmu.edu/projects/im2gps/im2gps.pdf
プロジェクト http://graphics.cs.cmu.edu/projects/im2gps/
著者 http://www.cc.gatech.edu/~hays/
David M. Chen, Georges Baatz, Kevin Koser, Sam S. Tsai, Ramakrishna Vedantham, Timo Pylvanainen,
Kimmo Roimela, Xin Chen, Jeff Bach, Marc Pllefeys, Bernd Girod, Radek Grzezczuk, “City-Scale
Landmark Identification on Mobile Devices”, in CVPR, 2011.
【91】
Keywords:
新規性・差分
概要
パノラマ画像やそれに対するGPSデータ,クエリイメージ
のペアを含んだデータセットを提供することで,都市レベ
ルのランドマークマッチング問題の促進を図る.データベ
ース中には約1,700,000枚の画像が含まれる.
・モバイル端末におけるランドマークマッチングのデータ
セットを一般的に提供する.
・総合的な位置認識技術を提案する.
Links
論文
http://web.stanford.edu/~bgir
od/pdfs/Chen_CVPR2011.p
df
プロジェクト
https://sites.google.com/site/
chenmodavid/datasets
Xiaowei Li, Changchang Wu, Christopher Zach, Svetlana Lazebnik, Jan-Michael Frahm, “Modeling and
Recognition of Landmark Image Collections Using Iconic Scene Graphs”, in ECCV, 2008.
【92】
Keywords: Iconic Scene, Image Collection, 3D Reconstruction
新規性・差分
概要
Webベースの検索から,物体認識により対象となるランド
マークを選択し,それらを用いて3次元再構成を行う.右
の画像の例では”Statue of Liberty”の3次元モデルを復元す
る課題であり,Webから抽出した45,284枚の画像から不要
なものを40%除去し,また,図の例では世界の自由の女神
- NewYork, Tokyo, LasVegas を復元した.
・2次元の物体認識や3次元の再構成を組み合わせたような
論文.両者のメリットを組み合わせた形で研究が行われて
いる.
Links
論文
http://web.engr.illinois.edu/~slazebni/publications/eccv08.pdf
David Crandall, Lars Backstrom, Daniel Huttenlocher, Jon Kleinberg, “Mapping the World’s Photos”, in
WWW, 2009.
【93】
Keywords: Geotagged Photos
新規性・差分
概要
位置情報が付加された写真をいかに集めてデータを構成す
るかについて言及した論文.画像収集はFlickr内にて行い,
合計で35,000,000枚の画像を収集するに至った.コンテキ
スト解析や位置情報を元に探索を行った.SIFT+BoFによ
るランドマーク識別やクラスタリングにより類似画像を構
造化した.
・Webないに煩雑に存在している画像を,位置やコンテキ
ストなどの情報を元にして構造化に成功した
・3千万枚という大規模なデータベースを生成し,いずれ
の画像にもGPS情報が付けられている
Links
論文
http://www.cs.cornell.edu/~crandall/papers/mapping09www.pdf
プロジェクト http://www.cs.cornell.edu/~crandall/photomap/
Slava Kisilevich, Milos Krstajic, Daniel Keim, Natalia Andrienko, Gennady Andrienko, “Event-based
analysis of people’s activities and behavior using Flickr and Panoramio geotagged photo collections”, in
Information Visualisation, 2010.
【94】
Keywords: Geotagged Images, Photo-sharing websites
新規性・差分
概要
写真共有サービスから位置情報が付けられた画像を抽出し
て空間的・時間的な解析を行い可視化する研究である.面
白そう/有名な場所の解析,行動パターンから興味を持つ
場所の解析などを行う.定期イベントによる場所と人の移
り変わりや,観光地ランク,モビリティなどの解析を行う.
マイニングにより時間的や空間的に特徴的な傾向を抽出し
た.
右の図は解析の結果得られた可視化の例であり,下記のよ
うなものを含む.
・写真が撮られやすい場所
・観光地における密度マップ
・イベントとその人数の変遷
・FlickrとPanoramioによる行動の違い
Links
論文 https://bib.dbvis.de/uploadedFiles/264.pdf
プロジェクト
Carl Doersch, Saurabh Singh, Abhinav Gupta, Josef Sivic, Alexei A. Efros, “What Makes Paris Look like
Paris?”, in ACM Transactions on Graphics (ToG), 2012.
【95】
Keywords: Geo-tagged Images
新規性・差分
概要
その街らしさを説明する要素はどこにあるか?を解析した
論文である.例えば「パリ(フランス)」らしさを説明する
際には建物の窓やバルコニー,街の看板やランドマークな
どが挙げられる.Web上の数万の画像を解析することで他
の街とは異なる特徴を見つける.
・「特徴的な」パターンを見つけるに成功した.エッフェ
ル塔や看板のパターンなどは非常に有効な情報であること
が判明した.バルコニーの平均画像においても他の都市と
の違いを明らかにした.また,木や車などその街を説明す
る度合いが低いものに関しては除去することができる
・
Links
論文
http://graphics.cs.cmu.edu/projects/whatMakesParis/paris_sigg
_reduced.pdf
ビデオ https://www.youtube.com/watch?v=s5-30NKSwo8
ビデオ2 https://vimeo.com/145472163
著者 https://www.cs.cmu.edu/~cdoersch/
Daniel DeTone, Tomasz Malisiewicz, Andrew Rabinovich, “Deep Image Homography Estimation”, in
arXiv pre-print 1606.03798, 2016.
【96】
Keywords: HomographyNet, DCNN
新規性・差分
概要
2視点間の変換行列H (Homography)を求めるためにDeep
Convolutional Neural Networks (DCNN)を用いる.Multiple
View Geometryの4点対応問題をDCNN内で解いて変換行
列を出力するというアプローチ.
・DCNN内でコンピュータビジョンの幾何的な問題を解決
できるようにした
・Classificationベースの手法とRegressionベースの手法を
提案し,エラーを求めた.結果的にRegressionの方がエラ
ーが少なかった.(右図; 9.2 pixels)
Links
論文
https://arxiv.org/pdf/1606.0379
8v1.pdf
Wei Yang, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, “End-to-End Learning of Deformable Mixture
of Parts and Deep Convolutional Neural Networks for Human Pose Estimation”, in CVPR, 2016.
【97】
Keywords: Deformable Mixture of Parts, Deep Convolutional Neural Networks, Human Pose Estimation
新規性・差分
概要
・身体のパーツの変形可能で混合な表現にDeep
Convolutional Neural Networks(DCNN)を組み合わせた,
人間の姿勢推定を行うエンドツーエンドなフレームワーク
の提案
・困難なアーティキュレーションに対し,最先端のアプロ
ーチと比較して,パフォーマンスの向上を確認した.
・DCNNへ身体パーツ間の幾何学的関係の領域を事前知識
として組み込むことは困難であった.
・領域の事前知識をフレームワークに組み込むことで,モ
デルの構成の柔軟性を向上
Links
論文
https://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&
cad=rja&uact=8&ved=0ahUKEwiFnaWqjKnNAhUj3KYKHQxrCJwQFggd
MAA&url=https%3A%2F%2Fblue-sea-697d.quartiers047.workers.dev%3A443%2Fhttp%2Fwww.ee.cuhk.edu.hk%2F~xgwang%2Fpaper
s%2FyangOLWcvpr16.pdf&usg=AFQjCNGOKTQBd5hBpYfaPwXRmUIrH
9S5pw&sig2=VV-Lxlfvn1E8VsQodsd4Tg
Yingying Zhang, Desen Zhou, Siqin Chen, Shenghua Gao, Yi Ma, “Single-Image Crowd Counting via
Multi-Column Convolutional Neural Network”, in CVPR, 2016.
【98】
Keywords: Crowd Counting, Multi-Column Convolutional Neural Network
新規性・差分
概要
・任意の視点および任意の群衆密度の画像から,画像内の
人口を推定する方法の精度向上を目指す.
・入力画像に密度マップをマッピングするMulti-Column
Convolutional Neural Network(MCNN)を提案
・1198画像に33万の頭のアノテーションをつけたデータ
セットを構築
・既存の群衆データセットおよび提案したデータセットに
おいて,既存するすべてのアプローチと比較して優れた性
能を発揮した.
・MCNNの入力画像は任意のサイズ・解像度でよい.
・異なるサイズを許容するフィルタを使用することで,画
像中の人物の距離や画像の解像度による人間の頭の大きさ
の変化に対応している.
・真の密度マップを学習する必要はなく,すべて幾何学適
応カーネルを使用して,正確に計算される.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Zhang_
Single-Image_Crowd_Counting_CVPR_2016_paper.pdf
Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla, “SegNet: A Deep Convolutional Encoder-Decoder
Architecture for Image Segmentation”, in arXiv pre-print 1511.00561, 2015.
【99】
Keywords: SegNet, Semantic Segmentation
手法
結果
概要
・Convolution-Deconvolution型のアーキテクチャで
Semantic Segmentationを行うSegNetを提案.
・Encoder(下図左側):VGG16の13層のconvolution層を使用.
FC層を使用しない.
・Decoder(下図右側):Encoderと対応する構造.
upsamplingでは、Encoderのmax-pooling位置を再利用.
・FCN, DeconvNetより低精度だが,省メモリ・高速.
Links
論文 http://arxiv.org/pdf/1511.00561v2.pdf
プロジェクト(コードあり)
http://mi.eng.cam.ac.uk/projects/segnet/
YouTube https://www.youtube.com/watch?v=e9bHTlYFwhg
新規性・差分
・Convolution-DeconvolutionによりSemantic Segmentation.
(SegNetの最初の論文[arXiv:1505.07293]はCVPR2015に
投稿されており,DeconvNetより投稿が早い.)
・end-to-endで学習可能であり,multi-stage training, region
proposalsが不要.
Hyeonwoo Noh, Seunghoon Hong, Bohyung Han, “Learning Deconvolution Network for Semantic
Segmentation”, in ICCV, 2015.
【100】
Keywords: DeconvNet, Semantic Segmentation
手法
結果
・Convolution-Deconvolution型のアーキテクチャで
Semantic Segmentationを行うDeconvNetを提案.
・object proposalにより,サイズの異なる物体を効果的にSegmentation可能.
論文 http://www.cv-
foundation.org/openaccess/content_iccv_2015/papers/Noh_Le
arning_Deconvolution_Network_ICCV_2015_paper.pdf
プロジェクト http://cvlab.postech.ac.kr/research/deconvnet/
コード https://github.com/HyeonwooNoh/DeconvNet
・Convolution network(下図左側):VGG16の13層のconvolution層を使用.
FC層を2層使用.
・Deconvolution network(下図右側):Convolution networkと対応する構造.
unpoolingでは,Encoderのmax-pooling位置を再利用.
・Convolution-DeconvolutionによりSemantic Segmentation.
(SegNetよりarXivでの公開が10日早い。)
・object proposalによりinstance-wise segmentationが可能.
概要
Links
新規性・差分
Edgar Simo-Serra, Satoshi Iizuka, Kazuma Sasaki, Hiroshi Ishikawa, “Learning to Simplify: Fully
Convolutional Networks for Rough Sketch Cleanup”, in SIGGRAPH, 2016.
【101】
Keywords: DeconvNet, sketch simplification
手法
結果
・Convolution-FlatConvolution-Deconvolution型の
アーキテクチャでラフスケッチを線画化.
・state of the art[Liu+,2015](ベクタ画像の入力が必要)
や,
市販ソフトと比較し,有効性を確認.
論文 http://hi.cs.waseda.ac.jp/~esimo/publications/SimoSerraSIGGRAPH2016.pdf
プロジェクト http://hi.cs.waseda.ac.jp/~esimo/ja/research/sketch/
・アーキテクチャ
- Down-convolution: ラフスケッチを小さな特徴マップに圧縮.
- Flat-convolution: 不可欠な線を抽出.
- Up-convolution: 入力画像と同一の解像度に戻し,線画を出力.
・任意の解像度のラスタ画像から直接線画化可能なCNN.
・ラフスケッチ線画化用のデータセットを提供.
概要
Links
新規性・差分
・線画化用データセット
- 5人の絵師による68ペアの画像(ラフスケッチと単純化したスケッチの
ア)
- 通常の方法でラフスケッチを単純化すると,画像間の差異が大きいため
単純化した画像からラフスケッチを描くよう絵師に依頼.
- 3種のData Augmentation
Seunghoon Hong, Hyeonwoo Noh, Bohyung Han, “Decoupled Deep Neural Network for Semi-
supervised Semantic Segmentation”, in NIPS, 2015.
【102】
Keywords: DeconvNet, Semantic Segmentation, Semi-supervised learning
手法
結果
概要
・classification用のネットワークとsegmentation用のネッ
トワークを分離した,半教師ありSemantic Segmentation
を提案.
・PASCAL VOC 2012 datasetを用いた比較で
WSSL[Papandreou+,ICCV2015]より高精度.
Links
論文 http://papers.nips.cc/paper/5858-decoupled-deep-neural-network-for-semi-supervised-
semantic-segmentation.pdf
プロジェクト http://cvlab.postech.ac.kr/research/decouplednet/
コード https://github.com/HyeonwooNoh/DecoupledNet
・アーキテクチャ
- Classification Network: 画像中の物体のクラスを特定.
- Segmentation Network: 特定されたクラスごとに,2値のsegmentation.
DeconvNetを使用.
- Bridging layers: クラス特有の情報を伝え,
分離されたネットワークの最適化を可能にする.
新規性・差分
・従来のsemantic segmentationが,領域ごとの
classificationを学習していたのに対し,提案手法は
classificationとsegmentationを分離し,別々のネットワー
クとして学習.
・他の半教師あり学習と異なり,弱教師データからの
pixel-wise segmentation生成・修正の繰り返しが不要.
・学習方法
- 多数のimage-level annotations(画像ごとのクラスラベルデータ)で
Classification Networkを学習.
- 少数のpixel-wise annotations(Segmentationデータ)で
Bridging layers, Segmentation Networkを学習.
Edgar Simo-Serra, Sanja Fidler, Francesc Moreno-Noguer, Raquel Urtasun, “Neuroaesthetics in
Fashion: Modeling the Perception of Fashionability”, in CVPR, 2015.
【103】
Keywords: Fashionability,
新規性・差分
概要
ユーザのファッション性をいかに理解し,コーディネートの推薦手法に
ついて提案する.ユーザのファッション性を理解して,類似のファッシ
ョン性を持つユーザからどのようなコーディネートがあるのかを推薦す
る.データセットは144,169枚の画像やメタデータ(コメント,場所,評
価など)から構成され,Coditional Random Fields (CRF)によりファッショ
ン性を解析し,どのようなアイテムを追加したらよいかを考案する.
・ユーザタイプ,服装解析,写真映りなどを考慮したファ
ッション性である”Fashionability”を考案した.
・ファッション共有SNSであるChictopicから画像やタグ情
報などを含む大規模データを構築し,ファッションの推薦
を行う技術を提案した.
Links
論文 http://hi.cs.waseda.ac.jp/~esimo/publications/SimoSerraCVPR2015.pdf
プロジェクト http://hi.cs.waseda.ac.jp/~esimo/ja/research/fashionability/
コード http://hi.cs.waseda.ac.jp/~esimo/en/research/fashionability/#
データセット http://hi.cs.waseda.ac.jp/~esimo//data/Fashion144k_v1.tar.bz2
ポスター
http://hi.cs.waseda.ac.jp/~esimo/publications/posters/SimoSerraCVPR2015_po
ster.pdf
Sergey Karayev, Matthew Trentacoste, Helen Han, Aseem Agarwala, Trevor Darrell, Aaron Hertzmann,
Holget Winnemoeller, “Recognizing Image Style”, in BMVC, 2014.
【104】
Keywords: Style Recognition, Caffe
新規性・差分
概要
Flickr StyleやWikipaintingなど写真や絵画におけるスタイ
ル認識を実行する.具体的には右図に示すようなものであ
り,FlickrであればHDRやVintageなど20種,絵画であれば
ImpressionismやCubismなど25種に分類する.データは
Flickrが80K,Wikipaintingが85Kで構成されており,特徴
量はCNN6,7,MC-bit,LAB,GIST,Saliencyが用いられ
たが,CNN特徴量を用いるのがよい.(ただし,全部の統
合がもっとも良好な性能を示す)
・写真や絵画のスタイル認識を提案
・シーン認識やファッション認識(における前処理や特徴
量として)にも応用されている
Links
論文 https://arxiv.org/pdf/1311.3715v3.pdf
プロジェクト http://vislab.berkeleyvision.org/
デモ
http://similaritydemo.vislab.berkeleyvision.org/similar_to/rando
m/caffe%20fc6/euclidea
Edgar Simo-Serra, Sanja Fidler, Francesc Moreno-Noguer, Raquel Urtasun, “A High-Performance CRF
Model for Clothes Parsing”, in ACCV, 2014.
【105】
Keywords: Semantic Segmentation, Cloth Parsing
新規性・差分
概要
ファッション画像におけるセマンティックセグメンテーションの手法
を提案.Conditional Random Fields (CRF)によりモデルを構築,
Unary項やPairwise項としてSimilarityやLimbsの項を設定した(10式).
SuperPixelや人体の関節に対してラベルを付加することとし,Unary
項では色ヒストグラム,Gaborフィルタ,2次元の相対的な位置,前景
や背景,Clothelets,SIFTを,Pairwise項ではShape/ Color/ Textureの
類似度,関節とSuperPixelの位置関係を考慮して,CRF内で総合的に
判断する(右図).
・Fashionistaデータセットにてそれまでのstate-of-the-art
[Yamaguchi+, CVPR2012]と比較して相対的に30%向上し
た.29クラスのセマンティックセグメンテーションにて
12.32%から20.52%に向上した.
Links
論文
http://www.cs.toronto.edu/~urtasun/publications/simo_et_al_ac
cv14.pdf
プロジェクト
http://hi.cs.waseda.ac.jp/~esimo/ja/research/fashion/
コード http://hi.cs.waseda.ac.jp/~esimo/code/clothes_parsing/
特徴量 http://hi.cs.waseda.ac.jp/~esimo//data/poseseg.tar.bz2
Kota Yamaguchi, M. Hadi Kiapour, Tamara L. Berg, “Paper Doll Parsing: Retrieving Similar-Styles to
Parse Clothing Items”, in ICCV, 2013.
【106】
Keywords: Cloth Parsing
新規性・差分
概要
ファッション検索を想定したファッション画像解析の研究
である.クエリ画像と類似した画像をデータベースから検
索する.ファッションアイテムのグローバルモデルやロー
カルモデル,さらにはクエリから推定画像への転移学習を
行う.ファッション解析のフロー図は右に示す.
・クエリ画像からのファッション画像検索を実行
Links
論文 http://www.tamaraberg.com/papers/paperdoll.pdf
プロジェクト
http://vision.is.tohoku.ac.jp/~kyamagu/ja/research/paperdoll/
著者 http://vision.is.tohoku.ac.jp/~kyamagu/ja/
Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, Xiaoou Tang, “DeepFashion: Powering Robust Clothes
Recognition and Retrieval with Rich Annotations ”, in CVPR, 2016.
【107】
Keywords: image retrieval, DeepFashion, CNN
新規性・差分
概要
総合的なアノテーションによる大規模な衣服データセットである
Deep Fashionを紹介する.Deep Fashionは,大規模な属性,衣類の
ランドマーク,異なる撮影環境といった注釈付けがされている80万枚
を超える画像より構成されている.またDeepFahsionのためのCNNア
ーキテクチャであるFashionNetを提案する.FashionNetは共同で衣
類の属性やランドマーク(下図)を予測することにより衣類特徴を学習
する.推定されたランドマークはその後,学習した特徴をプーリング
またはゲートするために用いる.推定されたランドマークは反復的に
最適化される.
衣服の大規模データセットであるDeepFashionと,
DeepFashionを学習したCNNアーキテクチャであるFashioNet
の提案.衣服に関する検索タスクの性能を大きく向上させた.
Links
Paper : http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Liu_DeepFashion_Po
wering_Robust_CVPR_2016_paper.pdf
Author : http://personal.ie.cuhk.edu.hk/~lz013/
project: http://personal.ie.cuhk.edu.hk/~lz013/projects/DeepFashion.html
(上図)FashionNetの構造は16層のVGGNetと似ている.具体的に
は,最後の層が図の赤,緑,青のハイライトで表現されているよ
うな3種類の分岐による層に置き換えられている.
(下図) DeepFashionの一例
Alireza Fathi, James M. Rehg, “Modeling Actions through State Changes”, in CVPR, 2013.
【108】
Keywords: Video Segmentation, Key-frame, Action Detection
新規性・差分
概要
一人称ビジョンからの行動のセグメント化 (キーフレーム
検出)に関する論文.行動の開始と終了には特徴的な動作
が含まれる(e.g. Open Coffee Jar, Close Coffee Jar)と主張
して,行動検出を行った上でビデオをセグメントに分割.
弱教師あり学習のフレームワークにより行動検出とビデオ
のセグメント化を実現.
・環境の変化をベースとして行動検出を実行した
・弱教師あり学習により行動検出
・行動の開始-終了まで理解することができる
Links
論文
http://ai.stanford.edu/~alireza/publication/Fathi_CVPR13.pdf
Juan Carlos Niebles, Chih-Wei Chen, Li Fei-Fei, “Modeling Temporal Structure of Decomposable Motion
Segments for Activity Classification”, in ECCV, 2010.
【109】
Keywords: Vdieo Segmentation
新規性・差分
概要
ひとつの行動内において異なるサブ行動/motion segments
を把握した上で総合的に行動を判断する手法である.右の
図では複数(3つ)のSegmentをそれぞれ組み合わせ,それぞ
れのスコアの合計により行動を評価.
・行動認識において,複数のセグメントを評価する手法を
提案した.全てのフレームを参照するではなく,有効な特
徴を選択して評価する.
・KTHデータセットにて非常に良好な性能を示した.
Links
論文 http://vision.stanford.edu/pdf/NieblesChenFei-
Fei_ECCV2010.pdf
Torsten Sattler, Michal Havlena, Konrad Schindler, Marc Pollefeys, “Large-Scale Location Recognition
and the Geometric Burstiness Problem”, in CVPR, 2016.
【110】
Keywords: Location Recognition
新規性・差分
概要
写真から自分が今どこにいるのかを推定する問題設定.学
習時にはクエリ画像とそのGPSの位置情報 (Geo-tag)を用
い,テスト時にはクエリ画像のみから詳細な位置推定を行
う.提案手法では大規模データによらず,周りとの相関に
より位置を効果的に捉える方法を提案する.”Geometric
Burst”と呼ばれる手法を考案.
・Geometric Burstと呼ばれる,その場所を記述する特徴点
を抽出する.異なる時間や天候などに依存しない特徴を
Inlierと定義し,効果的に場所の特徴を説明するものを拾え
た.
・特に,Recall率を向上することに成功した.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Sattler_
Large-Scale_Location_Recognition_CVPR_2016_paper.pdf
コード https://github.com/tsattler/geometric_burstiness
Xiaojun Chang, Yao-Liang Yu, Yi Yang and Eric P. Xing, “They Are Not Equally Reliable: Semantic
Event Search using Differentiated Concept Classifiers”, in CVPR, 2016.
【111】
Keywords: semantic event detection, semantic event image retrieval
新規性・差分
概要
インターネット上の動画のような制約がない
場合での複雑なイベント検出は近年では多くの
進歩を見せている.しかし,正例の訓練データ
の数が不足する場合にstate-of -the -artの精度は
劇的に低下する.動画のラベル付は,費用と時
間を要することから,動画が与えられていない
場合での意味的なイベント検出という非常にに
困難な問題の検討が必要である.本稿では任意
の例の動画がない場合でのイベント検索システ
ムのstate-of -the -artシステムを提案する.
学習データ数が少ない場合における,動画像の
意味的イベント検出手法を提案した.具体的に
は,他のソースから収集した概念分類を活用す
ることを提案した.
Links
Paper :
http://www.cs.cmu.edu/~yaoliang/mypapers/cvpr16a.pdf
Author : http://www.cs.cmu.edu/~uqxchan1/
大規模な意味的イベント検索のためのフレームワーク.(図は特定の乗馬競技イベンの場
合):
まず,skip-gram言語モデルによって各概念とイベントの関連性を推定する.次に概念分
類の信頼性を考慮するために,概念スコアを空間的メタ学習を通じてcombineし,GCGア
ルゴリズムより効率的に求める.
正例データ数を変化させた場合で
のMEDTest 2014, MEDTest 2013
における提案手法の評価実験結果.
SMLは,空間的メタ学習という著
者らの提案手法を示している.
Sergey Zagoruyko, Nikos Komodakis, “Wide Residual Networks”, in arXiv pre-print 1605.07146, 2016.
【112】
Keywords: Deep Residual Networks (ResNet)
新規性・差分
概要
ResNetは残差を学習することで勾配の消失を防ぎ,深い構造のCNN
学習に非常に有効な枠組みである.しかし,ボトルネックとして特徴
の再利用の問題や学習が非常に遅いという報告がある(数十万回の学
習に数週間かかるようである).この問題に対し,提案手法では深さ
を低減して幅を広げるというWide ResNet (WRNs)を提案する.具体
的にはショートカットの際に右図のように畳み込みマップの幅を広く
し,さらには間にdropoutを挟むことでボトルネックを解消.この
WRNは16層のモデルでも従来のResNetを上回る精度を実現したとし
ている.GitHubにてコードを公開している.
・構造は深くないながら,従来のResNetの性能を上
回っている.CIFAR-100のデータにてオリジナルの
ResNetが164層で24.33%,1001層で22.71%のエラー
のところを,WRNでは20.0%までエラー率を下げた.
・それまでのとにかく深くするという流れに歯止めを
かけた?(それがわかるのは今後の実験の繰り返しで
ある)
Links
論文 https://arxiv.org/pdf/1605.07146v1.pdf
プロジェクト(コードあり) https://github.com/szagoruyko/wide-
residual-networks
Carl Vondrick, Hamed Pirsiavash, Antonio Torralba, “Anticipating Visual Representations from Unlabeled
Video”, in CVPR, 2016.
【113】
Keywords: Action Prediction, Anticipating Action
新規性・差分
概要
人物の行動予測に関する論文である.映画のシーンを学習対象とし
て,数秒後の行動を予測する.学習の枠組みはラベル付けされてい
ない膨大な(600時間の)映像データから教師なし学習により実施す
る.CNNによりモデリングするのは人物の行動や物体である.
・CNN内で時間的に離れたフレームの特徴の関連性を対応
づけることにより1~5秒後の行動を予測することに成功し
た.
・人間の平均予測率が71%だったのに対して提案手法は
43.6%であった.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Vondric
k_Anticipating_Visual_Representations_CVPR_2016_paper.p
df
プロジェクト http://web.mit.edu/vondrick/prediction/
Prashanth Balasubramanian, Sarthak Pathak, Anurag Mittal, “Improving Gradient Histogram Based
Descriptors for Pedestrian Detection in Datasets with Large Variations”, in CVPRW, 2016.
【114】
Keywords: HOG, Pedestrian detection
新規性・差分
概要
データセットにバリエーションがある際の歩行者検出につ
いて,HOGベースの手法に対して改良を施す.バリエー
ションを相殺する際にスムージングを行うわけであるが,
エッジの消失を避けるためにランキングベースの非線形変
換を実施する.
・データセットのバリエーションを考慮
して,非線形変換によりスムージングを
行うことで歩行者の姿勢変動やその他の
要因によるばらつきがあったとしてもロ
バストに歩行者を捉えることができる.
Links
論文 http://www.cv-
foundation.org//openaccess/content_cvpr_2
016_workshops/w24/papers/Balasubramani
an_Improving_Gradient_Histogram_CVPR_
2016_paper.pdf
Bingbing Ni, Xiaokang Yang, Shenghua Gao, “Progressively Parsing Interactional Objects for Fine
Grained Action Detection”, in CVPR, 2016.
【115】
Keywords: Fine Grained Action Detection
新規性・差分
概要
詳細行動認識を解決する際に人物だけでなく特に物体のラ
ベルやその位置などを総合的に解析(Parsing)する.この解
析する際にはLong-Short Term Memory (LSTM)を用いるこ
とで詳細認識の検出精度を改善することができると主張し
た.右図は本論文の提案するフレームワークである.画像
の入力からVGG19により第5畳み込み層を取り出し,
LSTMへの入力とする.LSTMでは文脈を把握した物体検
出を行い,フレーム間で情報を共有して信頼度の高い物体
を検出することも可能である.実際の行動検出には
IDT+FVと組み合わせる.最終的な識別器はSVMで実行す
る.
・詳細行動の検出に対して物体の解析やLSTMによる文脈
解析を導入した.物体解析も非常に高精度に行った.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Ni_Pro
gressively_Parsing_Interactional_CVPR_2016_paper.pdf
Yang Zhou, Bingbing Ni, Richang Hong, Xiaokang Yang, Qi Tian, “Cascaded Interactional Network for
Egocentric Video Analysis”, in CVPR, 2016.
【116】
Keywords: Egocentric Video Analysis
新規性・差分
概要
一人称ビジョンにおいて[Fathi+, ICCV2011]の高度な改良
であるという位置付け.手や物体領域のセグメンテーショ
ンや意味づけ,人物のモーション認識を総合した上で行動
を判断することができる.論文中では[Noh+, ICCV15]によ
るセグメンテーション,Hand/Object/Motionという3種類
のマップによるカスケードにより候補領域の抽出や物体の
検出を実行,さらにはIDTによりモーション特徴を抽出す
る.最後にはそれらの統合により行動認識を行う.
・GTEAやADLデータセットにて非常に高い精度を達成し
た.ADLデータセットにてObjectのみでは43.8%だった認
識率もIDTを含めると55.2%まで向上する.
・Hand Segmentationもセマンティックセグメンテーショ
ンの枠組みを用いると精度が劇的に改善する.それが一人
称ビジョンにおける行動認識に有益な情報となる.
Links 論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Zhou_Cascaded_Inte
ractional_Targeting_CVPR_2016_paper.pdf
Fathi+, ICCV11 http://ai.stanford.edu/~alireza/publication/ICCV11.pdf
Noh+, ICCV15 http://www.cv-
foundation.org/openaccess/content_iccv_2015/papers/Noh_Learning_Decon
volution_Network_ICCV_2015_paper.pdf
Wei Yu, Kuiyuan Yang, Yalong Bai, Tianjun Xiao, Hongxun Yao, Yong Rui, “Visualizing and Comparing
AlexNet and VGG using Deconvolutional Layers”, in ICML Workshop, 2016.
【117】
Keywords: CNN Visualization, Deconvolutional Layer
新規性・差分
概要
AlexNetとVGGNetを可視化することにより,深い構造は
いかに特徴抽出をしているかを明らかにしようとする試み.
AlexNet: 8層,VGGNet: 16/19層であるため,深さの違い
についても働きを可視化する.可視化には[Zeiler & Fergus,
ECCV14]のDeconvolutional Layersを用いている.
・可視化によりVGGNetがAlexNetよりもなぜ,優れてい
るのかを明らかにした.
・右下の可視化はAlexNet, VGGNet-16の例である.下層
では画像全体に特徴が現れているが,上位層(c5_3やc5)で
は物体の概念のみに対して特徴が浮かび上がっている.そ
の特徴抽出はVGGの方が高度であった.
Links
論文 http://icmlviz.github.io/assets/papers/4.pdf
James Charles, James Charles, Derek Magee, David Hogg, Andrew Zisserman, “Personalizing Human
Video Pose Estimation”, in CVPR, 2016.
【118】
Keywords: Personalize, Pose Estimation, CNN
新規性・差分
概要
・自動でパーソナライズを行う姿勢推定ConvNetの提案
・3つのベンチマーク(Pfister et al., Chen & Yuille, Yang &
Ramanan)と比較して,State-of-the-art
・個人向けにファインチューニングすることで高い精度で
姿勢推定を行うことができるということを示した.
・dense optical flowとimage-based matchingを組み合わせ
を使用することで,追加の姿勢のアノテーションを生成
・オクルージョンアウェアな自己評価モデルを用いること
で,誤った姿勢のアノテーションを除去し,高精度なアノ
テーションを生成
・以上のアノテーションを使用し,ConvNetをファインチ
ューニング
Links
論文 https://arxiv.org/pdf/1511.06676v2.pdf
著者 http://www.comp.leeds.ac.uk/scsjc/
Youtube
https://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=0ahUKEwi67p3
E5LXNAhXMjZQKHc71CwAQtwIIKTAB&url=https%3A%2F%2Fblue-sea-697d.quartiers047.workers.dev%3A443%2Fhttps%2Fwww.youtube.com%2Fwatch%3Fv%3DYO1JF
8aZ_Do&usg=AFQjCNEg2YWLv31UpH0ccCONO6LDddMoAQ&sig2=5aTU3vZSXCEP60lElqhpYQ
Stage1では,いくつかのビデオフレームは1つ以上の姿勢推定器か
ら信頼度の高い推定値のものをアノテーションとしてつける.
Stage2では,空間的なマッチングを使用する.
Stage3で,アノテーションを時間的に伝播させる.
Stage4で,エラーを除去するために新規のアノテーションの自己評
価を行う.
Stage2〜4を繰り返し行い,パーソナライズを行う.
Shih-En Wei, Varun Ramakrishna, Takeo Kanade, Yaser Sheikh, “Convolutional Pose Machines”, in
CVPR, 2016.
【119】
Keywords: Pose Estimation, CNN
新規性・差分
概要
・姿勢推定タスクに向けた画像特徴と画像依存の空間モデ
ルの学習を行う手法(ポーズマシン)の提案
・ポーズマシンは,豊富な暗黙の空間モデルの学習を行う
逐次予測フレームワークである.
・MPIIやLSP, FLIC datasetsを含むベンチマークと比較し,
State-of-the-artな性能を発揮した.
・明示的なグラフィカルモデルの推測を行うことなく,身
体パーツ位置の高い推定値を生成するConvNetのシーケン
スアーキテクチャを構成.
・目的関数を設けることで,学習中の勾配の損失による特
徴付不足に対応する.
Links
論文 https://arxiv.org/pdf/1602.00134v4.pdf
code https://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&cad=rja&uact=8&ved=0ahUKEwjCjZ2C-
rfNAhWIX5QKHVsCDZ8QFgg4MAI&url=https%3A%2F%2Fblue-sea-697d.quartiers047.workers.dev%3A443%2Fhttps%2Fgithub.com%2Fshihenw%2Fconvolutional-pose-machines-
release&usg=AFQjCNE7v_v5d-doV4pRDMcY1aI4-mf7Lw&sig2=PgGBNzeqTL-xvtnPYOdN1Q
Youtube https://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&cad=rja&uact=8&ved=0ahUKEwjCjZ2C-
rfNAhWIX5QKHVsCDZ8QtwIIPzAD&url=https%3A%2F%2Fblue-sea-697d.quartiers047.workers.dev%3A443%2Fhttps%2Fwww.youtube.com%2Fwatch%3Fv%3DMxgUeUo915k&usg=AFQjCNF5
AVge474-mynjJoEOFRXJSRWQvw&sig2=VMpTtbCgv4aL5TNV0pa4vw
こちら側に図や実験結果を挿入し,キャプションを付けて
ください.
Yuka Kihara, Matvey Soloviev, Tsuhan Chen, “In the Shadows, Shape Priors Shine: Using Occlusion to
Improve Multi-Region Segmentation”, in CVPR, 2016.
【120】
Keywords: Multi-Region Segmentation, Occulusion, Deep ;earning
新規性・差分
概要
・画像中から互いにオクルージョンとなる可能性のある物
体を含む2次元画像から多領域分割を行うアルゴリズムの
提案
・本アルゴリズムは,一度オクルージョン領域を認識する
と,オクルージョンによって欠落した部分の推測を行う.
・本アルゴリズムを使用することで,オクルージョンによ
って欠落した物体とオクルージョンとなった物体の復元画
像を生成することができ,高い精度で復元が可能である.
・Deep learning modelを使用し,前の段階の形状を取り
込む.
・全領域のエネルギーを最小化し,オクルージョンのない
領域のピクセルについて検討を行う.
Links
論文 https://arxiv.org/pdf/1606.04590v1.pdf
Di Lin, Jifeng Dai, Jiaya Jia, Kaiming He, Jian Sun, “ScribbleSup: Scribble-Supervised Convolutional
Networks for Semantic Segmentation”, in CVPR, 2016.
【121】
Keywords: scribble, CNN, Semantic Segmentation
新規性・差分
概要
・セマンティックセグメンテーションのデータセットにお
けるアノテーションの付与を簡単で効率的に行うアルゴリ
ズムの提案.
・本アルゴリズムは,PASCAL VOC,PASCALCONTEXT
datasetにおいて優れた結果を示した.
・大規模なデータセットにおけるセマンティックセマンテ
ィックモデルのアノテーション付けは,ピクセル単位で行
っており,極めて非効率的である.
・本アルゴリズムは上記の問題を解決する.画像上のセグ
メンテーションしたい物体にスクリブル(落書きで書いた
ような線)を描くことで自動的にセグメンテーションを行
うアルゴリズムとなっている.
・本アルゴリズムは,描いたスクリブルからデータを集約
し,各領域のCNNのパラメータを学習することで,自動的
なセグメンテーションを可能とする.
Links
論文 http://www.cse.cuhk.edu.hk/leojia/papers/scribblesup_cvpr16.pdf
プロジェクトhttp://research.microsoft.com/en-
us/um/people/jifdai/downloads/scribble_sup/
Code
https://www.dropbox.com/s/9vh3kvtd742red8/scribble_annotation.zip?dl
=0
上図において,(b)は通常のアノテーシ
ョンの付け方,(c)が本アルゴリズムで
のアノテーションの付け方である.
左図は,グラフィカルモデルの概要
super pixel 上でのpairwise termはマー
クされていない画素に情報を伝播させ
るために使用する.
network-based unary termはFCNからの
情報に従い,修正を行う.
Lisa Anne Hendricks, Subhashini Venugopalan, Marcus Rohrbach, Raymond Mooney, Kate Saenko,
Trevor Darrell, “Deep Compositional Captioning: Describing Novel Object Categories without Paired
Training Data”, in CVPR, 2016.
【122】
Keywords: Image Captioning
新規性・差分
概要
画像を説明するのみならず,質問に対する回答文を用意す
る.従来では画像性成分のミスが回答文のミスに繋がって
いたが,外部データを有効に(ペアとして)学習することで
該当する知識の転移を行う.
Word2vecを用いることでペアの概念の距離を計算する.
これを画像特徴量と対応づけることで効果的に画像説明文
を行えることが判明した.
・MSCOCOにて非常に高い精度を達成した.METEORに
て21,F1にて39.78を達成
・DCCによる転移により,データサンプルの少ないような
ものに対しても効果的に学習ができることが判明した
・ビデオへの適用や,NOCにより表現能力を拡張しただけ
でなく,
Links
論文 https://arxiv.org/abs/1511.05284
Junhua Mao, Jonathan Huang, Alexander Toshev, Oana Camburu, Alan Yuille, Kevin Murphy,
“Generation and Comprehension of Unambiguous Object Descriptions”, in CVPR, 2016.
【123】
Keywords: Image Captioning
新規性・差分
概要画像認識レベルではなく,画像の説明文のための表現能力
を向上する.(x: a man, o: a man is wearing a blue
sweater) また,画像説明文の評価は非常に難しいが,これ
をわしゃの意図に沿うように、さらには受けてにもわかり
やすい文章にするべく画像を理解する.
CNN特徴やLSTMにより全ての候補領域からの説明を行い,
最大化する.LSTMモデルは全ての候補領域から生成され
たものとLoss関数を最小化するものが選択される.
・・話し手や受け手の意図をLSTMモデルに反映させるこ
とにより,効果的な画像説明文の生成が可能となった.
Links
論文
http://cbmm.mit.edu/sites/defau
lt/files/publications/object_descr
iption_cbmm.pdf
Zichao Yang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Smola, “Stacked Attention Networks for Image
Question Answering”, in CVPR, 2016.
【124】
Keywords:
新規性・差分
概要
画像の説明文をベースとして,コンピュータが質問に回答する質問回答文を用
意する.画像と質問文を入力として,多階層モデルにより回答を用意する.
SANsは質問モデル,回答モデル,複数のアテンションモデル,推定器を備えて
いる.VGGの画像特徴マップ,LSTMによる回答モデル,アテンションマップ
は質問や画像特徴からMulti-modal poolingにより対応付けされる.さらにはこ
のMulti-modal poolingを再帰的に繰り返すことによりアテンションや回答の質
を高める.最後にSoftmaxにより回答を出力.
・Multi-modal poolingにより言語と画像の対応づけを行い,
質問回答文への効果的なモデルとした.
・VQAチャレンジ@CVPR16での優勝チームもこの
Stacked Attention Networksをベースとした
Links
論文
https://arxiv.org/abs/1511.02274
コード
https://github.com/zcyang/imageq
a-san
Hyeonwoo Noh, Paul Hongsuck Seo, Bohyung Han, “Image Question Answering using Convolutional
Neural Network with Dynamic Parameter Prediction”, in CVPR, 2016.
【125】
Keywords:
新規性・差分
概要
Dynamic Parameter Prediction (DPP)を提案することにより質問回答文を行う.
質問回答文は複数の物体認識が複合的に合わさっていると仮定し,DPPを畳
み込みや全結合層の後に配置する.アーキテクチャは識別ネットワークと推
定ネットワークに分けられる.識別はVGGとDPP,推定はGRUとDPPにより
構成され,最終的には回答が用意される.Pre-trained GRUやFine-tuning CNN
により効果的に画像や文章の特徴を捉えることが可能となる.
・ベースラインと比較(with / without DPP)すると,DPPを
用いることにより精度がよくなることがわかった.
Links
論文 http://arxiv.org/abs/1511.05756
コード https://github.com/HyeonwooNoh/DPPnet
著者 http://cvlab.postech.ac.kr/~hyeonwoonoh/
Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Dan Klein, “Neural Module Networks”, in CVPR, 2016.【126】
Keywords: Image Question Answering
新規性・差分
概要
Neural Module Networksを提案することで質問回答文への
提案とする.右図のグレーの部分が提案部分である.質問
文(e.g. red, above)から画像を参照し,回答にふわさいい
ものを探索する.特徴はCNN,文章の解釈はLSTMと標準
的なものを用いるが,コントリビューションはそこからの
階層的な探索であるNeural Module Networksであり,効果
的な回答を用意するための仲介役をこなす.
・・Neural Module Networksにより回答文の構造化を効果
的に行った.色,画像中の位置や形状など,あらゆる言語
や画像の関係性を捉えられるようにした.
・質問回答文のデータセットにおけるstate-of-the-art
58.9% vs 59.4% 提案手法
Scott Reed, Zeynep Akata, Honglak Lee, Bernt Schiele, “Learning Deep Representations of Fine-grained
Visual Descriptions”, in CVPR, 2016.
【127】
Keywords: Zero-shot learning
新規性・差分
概要
Zero-shot学習は学習データのラベルがない状態で概念を学習
することである.この状態で詳細な画像説明 (fine-grained
visual descriptions)を実現する.モデルとしてはRNNがmid-
level CNNの上位に位置するモデルを提案.
・zero-shot in CUBにてstate-of-the-
artを達成
・画像検索においてもクエリ文章か
ら画像特徴を効果的に選び出し,意
図に沿うピンポイントな画像を検索
できるようにした
Links
論文
http://web.eecs.umich.edu/~honglak/cvpr2
016-sentenceEmbed.pdf
Zeynep Akata, Mateusz Malinowski, Mario Fritz, Bernt Schiele, “Multi-Cue Zero-Shot Learning With
Strong Supervision”, in CVPR, 2016.
【128】
Keywords: Zero-shot learning
新規性・差分
概要
画像空間とクラスの空間を学習するために,part
annotationやキーポイント位置を与えてその対応関係を覚
えさせておく.Multiple Visual Partsは0ショットの文脈に
てstate-of-the-artな精度を与えた(56.5% on CUB).さらに,
概念間のギャップを埋めた.
・Deep Fragment Enbeddings を適用してzero-shot
learningにおける言語の手がかりと画像の手がかりを対応
づけした.
・構造化されていない言語データに対して人物のアノテー
ションがなく言語の対応づけを行った
Links
論文 http://arxiv.org/abs/1603.08754
Yongqin Xian, Zeynep Akata, Gaurav Sha, “Latent Embeddings for Zero-shot Classification”, in CVPR,
2016.
【129】
Keywords: Zero-shot learning
新規性・差分
概要
画像とクラス空間をzero-shotにより学習する.
SJE[Akata+, 2015]が十分な識別を得られなかったため,
その改善に取り組んだ.それに対してLatent Embeddings
Methods (LatEm)を提案することで複数行列の学習を行い,
画像とクラス空間の誤差(分散)を少なくする.
・物体の姿勢やアピアランス,その他の要因に対するバリ
エーションにおいてもZero-shot learningの枠組みで学習し
て言語を対応づけ可能とした.
・高速かつ効果的なモデル選択手法(e.g. Model Prunning)
を提案
・右下の検索された画像を見てみると,詳細な概念が学習
されていることがわかる.
Links
論文 http://arxiv.org/pdf/1603.08895v2.pdf
Roland Kwitt, Sebastian Hegenbart, Marc Niethammer, “One-shot learning of scene locations via feature
trajectory transfer”, in CVPR, 2016.
【130】
Keywords: One-shot learning
新規性・差分
概要
One-shot学習によるシーン位置の学習.似通った画像特徴
から位置を特定することは可能か,また微細な特徴の変化
をどのように学習するのかを提案する.
・天候の違いや場所など40のアトリビュートを推定する問
題を提供,Transient Attributes Databaseを提案した.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Kwitt_O
ne-Shot_Learning_of_CVPR_2016_paper.pdf
プロジェクト https://github.com/rkwitt/TrajectoryTransfer
Chuang Gan, Tianbao Yang, Boqing Gong, “Learning Attributes Equals Multi-Source Domain”, in CVPR,
2016.
【131】
Keywords:
新規性・差分
概要
Zero-shot学習による,画像検索のためのアトリビュート
学習.中レベルと高レベルの空間は交錯していて識別が非
常に難しいが,ドメイン生成モデルにより効果的な識別を
実現する.
・AWA, CUB, a-YahooやUCF101にて非常に効果的な学習
と識別を行った.
Links
論文 http://crcv.ucf.edu/people/faculty/Gong/Paper/attribute-
dg.pdf
著者 http://homepage.cs.uiowa.edu/~tyng/
Judy Hoffman, Saurabh Gupta, Trevor Darrell, “Learning with side information through modality
hallucination”, in CVPR, 2016.
【132】
Keywords:
新規性・差分
概要
ソースドメイン(RGB)とターゲットドメイン(Depth)が異な
るシーンでの適用方法.Modality Hallucinationを行う,
RGBとHalluciationネットワークからの損失関数を最適化.
NYUDv2 RGBDetectionにてFast R-CNN 29%に対して提
案手法は34%.
・Depth画像に頼りすぎることなく,補助情報としてRGB
の情報をよくするという発想
・良好な識別結果を達成した
Links
論文
https://people.eecs.berkele
y.edu/~jhoffman/papers/Ho
ffman_CVPR16.pdf
David F. Fouhey, Abhinav Gupta, Andrew Zisserman, “3D Shape Attributes”, in CVPR, 2016.
【133】
Keywords: 3D Shape Attribute
新規性・差分
概要
3次元の複雑な形状を復元するための手法を提供する.従来のカテゴリベー
スの認識ではなく,形状の「雰囲気」を表現するような認識にする.この
問題のために彫刻の2次元画像のデータセットを生成.データはwikipediaや
Flickrなどで収集.242のアーティストから2197のワード、143kの画像を
9352ビューポイントより収集した.認識のモデルはVGG-Mモデルから12
shape attributes, 1024のshape embeddingを出力.
・形状の雰囲気を伝えるような認識を可能と
した.
・72.3%の認識率を達成,ローカルには
82~87%のクラスも存在し,同一形状の物体に
対して回転しているかどうかも表現可能 (類似
しているが,異なる形状かどうかを判断可能).
Links
論文
http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/f
ouhey16.pdf
プロジェクト
http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/
Joseph DeGol, Mani GolparvarFard, Derek Hoiem, “Geometry-Informed Material Recognition”, in CVPR,
2016.
【134】
Keywords:
新規性・差分
概要
航空画像からの材質認識 (Material Recognition)である.GeoMat Dataset
を提案し,サーフェイスからその材質が何であるかを推定する.点群情
報も提供し,3次元的な情報も適用可能である.識別困難な状況も,3次
元的な形状を把握した上で材質を判断可能である.
FV+CNNが68%であるのtに対してFV-Nが73%,+N3Dが73.84%.
・航空画像からの材質認識という困難な課題に取り組んで,
一定以上の成果をあげたことが新規性として挙げられる.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/DeGol_
Geometry-
Informed_Material_Recognition_CVPR_2016_paper.pdf
Abhijit Bendate, Terrance E. Boult, “Towards Open Set Deep Networks”, in CVPR, 2016.
【135】
Keywords: Open World Setting
新規性・差分
概要
従来のAlexNetのような物体のカテゴリ認識ではなく,カ
テゴリにプラスして様々な環境におけるカテゴリを認識す
るためにソフトマックス関数の出力を用いる(Open Set ).
Softmaxのみならず,Openmax関数を定義してこの問題に
取り組み,この問題に取り組んだ.Openmaxでは
unknownクラスなども含み,実世界をより深く認識するた
めの枠組みとなっている.
・Softmaxに加えて,より表現能力をましたOpenMaxと呼
ばれる出力層を提案した.
・CNN easily fooledにインスパイアされて,「よくわから
ない」クラスなどより実世界の認識に近い性質を識別器に
もたせた.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Bendal
e_Towards_Open_Set_CVPR_2016_paper.pdf
Mark Wolff, Robert T. Collins, Yanxi Liu, “Regularity-Driven Building Façade Matching Between Aerial
and Street Views ”, in CVPR, 2016.
【136】
Keywords:
新規性・差分
概要
ストリートビューと航空画像を対応づける問題.この問題
に対して建物の窓など少ないながらも特徴的な部分をマッ
チングすることにより解決する.エッジやカラー,テクス
チャや変形のコストを用いることによりマッチング精度を
向上した.NYUやSF, Romaのデータにおいて高い精度を
実現した.
・Street-viewとAerial-view間の誤
差関数を決定したことが新規性と
して挙げられる.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr
_2016/papers/Wolff_Regularity-
Driven_Facade_Matching_CVPR_2016_
paper.pdf
R. T. Pramod, S. P. Arun, “Do Computational Models Differ Systematically From Human Object
Perception?”, in CVPR, 2016.
【137】
Keywords:
新規性・差分
概要
人間に近い物体検出手法を実現する.人間の視覚機能(特
徴抽出)と画像特徴の比較を行うことで,人間とコンピュ
ータの違いを見分けるというものである.これに対して形
状が微小に異なる物体やその位置を変更して反応時間を計
測した.
・形状変化を微小に含むデータセットを用いて人間の反応
速度やコンピュータによる物体検出を行うことで,両者の
違いを明らかにする.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Pramod
_Do_Computational_Models_CVPR_2016_paper.pdf
Wei Wang, Zhen Cui, Yan Yan, Jiashi Feng, Shuicheng Yan, Xianbo Shu, Nicu Sebe, “Recurrent Face
Aging”, in CVPR, 2016.
【138】
Keywords: Face Aging, Recurrent Neural Networks
新規性・差分
概要
人物の顔の経年変化を表現した.年齢のグループを9つに分類,
データを男女で合計6,000のペアを用意した.データに対しては半
自動で年齢のアノテーションを行っている.Interpolation +
Eigenfaces & OpticalFlowにより顔特徴量を取っている.さらに,
経年による人物の顔変化においてもデータから表現する.
・RNNを用いて,特徴を効果的に捉えたうえでRNNアー
キテクチャを設定した.
・中間顔 (intermediate faces)を生成することができるよう
になった
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Wang_
Recurrent_Face_Aging_CVPR_2016_paper.pdf
Justus Thies, Michael Zollhofer, Marc Stamminger, Christian Theobalt, Matthias Niessner, “Face2Face:
Real-Time Face Capture and Reenactment of RGB Videos”, in CVPR, 2016.
【139】
Keywords: Face Reenactment with Single View
新規性・差分
概要
顔特徴点の追跡により,顔から別の顔への投影を実施する.
Parametric Face Modelでは個人差や顔の表情,その他の
動作や照明などによる顔の見え方を推定するためのモデル
とする.ReenactmentではRGBの画像から各種パラメータ
や特徴点追跡の結果を,ターゲット側でも各種パラメータ
を推定しておく.
・単眼カメラからの入力で,顔の置き換えをリアルタイム
で実行できるようにした.これにより,ウェブカメラのみ
で顔の置き換えができるようになったと言える.
・顔の微小な特徴点追跡を行うことができた
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Thies_
Face2Face_Real-Time_Face_CVPR_2016_paper.pdf
Sergey Tulyakov, Xavier Alameda-Pineda, Elisa Ricci, Lijun Yin, Jeffrey F. Cohn, Nicu Nebe, “Self-
Adaptive Matrix Completion for Heart Rate Estimation”, in CVPR, 2016.
【140】
Keywords: Heart Rate Estimation
新規性・差分
概要
画像ベースの顔認識から心拍を推定するという研究.66の
顔特徴追跡から顔画像を切り抜き,領域を変換する.Low-
rank 行列やマスク画像の推定を行うSelf-adaptive Matrix
Completionを用いて推定した.
・顔画像から心拍数を推定するという新しい試みに対して
成功と言える
・入力は顔画像で十分であるということを実証した
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Tulyako
v_Self-Adaptive_Matrix_Completion_CVPR_2016_paper.pdf
Leon A. Gatys, Alexander S. Ecker, Matthias Bethge, “Image Style Transfer Using Convolutional Neural
Networks”, in CVPR, 2016.
【141】
Keywords: Style Transfer, CNN
新規性・差分
概要
CNNを用いた画風の変換に関する研究.CNNに含まれる
特徴マップのマルチスケール性をうまく利用して詳細な領
域においても画風の変換を実行する.風景画を変換して,
絵画に若干近づけたあとに変換を行うことで,どのような
画像でも自然な画風変換が可能になる.
・生成モデルを改良して,画像の表現方法を拡張した
・画風変換のための制御しやすくなり,より人間のイメー
ジに沿うような画像変換とした
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Gatys_I
mage_Style_Transfer_CVPR_2016_paper.pdf
Arthur Daniel Costea, Sergiu Nedevschi, “Semantic Channels for Fast Pedestrian Detection”, in CVPR,
2016.
【142】
Keywords: Semantic Segmentation, ICF, Pedestrian Detection
新規性・差分
概要
セマンティックセグメンテーションをチャネルとして用い
た歩行者検出.直感的にはIntegral Channel Features (ICF)
のチャネルを増やしていると捉えることができる.セマン
ティックセグメンテーションは人や建物,路面などが含ま
れる.
・セマンティックセグメンテーションの結果をチャネルと
してICFを取得
・チャネルに対するフィルタを複数階層に渡り抽出できる
ようになった
・ICFの高速な処理(15fps)のみならず,Caltech Pedestrian
にてエラー率16.83%という数字を記録した
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Costea
_Semantic_Channels_for_CVPR_2016_paper.pdf
Hakan Bilen, Basura Fernando, Efstratios Gavves, Andrea Vedaldi, Stephen Gould, “Dynamic image
networks for action recognition”, in CVPR, 2016.
【143】
Keywords:
新規性・差分
概要
ビデオフレームを一枚の画像に投影した状態でCNNにより
時系列特徴を抽出をして行動認識を実行する.Two-
Stream CNNのTemporal-Streamの改良である.時系列画
像よりランク学習を行い”Dynamic Image”を生成する.
Rank pooling layerやさらには学習の効率化のための近似
により時系列のまとまりを効果的に学習し,行動認識に効
果的な特徴を捉える.
・Rank Pooling Layerやその近似手法により誤差逆伝播法
を用いた際にも高速かつ高精度な時系列表現を実現.
・行動認識に対して効果的な性能を発揮した.
Links
論文
https://www.robots.ox.ac.uk/~vgg/publications/2016/Bilen16a/b
ilen16a.pdf
Vignesh Ramanathan, Jonathan Huang, Sami Abu-Le-Hajia, Alexander Gorban, Kevin Murphy, Li Fei-
Fei, “Detecting Events and Key Actors in Multi-person Videos”, in CVPR, 2016.
【144】
Keywords: Event Recognition, Action Recognition
新規性・差分
概要
(学習のアノテーションなしに)Key-Actorを見つけることでより複雑
な行動認識やイベント認識を効果的に行う.Basketball Databaseを
公開し,複雑なイベント認識を行う際にいかに自動で重要人物を捉
えるかを提案する.学習では人物のアノテーションがないので,人
物の検出と追跡を行い,イベント認識と同時に重要人物の学習を行
い,テスト時にはKey-Actorとそのラベルを返却する.重要人物やイ
ベントの学習とテストにはBidirectional LSTMを用いた.
・アノテーションがない状態から人物の検出や追跡を行い,
イベント認識のラベルから重要人物の学習を行うことがで
きる.
・Bidirectional LSTM (BLSTM)をイベント認識のタスクに
用いることができた
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Raman
athan_Detecting_Events_and_CVPR_2016_paper.pdf
プロジェクト http://basketballattention.appspot.com/
データセット
http://basketballattention.appspot.com/bball_dataset_april_4.cs
v
, “Regularizing Long Short Term Memory With 3D Human Skeleton Sequences for Action Recognition”,
in CVPR, 2016.
【145】
Keywords: LSTM, RNN, 3D Pose
新規性・差分
概要
カメラのビューポイントやモーションの分散が大きい大規
模データベースからの行動認識を扱う.モデルにはLSTM
が用いられており,2層構成でエンコードとデコードを行
う.クラスの損失やクラス内分散に関する拘束を与えて学
習を実行する.
・現在の行動モデルはCNNをより深くかつデータを大規模
にしているが,次元人体姿勢を推定して学習することでそ
れらの問題を解決した.特徴空間も低次元である.
・低次元ながら大規模データベースに対しても一定の精度
を達成した.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2
016/papers/Mahasseni_Regularizing_Long
_Short_CVPR_2016_paper.pdf
Zuxuan Wu, Yanwei Fu, Yu-Gang Jiang, Leonid Sigal, “Harnessing Object and Scene Semantics for
Large-Scale Video Understanding”, in CVPR, 2016.
【146】
Keywords:
新規性・差分
概要
イベント認識を行う際に物体やシーンの認識を行う.
20,954クラスの物体情報や205のシーン情報を追加して時
系列画像からの認識を行う.また,Zero-shot Learningの
枠組みも使用している.
・イベントの認識に対して物体やシーンの認識による表現
を取り入れた
・行動認識やイベント認識の大規模データベースに対して
も効果的に働くことが判明した
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Wu_Ha
rnessing_Object_and_CVPR_2016_paper.pdf
プロジェクト
https://www.disneyresearch.com/publication/harnessing-
object-and-scene-semantics/
Oscar Koller, Hermann Ney, Richard Bowden, “Deep Hand: How to Train a CNN on 1 Million Hand
Images When Your Data is Continuous and Weakly Supervised”, in CVPR, 2016.
【147】
Keywords:
新規性・差分
概要
弱教師あり学習のための大規模な手のデータセットを公開
した.アプリケーションとしては手話認識のためである.
ImageNetにて学習済みのモデルを用いて,GoogLeNetを
学習する.
・とにかくデータを大量に用意して,データを対応づける
という手法をとる
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Koller_
Deep_Hand_How_CVPR_2016_paper.pdf
YouTube https://www.youtube.com/watch?v=TPXzc3GKF9c
Edward Johns, Stefan Leutenegger, Andrew J. Davidson, “Pairwise Decomposition of Image Sequences
for Active Multi-View Recognition”, in CVPR, 2016.
【148】
Keywords:
新規性・差分
概要
ロボットの認識のためにカメラビュー推定とアクティブな
物体認識を実現するという研究.ModelNetと呼ばれる,
3D ShapeNetを参考にした手法を考える.提案手法ではペ
アとなる画像の回転を推定するネットワークを構築してカ
メラビューを推定する.
・回転を計算するネットワークを構築することで
全ての領域にて
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Johns_
Pairwise_Decomposition_of_CVPR_2016_paper.pdf
Yixin Zhu, Chenfanfu Jiang, Yibiao Zhao, “Inferring Force and Learning Human Utilities From Videos”, in
CVPR, 2016.
【149】
Keywords:
新規性・差分
概要
ビデオの入力と3次元の環境から体内の力のかかり具合を
推定するという問題設定である.人物の姿勢や屋内環境に
おける家具や床の状況から重心のみならず,体重の分散や
体における力のかかり具合を推定する.
・体内の力のかかり具合を推定するという新しい
問題設定にチャレンジした
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Zhu_Inf
erring_Forces_and_CVPR_2016_paper.pdf
, “Robust Multi-Body Feature Tracker: A Segmentation-Free Approach”, in CVPR, 2016.
【150】
Keywords:
新規性・差分
概要
位置付け的にはKLTの改良で,例えば車両の複数領域にお
いて特徴点追跡を行う.提案手法ではセグメンテーション
フリーなエピポーラ拘束に従った手法を用いる.
・トラジェクトリ推定のエラーの低減に貢献し,KITTIな
ど車両のデータにも用いることで効果を発揮することが判
明した
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Ji_Rob
ust_Multi-Body_Feature_CVPR_2016_paper.pdf
Shoou-I Yu, Deyu Meng, Wangmeng Zuo, Alexander Hauptmann, “The Solution Path Algorithm for
Identity-Aware Multi-Object Tracking”, in CVPR, 2016.
【151】
Keywords:
新規性・差分
概要
IDが紐付けされた複数物体追跡の問題を扱う.オクルージ
ョンのあとに交差した状況においてもラベル付けを謝るこ
となく追跡することができるようになる.
・新規にL0ノルムをベースとした最適化手法を提案した
・
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Yu_The
_Solution_Path_CVPR_2016_paper.pdf
Yi-Hsuan Tsai, Ming-Hsuan Yang, Michael J. Black, “Video Segmentation via Object Flow”, in CVPR,
2016.
【152】
Keywords: Video Segmentation, Segmentation, Optical Flow
新規性・差分
概要
オプティカフロー画像を初期値として,動的物体のセグメ
ンテーションを行う.オプティカルフローの動的物体を捉
える性質と,セグメンテーションの境界を切り分ける性質
を利用して高精度なビデオに対するセグメンテーションを
実行する.デンスオプティカフローと,セグメンテーショ
ン手法はSuperpixelとグラフィカルモデルを適用した.
・セグメンテーションとオプティカフローのメリットを組
み合わせた手法により動的な画像においても高精度にセグ
メンテーションが行えている.
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Tsai_Vi
deo_Segmentation_via_CVPR_2016_paper.pdf
Hua Zhang, Si Liu, Changqing Zhang, Wenqi Ren, Rui Wang, Xiaochun Cao, “SketchNet: Sketch
Classification with Web Images”, in CVPR, 2016.
【153】
Keywords: image retrieval, Sketck Retrieval
新規性・差分
概要
スケッチ画像中の特有の構造を検出する弱教師あり学習手法の提案.
SketchNetを名付けたCNNより,スケッチ画像と実画像との間に存
在する潜在的構造を学習する.TUBerlinスケッチベンチマークでの
実験において,SketchNetは有効性を実証し,スケッチ画像分類にお
いて深層特徴は最先端手法を超える実質的な改善をもたらすことを
示した.
SketchNetというスケッチ画像によるweb上の類似画像検索
のためのCNNアーキテクチャを提案している.TUBerlinスケ
ッチベンチマークにおいて,従来手法の性能を上回った.
Links Paper : http://www.cv-
foundation.org/openaccess/content_cvpr_2016/papers/Zhang_SketchNet_Sk
etch_Classification_CVPR_2016_paper.pdf
(上図)SketchNetを用いたスケッチ画像のカテゴリ予測:初めに学習
済みのSketchNetより予測カテゴリを初期化する.スケッチ画像と
テスト画像のペアをテストペアとしてSketchNetに入力,テストペ
アごとの予測結果をマージして,最終的なカテゴリを識別する.
(下図)SketchNetのアーキテクチャ: R-netにはテスト画像(正例)と,
テスト画像とは異なるカテゴリの画像(負例)を入力,S-netにはスケ
ッチ画像を入力する.Netごとの出力を図のようにマージしC-netに
ご質問・コメント等ありましたら,cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします.

More Related Content

PDF
【2016.07】cvpaper.challenge2016
PDF
【2017.06】 cvpaper.challenge 2017
PDF
cvpaper.challenge@CVPR2015(Dataset)
PDF
CVPR 2016 まとめ v1
PDF
【2015.08】(2/5)cvpaper.challenge@CVPR2015
PDF
ECCV 2016 まとめ
PDF
【2016.05】cvpaper.challenge2016
PDF
【2016.01】(3/3)cvpaper.challenge2016
【2016.07】cvpaper.challenge2016
【2017.06】 cvpaper.challenge 2017
cvpaper.challenge@CVPR2015(Dataset)
CVPR 2016 まとめ v1
【2015.08】(2/5)cvpaper.challenge@CVPR2015
ECCV 2016 まとめ
【2016.05】cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016

What's hot (20)

PDF
【2016.09】cvpaper.challenge2016
PDF
【2015.07】(1/2)cvpaper.challenge@CVPR2015
PDF
【2016.08】cvpaper.challenge2016
PDF
cvpaper.challenge@CVPR2015(Attribute)
PDF
【2016.02】cvpaper.challenge2016
PDF
【2016.01】(2/3)cvpaper.challenge2016
PDF
【2017.02】cvpaper.challenge2017
PDF
【2016.01】(1/3)cvpaper.challenge2016
PDF
【2017.05】 cvpaper.challenge 2017
PDF
【2017.03】cvpaper.challenge2017
PPTX
【2016.12】cvpaper.challenge2016
PDF
【2015.08】(3/5)cvpaper.challenge@CVPR2015
PDF
【2016.03】cvpaper.challenge2016
PDF
【SSII2015】人を観る技術の先端的研究
PDF
【2015.07】(2/2)cvpaper.challenge@CVPR2015
PDF
【2015.08】(4/5)cvpaper.challenge@CVPR2015
PDF
cvpaper.challenge@CVPR2015(Action Recognition)
PDF
【2015.05】cvpaper.challenge@CVPR2015
PDF
cvpaper.challenge@CVPR2015(Re-ID)
PDF
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
【2016.09】cvpaper.challenge2016
【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2016.08】cvpaper.challenge2016
cvpaper.challenge@CVPR2015(Attribute)
【2016.02】cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016
【2017.02】cvpaper.challenge2017
【2016.01】(1/3)cvpaper.challenge2016
【2017.05】 cvpaper.challenge 2017
【2017.03】cvpaper.challenge2017
【2016.12】cvpaper.challenge2016
【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2016.03】cvpaper.challenge2016
【SSII2015】人を観る技術の先端的研究
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015
cvpaper.challenge@CVPR2015(Action Recognition)
【2015.05】cvpaper.challenge@CVPR2015
cvpaper.challenge@CVPR2015(Re-ID)
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
Ad

Viewers also liked (17)

PDF
Deep Residual Learning (ILSVRC2015 winner)
PDF
【2016.10】cvpaper.challenge2016
PDF
TensorFlowによるCNNアーキテクチャ構築
PDF
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
PDF
『バックドア基準の入門』@統数研研究集会
PDF
【2015.06】cvpaper.challenge@CVPR2015
PDF
優れた問いを見つける(中京大学講演)
PDF
【2015.08】(5/5)cvpaper.challenge@CVPR2015
PDF
【2016.04】cvpaper.challenge2016
PDF
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)
PPTX
контролінг інвестиційних проектів
PPTX
El arte de hacer un pitch
PDF
Windows環境でのMySQL
PPTX
Ramorum2016 final
PDF
Go 1.8 'new' networking features
PPTX
Millennials on coffee
PPTX
La innovación en la educación superior
Deep Residual Learning (ILSVRC2015 winner)
【2016.10】cvpaper.challenge2016
TensorFlowによるCNNアーキテクチャ構築
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
『バックドア基準の入門』@統数研研究集会
【2015.06】cvpaper.challenge@CVPR2015
優れた問いを見つける(中京大学講演)
【2015.08】(5/5)cvpaper.challenge@CVPR2015
【2016.04】cvpaper.challenge2016
cvpaper.challenge -サーベイの共有と可能性について- (画像応用技術専門委員会研究会 2016年7月)
контролінг інвестиційних проектів
El arte de hacer un pitch
Windows環境でのMySQL
Ramorum2016 final
Go 1.8 'new' networking features
Millennials on coffee
La innovación en la educación superior
Ad

Similar to 【2016.06】cvpaper.challenge2016 (20)

PDF
【チュートリアル】コンピュータビジョンによる動画認識 v2
PDF
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
PDF
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
PDF
【2017.04】cvpaper.challenge 2017
PDF
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
PDF
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
PPTX
CVPR 2017 報告
PDF
文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification
PDF
文献紹介:Video Transformer Network
PDF
【チュートリアル】コンピュータビジョンによる動画認識
PDF
【2017.01】cvpaper.challenge2017
PDF
動画認識における代表的なモデル・データセット(メタサーベイ)
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
PDF
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
PDF
【メタサーベイ】Video Transformer
PDF
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
PDF
論文紹介:Tracking Anything with Decoupled Video Segmentation
PPTX
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
PPTX
20190831 3 d_inaba_final
PDF
Towards Performant Video Recognition
【チュートリアル】コンピュータビジョンによる動画認識 v2
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
【2017.04】cvpaper.challenge 2017
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
CVPR 2017 報告
文献紹介:VideoMix: Rethinking Data Augmentation for Video Classification
文献紹介:Video Transformer Network
【チュートリアル】コンピュータビジョンによる動画認識
【2017.01】cvpaper.challenge2017
動画認識における代表的なモデル・データセット(メタサーベイ)
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
【メタサーベイ】Video Transformer
【学会聴講報告】CVPR2024からみるVision最先端トレンド / CVPR2024 report
論文紹介:Tracking Anything with Decoupled Video Segmentation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
20190831 3 d_inaba_final
Towards Performant Video Recognition

【2016.06】cvpaper.challenge2016

  • 2. Alexander G. Anderson, Cory P. Berg, Daniel P. Mossing, Bruno A. Olshusen, “DeepMoive: Using Optical Flow and Deep Neural Networks to Stylize Movies”, in arXiv pre-print 1605.08153, 2016. 【1】 Keywords: Art Style, 新規性・差分 概要 自然画像と任意のArt Styleの合成は様々な研究が行われて おり,例えばGatysらの画像合成などが提案されている(下 記リンク; コードあり).本論文では動画に対して画像合成 を行う手法を提案する.オプティカルフロー画像を生成し てより安定した動画のStylizeを実現した. ・オプティカルフローを用いることで画風転移の最適化の ための初期化にする.動画に対する画像合成には動作特徴 を用いることが重要であると位置付けた. Links 論文 http://arxiv.org/pdf/1605.08153v1.pdf プロジェクト http://alexanderganderson.github.io/ ビデオ https://www.youtube.com/watch?v=nOrXeFBkP04&feature=yo utu.be A neural algorithm of artistic style http://gitxiv.com/posts/jG46ukGod8R7Rdtud/a-neural- algorithm-of-artistic-style
  • 3. Gustav Larsson, Michael Maire, Gregory Shakharovich, “FractalNet: Ultra-Deep Neural Networks without Residuals”, in arXiv pre-print 1605.07648, 2016. 【2】 Keywords: FractalNet, Ultra-Deep, CNN 新規性・差分 概要 残差最適化を用いるResidual Network (ResNet)を用いるこ となく畳み込みネットワークの構造を深くした.フラクタ ルのように再帰的な畳み込みの構造を積み上げることで非 常に効果的に精度を向上させることが可能.Drop-pathに より畳み込みのパスの組み合わせを増やすことで表現能力 を向上. ・ResNetを用いることなく,極めて構造を深くかつ畳み 込みによる勾配を損なわずに精度を向上させることができ ることを示した. ・フラクタル構造による畳み込みの性質を明らかにして, それまでのCNNとの違いを検証した. ・CIFAR-100にてstate-of-the-artな22.85%のエラー率を記 録した. Links 論文 http://arxiv.org/pdf/1605.07648v1.pdf プロジェクト Fractal architecture: (左) フラクタル構造を模した単純な畳み込みの拡張.緑は 特徴マップの統合を示す.(右)フラクタルによる再帰的な拡張.幅Cを広げるた びに畳み込み数が2^C-1個に増加する.(C=4の場合には15の畳み込み) プーリン グと畳み込みを積み上げることで特徴を強固にする.
  • 4. Yan Huang, Wei Wang, Liang Wang, “Bidirectional Recurrent Convolutional Networks for Multi-Frame Super-Resolution”, in NIPS, 2015. 【3】 Keywords: Bidirectional Recurrent Convolutional Networks, Multi-Frame Super-Resolution 新規性・差分 手法 結果概要 映像の高解像度化を効率的に行うbidirectional recurrent convolutional network(BRCN)の提案 cheapな畳み込み演算により,低い計算コストかつ高速に 処理が可能である. BRCNのフレームワークを右図に示す. 右図に示すように,本フレームワークはforward recurrent convolutional sub-networkとbackward recurrent convolutional sub-networkから構成され,これにより時間 的な依存関係をモデル化する. 各ネットワークは,入力層,第1中間層,第2中間層,出力 層で構成されており,Feedforward Convolution, Recurrent Convolution, Conditional Convolutionを行い,次に層に接 続する. (1)処理にかかった時間の 比較結果 (2)高解像処理の比較結果 処理時間,処理結果いづ れにおいても優れた結果 がでていることがわかる Links 論文 http://papers.nips.cc/paper/5778- bidirectional-recurrent-convolutional- networks-for-multi-frame-super- (1) (2)
  • 5. Zhicheng Yan, Hao Zhang, Robinson Piramuthu, Vignesh Jagadeesh, Dennis DeCoste, Wei Di, Yizhou Yu, “HD-CNN: Hierarchical Deep Convolutional Neural Networks for Large Scale Visual Recognition”, in ICCV, 2015. 【4】 Keywords: Hierarchical Deep Convolutional Neural Networks, Visual Recognition, 新規性・差分 手法 結果 概要 2レベルのカテゴリ階層にCNNを組み込んだ階層型CNN, Hierarchical Deep Convolutional Neural Networks(HDCNN)の提案 HDCNNは粗いカテゴリ分類器と詳細なカテゴリ分類器を 持つことで,詳細なカテゴリ分類に特化させている 以下にHCCNNのアーキテクチャを示す. 本アーキテクチャは, Shared layers, Coarse component independent layers, Fine component independent layers Fk or Fi, Probabilistic averaging layerの5つの層を持つ. 入力された画像は共有層に送られ,その後Coarse component とFine componentの学習を行う層に送られる. Probabilistic averaging layerで各層からの予測結果を出力する (1)CIFAR100 datasetでのエラー率 (2)CIFAR100 と ImageNet datasetsで のエラー率,メモリ使用率,処理時間 の比較 (3)ImageNet validation setでのエラー 率の比較 Links 論文 http://www.cv- foundation.org/openaccess/content_iccv_2015/papers/Yan_HD- (1) (2) (3)
  • 6. Ke Zhang, Wei-Lun Chao, Fei Sha, Kristen Grauman, “Video Summarization with Long Short-term Memory”, in arXiv pre-print 1605.08110, 2016. 【5】 Keywords: Video Summarization 新規性・差分 概要 Recurrent Neural Netowork (RNN)のなかでも,Long-Short Term Memory (LSTM)を用いてビデオサマライズ (Video Summarization)を実行する.中でも特に,Domain Adaptation が改善に有効であることが判明した.ここでは人物の意図をダ イレクトに要約に反映できることから,教師ありのビデオ要約 に取り組み,高度な意味理解に務める. ・ビデオ要約に対してLSTMを適用し,ビデオに対して順 方向/逆方向の解析を行った. ・SumMeやTVSumといったビデオ要約のデータに対して 高い精度を実現.教師なし(Unsupervised Learning)よりも 高度にビデオを理解して要約した. Links 論文 http://arxiv.org/pdf/1605.08110v1.pdf 著者 http://www-scf.usc.edu/~weilunc/index.html 提案のvsLong-Short Term Memory (LSTM).LSTMは2階層に積 み上げられており,片方がビデオの進行に対して順方向,もう 一方が逆方向の流れを把握する.
  • 7. Michael Gygli, Helmut Grabner, Hayko Riemenshneider, Luc Van Gool, “Creating Summaries from User Videos”, in ECCV, 2014. 【6】 Keywords: Video Summarization, SumMe Dataset 新規性・差分 データセットSumMe 概要 画像要約(Video Summarization)における体系化されたデー タセット”SumMe”を提案した論文.データセットはプロジ ェクトページよりダウンロード可能.手法としては画像全 体のアピアランスから動画を荒くセグメント化 (Superframe Segmentation)し,注目度 (顕著性,顔/人物/, 物体等)から詳細にビデオ要約する. ・Superframe Segmentと注目度による手法を提案した. 有効な順に,Attention, Colorful, Landmark, Edges, Person Areaということが判明した.F値をper-frame (0.234), per-segment (0.170)ごとに算出した. データセットは25の動画から構成され,ビデオの平均時間は2分40秒である. ビデオの流れは5~15%になるように人により要約され,人物間による整合性 (Human Consistency)も考慮してビデオ要約を実行した. Links 論文 https://people.ee.ethz.ch/~gyglim/vsum/GygliECCV14_vsum.p df プロジェクト https://people.ee.ethz.ch/~gyglim/vsum/
  • 8. Waqas Sultani, Mubarak Shah, “Automatic Action Annotation in Weakly Labeled Videos”, in arXiv pre- print 1605.08125, 2016. 【7】 Keywords: Action Annotation, Weakly Labeled Video 新規性・差分 概要 ビデオに対する自動ラベル付けの論文.行動の候補領域を 抽出し,3次元のMarkov Random Fields (3D-MRF)により 候補をランク付けして領域数を限定する.モーション特徴 はImproved Dense Trajectories (IDT)により取得. ・行動における自動ラベル付けを提案 ・表は各データ(UCF sports, THUMOS’13, JHMDB)に対す るラベル付けの結果である Links 論文 http://arxiv.org/pdf/1605.08125v1.pdf プロジェクト
  • 9. F. Perazzi, J. Pont-Tuset, B. McWilliams, L. Van Gool, M. Gross, A. Sorkine-Hornung, “A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation”, in CVPR, 2016. 【8】 Keywords: Segmentation 新規性・差分 概要 前景と背景を高精度に分離するセグメンテーション問題 のための密なラベル付けデータセットであるDAVIS (Densely Annotated VIdeo Segmentation)を提供する. ・問題は従来のセグメンテーションにのっとっているが, とにかく密に(Dense)することで現在までの手法がどの程 度できているかを再度認識した. ・従来手法としては教師なし学習による手法 (NLC, FST, SAL, TRC, MSG, CVOS),半教師あり学習による手法 (SEA, JMP, TSP, HVS)をDAVISデータセットに対して実 装し,表のような精度を得た. Links 論文 https://graphics.ethz.ch/~perazzif/davis/file s/davis.pdf プロジェクト https://graphics.ethz.ch/~perazzif/davis/ind ex.html
  • 10. Ira Kemelmacher-Shlizerman, Steve Seitz, Daniel Miller, Evan Brossard, “The MegaFace Benchmark: 1 Million Faces for Recognition at Scale”, in CVPR, 2016. 【9】 Keywords: MegaFace, Dataset, Benchmark 新規性・差分 ベンチマーク概要 1,000,000の顔画像が含まれる顔認識ベンチマークである MegaFaceを提供.実に690,572人の顔画像が含まれ,顔 検出や顔認証の精度を競う. ・顔認証の分野において比類なき人数のビッグデータを提 供した ・GoogleのFaceNet [CVPR15]の拡張版である,FaceNet- v8が約75%の精度で同データに対して処理した (NTechLABのFaceNLargeでも約73%を実現).右にCMC 曲線も示されている. ベンチマークはFlickerを用いて収集され,その下図は写真数が1,027,060枚 (100万超),サブジェクト(Unique Faceと呼ばれる)が690,572人であった. 下図は顔やその検出枠である. Links 論文 https://arxiv.org/pdf/1512.00596v1.pdf プロジェクト http://megaface.cs.washington.edu/ NTechLAB http://ntechlab.com/ FaceNet論文 https://arxiv.org/abs/1503.03832 OpenFace https://cmusatyalab.github.io/openface/
  • 11. Yuncheng Li, Yale Song, Liangliang Cao, Joel Tetreault, “TGIF: A New Dataset and Benchmark on Animated GIF Description”, in CVPR, 2016. 【10】 Keywords: Animated GIF, Image Description 新規性・差分 概要 GIFアニメに対する画像説明文の研究.Tumblrからの100K を超えるGIFアニメと,120Kに及ぶキャプションの収集を クラウドソーシングにより行い,データセットについても 提案する. ・GIFアニメに対する画像説明文を提案する.さらにはデ ータの収集についても解決する ・GIFアニメを多数含んだデータセットを提供し,さらに は同データセットを現在の画像説明文のデータと比較した ・作成したデータセットに対して,既存のビデオ説明文の 手法を実装して比較した. ・コードをGitHubにて一般公開した ・下の表は提案のTGIFデータセットを用い,動画説明文 にDomain Adaptationした際の結果である.データ数が確 保できている分,精度が向上したものと思われる. Links 論文 http://arxiv.org/pdf/1604.02748v2.pdf プロジェクト http://raingo.github.io/TGIF-Release/ コード https://github.com/raingo/TGIF-Release
  • 12. Jiale Cao, Yanwei Pang, Xuelong Li, “Pedestrian Detection Inspired by Appearance Constancy and Shape Symmetry”, in CVPR, 2016. 【11】 Keywords: Pedestrian Detection 新規性・差分 概要 アピアランスの恒常性や形状の対称性を用いることでハン ドクラフト特徴でも歩行者検出の精度がまだ向上すること を示した.2種のNon-Neighboring Features (NNF)である Side-Inner Difference Features (SIDF)やSymmetrical Similarity Features (SSF)を提案する. ・ハンドクラフト特徴で非常に高いパフォーマンスを実現 した. ・SIDFは前景と背景を効果的に分離することができるだ けでなく,人物の外輪郭や内側に存在する輪郭を分離する ことができる.さらにSSFは人物の対称性を考慮した記述 によりSIDFにない表現を実装可能である. Links 論文 https://arxiv.org/pdf/1511.08058v1.pdf プロジェクト SIDFのパッチペア例.SIDFやSSFの識別器には異なる深さのDecision Treesを組み合わせた.これにより,SIDFやSSFの有効な空間を探索す ることができ,歩行者と背景を高度に分離可能である. 提案のNNNF-L4はCaltech Pedestrian Detection Benchmarkに おいて16.84%のエラー率であった. CheckerBoard特徴(CVPR2015)から 1.63%向上した.
  • 13. Spyros Gidaris, Nikos Komodakis, “Object detection via a multi-region & semantic segmentation-aware CNN model”, in ICCV, 2015. 【12】 Keywords: Object Detection, multi-region, semantic segmentation, CNN 新規性・差分 概要 ・セマンティックセグメンテーションを利用した物体認識 システムであるmulti-region deep convolutional neural networkの提案. ・PASCAL VOC2007 では78.2%, PASCAL VOC2012 で は73.9%となった. ・物体の検出候補のボックスのスコアリングと,CNNの回 帰モデルによるボックス位置の精緻化を行う. Links 論文 http://www.cv- foundation.org/openaccess/content_iccv_2015/papers/Gidaris_Object_Det ection_via_ICCV_2015_paper.pdf 入力画像をActivation Maps Module に送り畳み込む.同時に検 出候補域を切り抜いたイメージを作成.切り抜いたイメージ と入力画層の活性化イメージをCropping Layerに送信する.各 部位ごとにRegion Adaptation Moduleでプーリング処理を行い, Concatenate Layerで結合する.
  • 14. Songfan Yang, Deva Ramanan, “Multi-scale recognition with DAG-CNNs”, in ICCV, 2015. 【13】 Keywords: Multi-scale Recognition, directed acyclic graph CNN 新規性・差分 概要 画像分類に向けたマルチスケールのCNNの提案 MIT67 では23.9%, Scene15 datasetsでは9.5%エラー率 を軽減させた. ・現在のアプローチは,単一の出力層から特徴を抽出して いる.→本提案手法はマルチスケール ・複数の層から特徴を抽出することで,高,中,低レベル の特徴について同時に推定することが可能 ・粗な分類と詳細な分類のタスク間で効率的に情報を共有 Links 論文 http://www.cv- foundation.org/openaccess/content_iccv_2015/papers/Yang_Multi- Scale_Recognition_With_ICCV_2015_paper.pdf スライドhttp://www.slideshare.net/hirokiyamamoto969/multi-scale- recognition-with-dagcnns マルチスケールDAG-CNNのアーキテクチャは,オリジナルのCNNにマル チスケールの出力コネクトを追加することで構築される. 具体的には,各スケール毎に,空間的平均プーリングを行い,ユニットノ ルムで正規化する.その後fully-connected (FC) layerの計算を行い,K個の 出力のクラスに向けた予測スコアを加算する.
  • 15. Nikolaus Correll, Kostas E. Bekris, Dmitry Berenson, Oliver Brock, Albert Causo, Kris Hauser, Kei Okada, Alberto Rodriguez, Joseph M. Romano, Peter R. Wurman, “Lessons from the Amazon Picking Challenge”, in arXiv pre-print 1601.05484, 2016. 【14】 Keywords: Amazon Picking Challenge 新規性・差分 概要 Amzon Picking Challengeはロボットによる倉庫の自動化を図る大規 模プロジェクト&コンペティションである.2015年のICRAワークシ ョップとして26チームが参加し,Perception, Motion Planning, Grasping, Robotic Systemなどの総合力を競った.ルールは,(簡単 には)完全自動のロボットが20分の間に12の目的アイテムを棚から取 り出す.目的アイテムは右の図に示す.アイテムによっては加点・ 減点の度合いが異なり,その総合点で順位を競う. ・日本から参加したトップはC^2M (中部大学藤吉・山下 研・中京大学橋本研・三菱電機)が最高の5位であった ・優勝はRBOであり,スコアは148.Single Arm,グリッ プは吸引式,アームに取り付けた3次元画像,レーザスキ ャン,物体検出や3次元バウンディングボックスの知覚特 徴はカラー・エッジ・高さなどにより行い把持のために用 いた、モーションプラニングは行っていなかった Links 論文 http://arxiv.org/pdf/1601.05484v2.pdf プロジェクト http://amazonpickingchallenge.org/ Gigazine http://gigazine.net/news/20150602-amazon-picking- challenge-winner/ 藤吉研APC http://mprg.jp/research/amazon_picking_challenge_j
  • 16. Sergey Levine, Peter Pastor, Alex Krizhevsky, Deidre Quillen, “Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection”, in arXiv pre-print 1603.02199, 2016. 【15】 Keywords: Hand-Eye Camera, Robot Grasping 新規性・差分 概要 ロボットの把持を自動で学習するための方法を提案した. Google Research Blogで一時期話題になったロボットハン ドの研究である(ビデオあり).14台のロボットがパラメー タを共有し,CNNのモデルを学習し,把持の成功/失敗と その際の環境を学習する.ロボットの稼働時間が合計 3,000時間,800,000回の試行を経て深層学習を学習. ・ロボットの把持に対して自動で学習を行うことでロボッ トが賢くなる. ・データがなくても,トライ&エラーの繰り返しによりロ ボットが自ら学習する. ・パラメータを共有して学習,とにかく試行を繰り返して ロボットの知覚を強化する Links 論文 http://arxiv.org/pdf/1603.02199v3.pdf ビデオ https://www.youtube.com/watch?v=iaF43Ze1oeI Google Research Blog http://googleresearch.blogspot.jp/2016/03/deep-learning-for- robots-learning-from.html
  • 17. Min Bai, Wenjie Luo, Kaustav Kundu, Raquel Urtasun, “Deep Semantic Matching for Optical Flow”, in arXiv pre-print 1604.01827, 2016. 【16】 Keywords: Deep Optical Flow, Semantic Matchiing 新規性・差分 概要 FlowNet (http://arxiv.org/abs/1504.06852)の改良版である という立ち位置である.FlowNetでは静的なカメラからの 密なオプティカルフロー推定であったが,自動運転のよう な動的な環境においてもオプティカルフローが行えるよに なっただけでなく,さらにインスタンスレベルでのデンス オプティカルフローを抽出可能とした. ・インスタンス(物体)ごとに別のフローであることを認識 することができる.さらに,動的な環境においてもデンス オプティカルフローを抽出する. ・フローのマッチングを自動で行うことができるCNNを提 案した. ・自動運転を目的としたKITTI2015データセットに対して 実験を行い,良好な性能を示した. Links 論文 http://arxiv.org/pdf/1604.01827v1.pdf プロジェクト 提案のアーキテクチャ.Siamese CNNを参考に構造化されたネットワークは, フレーム間の変位を学習する.異なるサイズの畳み込みマップがブロックマ ッチングのように働く?
  • 18. Phillip Isola, Daniel Zoran, Dilip Krishnan, Edward H. Adelson, “Learning Visual Groups from Co- occurrences in Space and Time”, in ICLR, 2016. 【17】 Keywords: Unsupervised Patch Learning, Siamese Network 新規性・差分 概要 2枚の画像を入力し,畳み込みにより類似度計算や次元削 減などを行うSiamese Networkを用いて,パッチの類似度 を教師なし学習.画像内の小さなパッチであっても物体検 出的に類似領域を計算可能である. さらに,パッチAとBを学習することにより,類似するパ ッチCを予測するというものであるP(C=1|A, B). ・パッチの評価だけでなく,似たようなパッチを予測する 働きを持たせることにある. ・Object Discovery [Rubinstein+, CVPR13] (http://people.csail.mit.edu/mrub/ObjectDiscovery/)のよう な側面も持つと考えられる. Links 論文 http://arxiv.org/pdf/1511.06811.pdf 著者 http://web.mit.edu/phillipi/
  • 19. Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralbe, Raquel Urtasun, Sanja Fidler, “MovieQA: Understanding Stories in Movies through Question-Answering”, in CVPR, 2016. 【18】 Keywords: Movie Question Answering 新規性・差分 概要 動画像に対する質問回答文 (Movie Question Answering; MovieQA)のデータを提供する.右図はデータや質問回答 の例を示す.データセットには400動画に対して15,000の 回答文が対応付けられる.質問にはWho, What, Whom, Whyなどで始まる文が含まれ,それに回答するために画像 や時系列情報を解析するタスクを与える. ・質問回答のみでなく,動画に対する回答文の問題を提供 し,そのデータセットも公開した. ・表は各QAデータセットの比較である.ひとつの動画に 対して複数の回答文が含まれていることが非常に大きな進 捗である.動画説明文からさらに先に踏み込めている. Links 論文 http://www.cs.toronto.edu/~urt asun/publications/Tapaswi_et al_cvpr16.pdf プロジェクト http://movieqa.cs.toronto.edu/ home/ 動画像に対応するストーリーとその質問 文を入れて,Softmax層ではその回答文を Ground Truthとしてネットワークを構成 する.
  • 20. Xiaozhi Chen, Kaustav Kundu, Ziyu Zhang, Huimin Ma, Sanja Fidler, Raquel Urtasun, “Monocular 3D Object Detection for Autonomous Driving”, in CVPR, 2016. 【19】 Keywords: Autonomous Driving, 3D Object Detection 新規性・差分 概要 自動運転の文脈で単眼カメラからの3次元物体検出を実行 する.物体検出の枠組みは通常の物体検出の流れを参考に していて,候補領域の抽出から物体の識別を行う.本論文 が着目した範囲はエネルギーの最小化により3次元空間内 の候補領域を生成することである.さらに,物体検出をす るのみならず,3次元情報を用いることで,インスタンス レベルのセグメンテーションを獲得できる. ・自動運転の文脈で用いることができるよう,動的なカメ ラからでも3次元の物体候補領域が抽出できる.3次元情報 はGround-Planeの事前情報により得ている. Links 論文 http://www.cs.toronto.edu/~urtasun/ publications/chen_etal_cvpr16.pdf Raquel Urtasun http://www.cs.toronto.edu/~urtasun/ 3次元物体候補領域の手がかりとなるのはクラス情報(SegNetを使用),インスタ ンス情報,外輪郭,物体形状,コンテキスト,それからGround-Planeを事前情 報とした一情報である.これらの最適化問題によりパラメータを決定する.最 終的な結果はNMSを通り抜けたのちに得られる.識別はFast R-CNNを用いる. 各手法(SS,EdgeBox)と比較した際 のAverage Precision KITTI Object Detection Benchmark のAverage Precisionの比較
  • 21. Wenjie Luo, Alexander G. Schwing, Raquel Urtasun, “Efficient Deep Learning for Stereo Matching”, in CVPR, 2016. 【20】 Keywords: Siamese Network, Stereo Matching 新規性・差分 概要 Siamese Networkを用いた計算において,非常に高速なパ ッチ間の類似度計算を実装し,ステレオマッチングの処理 速度を1秒以内にした.さらに,複数の可能な限りの視差 を複数クラス分類の枠組みで扱えるようにした. ・2015年くらいからCNN/Siamese Netを用いたステレオ マッチングの研究は [Zbontar+, JMLR2016]や[Zagoruyko+, CVPR2015]が挙げられるが,非常に正確かつ1.0second以 内での処理を目指した(ただし,GPUは使う). ・従来のSiamese Networkと異なるのは,統合レイヤ (Concatenation layer)と以下に続くレイヤ(Subsequent layer)を単一の積を計算するレイヤ(Single Product layer)に 置き換えたことである. Links 論文 http://www.cs.toronto.edu/~urtasun/publications/luo_etal_cvpr1 6.pdf プロジェクト http://www.cs.toronto.edu/deepLowLevelVision/ コード https://bitbucket.org/saakuraa/cvpr16_stereo_public 図は左右の視差画像を示し, 畳み込みが行われたあと,積 を計算して相関を計算する. 表はKITTI2012ベンチマーク のステレオタスクに対して行 った評価.距離推定の誤差や 速度を高速化した.
  • 22. Limin Wang, Zhe Wang, Sheng Guo, Yu Qiao, “Better Exploiting OS-CNNs for Better Event Recognition in Images”, in ICCVW, 2015. 【21】 Keywords: Two-Stream ConvNet, Event Recognition 新規性・差分 概要 Two-Stream ConvNetをイベント認識用のデータで学習し 直したObject-Scene Convolutional Neural Network (OS- CNN)の提案.Two-StreamはそれぞれImageNetで学習済 みの物体情報やPlaces205で学習済みのシーン情報を用い て,さらにタスクに合わせてFine-tuningを行う.全結合層 の出力をそのまま用いるだけでなく,CNN特徴をFisher Vectorにてエンコードして用い,識別器を構成することで 精度を向上させた. ・オリジナルのTwo-StreamではSoftmax層の出力をSVM により学習していたが,ここでは値を蓄積して用いること でラベルを推定する. ・CNNを特徴抽出器として扱い,局所的かつ大域的な特徴 の評価を行う. ・ICCVWorkshopとして開催されたChaLearn LAPにて3位 を獲得した. Links 論文 http://www.cv- foundation.org//openaccess/content_iccv_2015_workshops/w1 1/papers/Wang_Better_Exploiting_OS- CNNs_ICCV_2015_paper.pdf
  • 23. Edgar Simo-Serra, Hiroshi Ishikawa, “Fashion Style in 128 Floats: Joint Ranking and Classification using Weak Data for Feature Extraction”, in CVPR, 2016. 【22】 Keywords: 新規性・差分 概要 多様なファッション画像を効果的に分類できる特徴量抽出 手法を提案する.提案手法では,ランキングロスとクロス エントロピーロスを合わせて畳込みニューラルネットワー クを学習させることで,ノイズが多く含まれるようなデー タセットに対しても良好に特徴抽出が行えることを示した. (下記プロジェクトページより参照) ・インターネットから得られる画像はラベルが十分につい ているわけではないので,弱教師あり学習の枠組みであつ かえるようにする. ・コンパクトかつ識別性に優れたCNN特徴量を,比較的少 ないデータから調整する. ・ユークリッド空間にて距離計算できるようにする.さら に下図のように可視化することでファッションの解析を効 果的に行う. Links 論文 http://hi.cs.waseda.ac.jp/~esimo/publications/SimoSerraCVPR 2016.pdf プロジェクト http://hi.cs.waseda.ac.jp/~esimo/ja/research/stylenet/
  • 24. David F. Fouhey, Abhinav Gupta, Andrew Zisserman, “3D Shape Attributes”, in CVPR, 2016. 【23】 Keywords: 3D object recognitiion, Shape Attributes 新規性・差分 概要 3次元物体のアトリビュートを単一の画像から推定する. 見えの情報からいかに3次元の形状を説明する属性を推定 するかが非常に困難な課題である.本論文では,3次元形 状のアトリビュートをCurvature Properties, Contact Properties, Volumetric Propertiesの3分類,12種類に分け て分類する.データはFlickrにより収集され,アノテーシ ョンした後にラベル付けのミスを修正した. ・複雑な3次元形状(例:上図)のアトリビュートを推定する CNNアーキテクチャを構築した. ・大規模データベースを提供する.DBには143,000枚の画 像と属性情報が含まれている. ・アトリビュートの推定が72.3%と非常に高精度. Links 論文 http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/f ouhey16.pdf プロジェクト http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/ 提案のMulti-task Network.最 終層が分岐しており,12種の アトリビュート推定器と形状 を説明する特徴に分類されて いる.
  • 25. Zhile Ren, Erik B. Sudderth, “Three-Dimensional Object Detection and Layout Prediction using Clouds of Oriented Gradients”, in CVPR, 2016. (oral) 【24】 Keywords: Clouds of Oriented Gradients (COG), 3D Object Recognition 新規性・差分 概要 3次元物体認識のための特徴量Cloud of Oriented Gradients (COG)を提案する.COGはHOGのように,点群データか ら効果的に勾配を抽出するための特徴である.論文中では Manhattan Voxelも提案し,3次元の部屋のレイアウト推定 にも貢献する.6x6x6voxelsのグリッド単位で点群の密度 や画像を参照した際の勾配を計算. ・シンプルなアイディア(HOGのように点群の密度や勾配 を扱うCOGを提案)を三次元物体認識に対して適用し,高 水準の成果をあげた. ・Manhattan Voxelも提案し,3次元のレイアウト推定に適 用した.空間を72分割(72dimsとして表現)する. Links 論文 https://cs.brown.edu/people/sudderth/papers/cvpr16cog.pdf 著者 http://cs.brown.edu/people/ren/ プロジェクト
  • 26. Timo Hackel, Jan D. Wegner, Konrad Schindler, “Contour detection in unstructured 3D point clouds”, in CVPR, 2016. (oral) 【25】 Keywords: Point Cloud Contour Detection 新規性・差分 概要 屋外環境における3次元点群から外輪郭を抽出するための 手法を提案する.2次元画像でなく,3次元点群情報から外 輪郭を復元するのは探索する空間が膨大で非常に難しい問 題であるが,(1) 各点群の「外輪郭」尤度を計算 (2) 候補 同士をつないでいく (3) MRFの推定により接続/除去を行い, 点群における外輪郭推定. ・3次元点群からの「外輪郭尤度」の計算である.幾何的 に隣接する点群との関係性を評価してスコアを算出する. この尤度に従って,次の行程で詳細に外輪郭を評価. ・点群同士をつないでエッジに,さらにMRFによる推定で 外輪郭を推定する. ・Precision-Recall curveを下図に示した.パラメータ調整 やCanny 3Dとの比較が含まれる. Links 論文 https://www.ethz.ch/content/dam/ethz/special- interest/baug/igp/photogrammetry-remote-sensing- dam/documents/pdf/timo-jan-cvpr2016.pdf 著者 http://www.prs.igp.ethz.ch/content/specialinterest/baug/institute -igp/photogrammetry-and-remote- sensing/en/group/people/person-detail.html?persid=186562
  • 27. Limin Wang, Yu Qiao, Xiaoou Tang, “Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors”, in CVPR, 2015. 【26】 Keywords: TDD; Trajectory-Pooled Deep-Convolutional Descriptors, IDT, Two-stream ConvNet 新規性・差分 手法 結果 概要 単純にはImproved Dense Trajectories (IDT)とTwo-Stream Convolutional Networks (Two-Stream ConvNet)の統合によ り,ハンドクラフト特徴や深層学習の特徴jマップを統合す る.IDTの密な動線上を用い,Two-Streamの畳み込みマッ プにアクセスして特徴抽出,Fisher Vectorsによるエンコ ーディングを実行. ・ハンドクラフトな手法とディープ特徴のいい面を効果的 に統合した.行動認識においては,動的な部位と学習によ り得られた特徴を融合してFisher Vectorsにより円コーデ ィンするとさらなる精度の向上につながった. ・UCF101にて91.5%,HMDB51にて65.9%とそれまでの state-of-the-artを大きく塗り替えた. IDTの動線抽出方法とTwo-streamの特徴マップを適用する.IDTはそのまま の仕組みを用いて,CNNの特徴マップにアクセスする際には拡大・縮小を考 慮.Two-streamのSpatialNetはImageNetで学習済みのモデルを初期パラメー タとして,UCF101により学習,その後HMDB51にて転移学習.動画像を通 してエンコーディングを実行するため,ひとつの動画に対してひとつのベク トルを算出. Fisher VectorsによるエンコーディングのPCA 圧縮は64次元,特徴マップのChannel正規化や Spatio-temporal正規化は両者ともに統合した 方が精度が向上することが判明した.畳み込 みマップについて,Conv-3, 4, 5はReLU Layer を,Conv-1, 2についてはMax-Pool Layerを参 照する.結果,UCF101にて91.5%,HMDB51 にて65.9%を達成. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Wang_ Action_Recognition_With_2015_CVPR_paper.pdf プロジェクト https://wanglimin.github.io/tdd/index.html 参考 (VGG_CNN_M_2048) https://gist.github.com/ksimonyan/78047f3591446d1d7b91#file -readme-md)
  • 28. Tsung-Yu Lin, Aruni RoyChowdhury, Subhransu Maji, “Bilinear CNN Models for Fine-grained Visual Recognition”, in ICCV, 2015. 【27】 Keywords: Bilinear CNN, Fine-grained Visual Recognition 新規性・差分 概要 Fine-grainedな認識に向けた,2つの特徴抽出器で構成され る双線形CNNアーキテクチャの提案 ・局所特徴のペアの対応をモデル化することでfine- grainedな分類に特に有用 ・勾配の計算を簡素化し,画像のラベルのみでend-to-end な学習が可能 Links 論文 http://arxiv.org/pdf/1504.07889v3.pdf code https://bitbucket.org/tsungyu/bcnn.git プロジェクト http://vis-www.cs.umass.edu/bcnn/ テスト時,入力画像は2つのCNN層A, Bに入力される. 出力画像の各位置で外積を使用して乗算し,プーリングを行う. 分類の予測を得るために,分類層へ入力する.
  • 29. Hao Su, Charles R. Qi, Yangyan Li, Leonidas J. Guibas, “Render for CNN: Viewpoint Estimation in Images Using CNNs Trained with Rendered 3D Model Views”, in ICCV, 2015. 【28】 Keywords: CNN, View Point Estimation, Rendered 3D Model Views, 新規性・差分 概要 2D画像から視点推定を行うCNNフレームワークの提案 PASCAL 3D+ benchmarkにおいてアウトパフォームな結 果を示した. レンダリングベースの合成画像とCNNを組み合わせること で,トレーニングデータの不足と能力不足に対処 Links 論文 http://arxiv.org/pdf/1505.05641v1 プロジェクト https://shapenet.cs.stanford.edu/projects/RenderForCNN/ code https://github.com/shapenet/RenderForCNN 大規模な3Dモデルのコレクションからレンダリングされた画像を 実際の画像上に合成することでトレーニング画像を生成. CNNは,Ground Truthの視点画像を学習. テストデータとして実際の画像を利用して,視点の推定を行う. CNNのトレーニング合成画像生成のパイプライン
  • 30. Khurram Soomro, Haroon Idrees, Mubarak Shah, “Action Localization in Videos through Context Walk”, in ICCV, 2015. 【29】 Keywords: Action Localization, Context Walk 新規性・差分 概要 ・動画内の行動のローカライズを効率的に行うために,前 後のコンテキストの関係を学習するアプローチの提案 ・いくつかのデータセットでの検証の結果,提案手法は行 動のローカライズに非常に有用であると結論づけた. ・行動の境界を維持し,問題の複雑さを軽減するために動 画をsupervoxelに分割する. ・コンテキストの関係はトレーニング中に学習 ・テスト動画を入力すると,supervoxelをランダムに選択 し,前回の行動に属するsupervoxelの確率を推定,行動提 案を行う. ・SVMを用いて行動提案から行動を決定する. Links 論文 http://www.cs.ucf.edu/~haroon/Soomro_ICC V2015.pdf 動画 https://www.youtube.com/watch?v=Mbs5oR Wpwus
  • 31. Ye Luo, Loong-Fah Cheong, An Tran, “Actionness-assisted Recognition of Actions”, in ICCV, 2015. 【30】 Keywords: Actionness, Action Proposal, Action Recognition 新規性・差分 概要 動画像から行動候補領域(Action Proposal, Actionness)を抽 出する論文.行動の候補領域を(1) 急な変化 (Sudden Changes),(2) 同期した動き (Synchronized Motions), (3) 繰り返し動作 (Repetitive Motions),(4) 顕著な領域 (Salient Region)の情報から推定する. ・行動に対する候補領域を複数情報から推定する枠組みを 提案した.急な変化・同期・繰り返し動作・顕著領域から 情報を抽出. Links 論文 http://www.cv- foundation.org/openaccess/content_iccv_2015/papers/Luo_Act ionness-Assisted_Recognition_of_ICCV_2015_paper.pdf ビデオ https://www.youtube.com/watch?v=rKPBWE4kMNE コード https://github.com/antran89/BoW_frameworks
  • 32. Hang Su, Subhransu Maji, Evangelos Kalogerakis, Erik Learned-Miller, “Multi-view Convolutional Neural Networks for 3D Shape Recognition”, in ICCV, 2015. 【31】 Keywords: Multi-view CNN, 3D Shape Recognition 新規性・差分 概要 ・2次元の画像から,3次元の物体認識を行うCNNアーキ テクチャの提案. ・単一の視点からの物体認識において,最先端の3次元形 状記述子よりも遥かに高い精度を実現.また複数視点から の認識での場合,さらに高精度. ・3次元の物体を複数視点から撮影・レンダリングしCNN に学習(右図上にパイプラインを示す) ・コンパクトな記述子かつ高精度 Links 論文 http://arxiv.org/pdf/1505.00880v3 プロジェクトhttp://vis-www.cs.umass.edu/mvcnn/ 動画 http://vis- www.cs.umass.edu/mvcnn/docs/1694_video.mp4 Code https://github.com/suhangpro/mvcnn
  • 33. Zezhou Cheng, Qingxiong Yang, Bin Sheng, “Deep Colorization”, in ICCV, 2015. 【32】 Keywords: Colorization 新規性・差分 概要 グレースケール画像をカラー付きの画像に変換する問題を 扱う.参照する画像からグレースケール/カラーの対応を 学習し,グレースケール画像の入力からカラー付き画像を 復元する.深層畳み込みネットによりカラー画像を復元. ・ディープラーニングベースのグレースケール画像に対す る色付けを著者らの調査において初めて行い,実験により 有効性を示した. ・Low-levelからHigh-levelまでの画像特徴により,情報量 を多く含みかつ識別性に優れた表現を実行.グレースケー ルの色付けに特化した深層学習のモデルを構築した. Links 論文 http://www.cv- foundation.org/openaccess/content_iccv_2015/papers/Cheng_ Deep_Colorization_ICCV_2015_paper.pdf プロジェクト
  • 34. Richard Zhang, Philip Isola, Alexei A. Efros, “Colorful Image Colorization”, in arXiv pre-print 1603.08511, 2016. 【33】 Keywords: Colorization 新規性・差分 概要 深層学習を用いたグレースケール画像の色付けに関する論 文である.ここでは従来より綺麗な色付けを目的としてお り,畳み込みやDeep Supervisionを含む構造により色付け を行う.評価は”Colorization Turing Test”により行い,実 に20%もの人をだますことができたと主張. ・学習画像を100万枚以上とデータ量を増やすことで可視 化性に優れたカラー画像を生成可能とした. ・多様性に富んでいる色の表現ができるようになった Links 論文 http://arxiv.org/pdf/1603.08511.pdf プロジェクト http://richzhang.github.io/colorization/ コード https://github.com/richzhang/colorization 複数回畳み込みとReLUを繰り返し,それぞれバッチ正規 化を行う.このカラーリングの構造に対してプーリング層 は含まれてない.DeepSupervisionを6,7,8層に採用してお り,学習による損失をすでに中間層にて学習する.損失関 数はCross-Entropy Lossにより計算する.最初の5層は VGGNetにより初期値を定め,プーリング層を除去したも のである.
  • 35. Satoshi Iizuka, Edgar Simo-Serra, Hiroshi Ishikawa, “Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification”, in SIGGRAPH, 2016. 【34】 Keywords: Colorization, CNN 概要 本研究では,ディープネットワークを用いて白黒画像をカラー画像に自動 変換する手法を提案する.提案手法では,画像の大域特徴と局所特徴を考 慮した新たな 畳込みネットワークモデルを用いることで,画像全体の構造 を考慮した自然な色付けを行うことができる.提案モデルにおいて,大域 特徴は画像全体から抽出さ れ,局所特徴はより小さな画像領域から計算さ れる.これらの特徴は“結合レイヤ”によって一つに統合され,色付けネット ワークに入力される.このモデル構 造は入力画像のサイズが固定されず, どんなサイズの画像でも入力として用いることができる.また,モデルの 学習のために既存の大規模な画像分類のデータ セットを利用し,それぞれ の画像の色とラベルを同時に学習に用いることで,効果的に大域特徴を学 習できるようにしている.提案手法により,100年前の白 黒写真など,様々 な画像において自然な色付けを実現できる.色付けの結果はユーザテスト によって評価し,約90%の色付け結果が自然であるという回答が得られた. (プロジェクトページより) Links 論文 http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/data/colorization_sig2016.pdf プロジェクト http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/ja/ プロジェクト2 http://hi.cs.waseda.ac.jp/~esimo/ja/research/colorization/ コード https://github.com/satoshiiizuka/siggraph2016_colorization
  • 36. Xiao Chu, Wanli Ouyang, Wei Yang, Xiaogang Wang, “Multi-task Recurrent Neural Network for Immediacy Prediction”, in ICCV, 2015. 【35】 Keywords: Multi-task Recurrent Neural Network, Immediacy Predction 新規性・差分 概要 ・静止画から人物のインタラクションの予測に向けた Multi-task Recurrent Neural Networkの提案. ・人物のインタラクションおよび骨格情報の注釈が付けら れた大規模なデータセットの提案 Multi-task Recurrent Neural Networkは,提案したデータセ ットのインタラクション・骨格情報から,予測したデータ 間の関係を学習する Links 論文 http://www.cv- foundation.org/openaccess/content_iccv_2015/papers/Chu_M ulti-Task_Recurrent_Neural_ICCV_2015_paper.pdf プロジェクト http://www.ee.cuhk.edu.hk/~xgwang/projectpage_immediacy.h tml
  • 37. Mark Yatskar, Luke Zettlemoyer, Ali Farhadi, “Situation Recognition: Visual Semantic Role Labeling for Image Understanding”, in CVPR, 2016. 【36】 Keywords: Role Recognition, Image Understanding, Situation Recognition, FrameNet, Dataset 新規性・差分 概要 画像内の詳細な理解を行う.画像に写っているメインの 物体(人,動物など)やその目的,道具,場所などの関係 性や役割なども推定可能とする.500の行動,1700の役 割(Role),11,000の物体,125,000枚の画像を含む大規 模データを構成した.この大規模なデータはFrameNet と呼ぶこととする. ・画像の総合的な理解のために大規模なデータセットであ るFrameNetを提案した. ・各行動・役割・物体・道具などの要素を含んでいる非常 に困難な課題を提供した. ・VGG-CRFの枠組みで識別を実行したが,思うように精 度が出ていない.この問題はこれから取り扱われるべき課 題である. Links 論文 http://homes.cs.washington.edu/~my89/publications/situations. pdf プロジェクト https://homes.cs.washington.edu/~ali/index.html
  • 38. Xiaolong Wang, Ali Farhadi, Abhinav Gupta, “Actions ~ Transformation”, in CVPR, 2016. 【37】 Keywords: Action Recognition, Precondition 新規性・差分 概要 人物行動が生起する前の事前状態をプレコンディション (Precondition)と定義して,「起こりそう」な行動を前の状 態から察知,また生起した際の認識精度を高めるというア イディア.Siamese Networkを用いてこのアイディアを実 装した.今回はUCF101やHMDB51などマルチメディアの データセットに対して実験を行った. ・行動認識の新しい表現方法を提案 ・UCF101にてstate-of-the-artな精度を達成した.UCF101 に対して92.4%,HMDBに対して63.4%という数字を実現 した. ・Cross-Categoryのタスクを提案し,ACT datasetを提案 した.同データには43の行動ラベル,16グループ,11234 の動画が含まれる. Links 論文 http://www.cs.cmu.edu/~xiaolonw/papers/precondition_effect_ CVPR16.pdf プロジェクト
  • 39. Iro Laina, Christian Rupprecht, Visileios Belagiannis, Federico Tombari, Nassir Navab, “Deeper Depth Prediction with Fully Convolutional Residual Networks”, in arXiv pre-print 1606.00373, 2016. 【38】 Keywords: Deep Residual Network (ResNet), CRF, Depth Prediction 新規性・差分 概要 単眼のRGB画像を入力して距離画像を復元する問題.正解値が距 離画像であり,Deep Residual Networks (ResNet)を用いることで 高精度な推定をするが,提案手法ではさらに少ないパラメータで 深い構造を持つように設計された.パラメータ数を抑えたことで 学習画像の枚数を抑えることにも成功.損失関数にはHuber lossを 用いるのが良いことがわかった.Un-poolingやUp-projectionも採用 して,畳み込みマップから距離画像への対応を図った. ・Up-projectionを導入して畳み込みマップから解像度をあげて距 離画像へと対応する.パラメータは1.0/3.5に減少し,少ない学習 サンプルでも距離画像が復元できるようになった. ・高精度に距離画像を推定できるようになったことで単眼RGB画 像からのSLAMを実行した. Links 論文 https://arxiv.org/pdf/1606.00373v1.pdf プロジェクト
  • 40. Limin Wang, Sheng Guo, Weilin Huang, Yu Qiao, “Places205-VGGNet Models for Scene Recognition”, in arXiv pre-print 1508.01667, 2015. 【39】 Keywords: Scene Understanding, Places205, Places365 新規性・差分 概要 シーン認識のチャレンジであるPlaces205 datasetを用いた コンペティションの手法について提案.VGGNetをベース としたアーキテクチャは11, 13, 16, 19層を提案した. Places205のみならず,MIT67やSUN397といったシーン 認識のデータベースに対しても処理を行った. ・Places205にて学習済みのVGGNetモデルを提供した. GitHubにコードをアップロードした. ・全チーム中2位の精度を達成した.(表参照) ・MIT67やSUN397においてもCNN off-the-shelfの要領で 転移学習による認識が可能になった. Links 論文 http://wanglimin.github.io/papers/WangGHQ15.pdf プロジェクト https://github.com/wanglimin/Places205- VGGNet Scene205 dataset http://places.csail.mit.edu/downloadData.html
  • 41. Xiaojiang Peng, Limin Wang, Zhuowei Cai, Yu Qiao, Qiang Peng, “Hybrid Super Vector with Improved Dense Trajectories for Action Recognition”, in ICCV Workshop on THUMOS, 2013. 【40】 Keywords: Action Recognition, THUMOS 新規性・差分 概要 中国のShenzhen Institutes of Advanced Technology (SIAT)の行動認識コンペティションの提案手法の紹介. ベースアルゴリズムにはImproved Dense Trajectories (IDT)を使用するが,ふたつのSuper VectorであるFisher Vectors (FV)やVector of Locally Aggregated Descriptors (VLAD)を組み合わせたHybrid Super Vector (HSV)を用い ることで高精度な認識を達成した. ・THUMOSのデータであるUCF101に対して87.46%を記 録し,全体の4位になった. ・実験の結果,特徴量の前処理(コードワードや正規化)や ベクトルの正規化が非常に重要であることが判明した. ・IDTのベクトルの次元数を落とした方がよかった (20, 48, 54, 48, 48 for traj, hog, hof, mbhx, mbhy) その後, whiteningをする. ・VLFeatを用いて,GMMベース(クラスタリング数 512) のFV,K-meansベース(クラスタリング数512)のVLADを 実装した. ・FVやVLADを連結ベクトルとしてSVMにて学習.One - vs - allのSVM識別器を採用し,Cの値は100に設定. Links 論文 http://wanglimin.github.io/contests/PengWCQ_Thumos13.pdf プロジェクト http://crcv.ucf.edu/ICCV13-Action-Workshop/
  • 42. Limin Wang, Zhe Wang, Yuanjun Xiong, Yu Qiao, “CUHK&SIAT Submission for THUMOS15 Action Recognition Challenge”, in CVPR Workshop on THUMOS, 2015. 【41】 Keywords: THUMOS 2015, Action Recognition 新規性・差分 概要 Chinese University of Hong Kong (CUHK) & Shenzhen Institutes of Advanced Technology (SIAT)の行動認識コ ンペティションTHUMOS2015の提案手法.ベースアル ゴリズムにはTwo-Stream ConvNet [Simonyan+, ICLR15]を用いているが,さらにネットワーク構造を深 くして特徴抽出を高度にする.さらにImproved Trajectoriesを用いて畳み込み特徴マップにアクセス, Fisher Vectorによるエンコーディングを行う. ・THUMOS15のデータセットにて68%を記録し,全体 の5位となった(右表). ・Two-StreamにてClarifai Net (AlexNetベース)や GoogLeNet, VGGNetを実装して比較したところ,空間 的にも時間的にもVGGNetが有効であることが判明した. Two-streamの空間・時間統合,さらにIDT+FVとも統合 することで68.1%にまで向上する. Links 論文 http://storage.googleapis.com/www.thumos.info/thumos15_not ebooks/TH15_CUHK&SIAT.pdf プロジェクト http://www.thumos.info/ スライド http://wanglimin.github.io/contests/WangWXQ_Thumos15_slid e.pdf
  • 43. Bhrooz Mahasseni, Sinisa Todorovic, “Regularizing Long Short Term Memory with 3D Human-Skeleton Sequences for Action Recognition”, in CVPR, 2016. 【42】 Keywords: Skeleton, Action Recognition 新規性・差分 概要 大規模データにおいて,映像からスケルトンを推定し,さらには行動のラ ベルを学習して行動認識を実行する.CNNの特徴量を取り出し, Recurrent Neural Networks (RNN)のうちLong Short Term Memory (LSTM)を学習する. 右図の右は教師なし学習による3次元スケルトン,v_t, s_tはそれぞれ時間t におけるビデオやスケルトンを示す.r_vやr_sはLSTMやencoder LSTMの 出力を表す.y_tやy_tのハットは正解値と推定値を示し,この両者により 損失を計算する.hはそれぞれLSTMの隠れ層を示す. ・LSTMの学習について新しい枠組みを提案した.通常はdropoutやweight decayにより最適化を行うが,ここではLSTMやeLSTMの誤差をユークリ ッド距離で計測しパラメータを調整する.誤差伝播の仕組みは Backpropagation through Time (BPTT)により操作した. ・提案手法はUCF101に対して85.7%,HMDB51に対して55.3%を達成し, 通常のLSTMのみではそれぞれ75.2%(UCF101),43.1%(HMDB)だったの で提案法の効果を示した. Links 論文 http://web.engr.oregonstate.edu/~sinisa/research/publications/ cvpr16_multimodal.pdf プロジェクト
  • 44. Rasmus Rothe, Radu Timofte, Luc Van Gool, “Some like it hot - visual guidance for preference prediction”, in CVPR, 2016. 【43】 Keywords: Autonomous Rating 新規性・差分 概要 Collaborative Filteringを用いた評価付けに関する論文.論 文中ではデートサイトから抽出した評価付けデータを元に している.写真や評価付けを行ったアクセス履歴をもとに して結果を推定するパラメータを学習する. ・デートサイトから取得したプロフィールやアクセス履歴, 評価などによるデータベースを作成した. ・視覚的な情報を含めたCollaborative Filteringによる解析 手法を提案. ・最終的には画像のみからの効果的な回帰モデルを提案. 評価値を画像のみから推定できるようになった. Links 論文 http://arxiv.org/pdf/1510.07867v2.pdf プロジェクト http://howhot.io/ 著者 http://www.vision.ee.ethz.ch/~timofter/
  • 45. Shengfeng He, Rynson W.H. Lau, Qingxiong Yang, “Exemplar-Driven Top-Down Saliency Detection via Deep Association”, in CVPR, 2016. 【44】 Keywords: Top-down saliency 新規性・差分 概要 Knowledgeベースの顕著性マップ生成方法を探る.具体的 には,カテゴライズされたラベルを探索して顕著性マップ を生成.このトップダウンのカテゴリ数は最大で4に設定 する.モデルは2段階のCNNモデルを構築し,参照物体 (exemplar)とクエリ(query)となる物体内の関連付けを行い, 顕著性マップを生成.最初のステージでは物体間の関連付 け,次のステージでは背景との分離を試みた. ・対象となる物体をあらかじめ決めておく知識ベースの顕 著性マップの提案と,2段階のCNNモデルを提案. ・Multi-exemplar ベースのCNNモデルを用いて初めて顕著 性推定を実施した. Links 論文 http://www.shengfenghe.com/uploads/ 1/5/1/3/15132160/exemplar_saliency.p df プロジェクト(コードあり) http://www.shengfenghe.com/exemplar saliency.html
  • 46. Fang Wang, Le Kang, Yi Li, “Sketch-based 3D Shape Retrieval using Convolutional Neural Networks”, in CVPR, 2015. 【45】 Keywords: 3D Object Retrieval, Sketck Retrieval 新規性・差分 概要 2次元スケッチをクエリ(入力)として,3次元モデルから対 象物体を検索する.検索するサーバ側には3次元モデルを 保持しておき,”best view”な2次元投影画像でマッチング する.マッチングのモデルにはSiamese Convolutional Networkを用い,片方にはスケッチを,もう一方には3次元 モデルを2次元に投影したモデルを用いる. ・スケッチを入力とした特徴表現方法としてSiamese Networkを学習する.さらには,3次元モデルからの2次元 投影を実行してベストビューを選択する問題を解いた. ・2つのSiamese Networkを適用し,Cross-Domainでの類 似度を計測した. ・2つのデータセットにおいてstate-of-the-artな精度を達成 した. Links 論文 http://users.cecs.anu.edu.au/~yili/publication/cvpr-2015-sbsr.pdf プロジェクト http://users.cecs.anu.edu.au/~yili/cnnsbsr/ コード http://users.cecs.anu.edu.au/~yili/cnnsbsr/software/sbsr-cvpr15.zip GitXiv http://gitxiv.com/posts/L63GfSyXG4yneS5mt/sketch-based-3d- shape-retrieval-using-convolutional-neural
  • 47. Nicholas Rhinehart, Kris M. Kitani, “Learning Action Maps of Large Environments via First-Person Vision ”, in CVPR, 2016. 【46】 Keywords: Human Centric Functional Description, Action Map 新規性・差分 概要 3次元のマップと人物の行動の履歴から行動するマップ (Action Map)を空間中に生成する.一人称視点からの入力 からStructure-from-Motionにより3次元のマップを生成し て人物の行動する領域に対して履歴を投影する. ・従来では三人称視点からの解析がメインであった Function認識を,一人称視点から実現した. ・Action MapというConceptiualな問題を提起した. Links 論文 http://www.cs.cmu.edu/~kkitani/pdf/RK-CVPR16.pdf プロジェクト http://www.cs.cmu.edu/~nrhineha/slides/action_maps_2016_3 0min.pdf
  • 48. Huan Fu, Chaofui Wang, Dacheng Tao, Michael J. Black, “Occlusion Boundary Detection via Deep Exploration of Context”, in CVPR, 2016. 【47】 Keywords: Occlusion Boundary Detection 新規性・差分 概要 オクルージョンしている境界領域を識別するために(i) 位置 のパターン (local contextual correlations in pixel labeling) や(ii) 周囲環境の観測 (contextual correlations between the labeling of pixels),(iii) 時系列的なコンテキスト (temporal contextual information in video sequences)を解析する.手 法としてはConvolutional Neural Networks (CNN)や Conditional Random Fields (CRF)を用いる. ・CMUのベンチマークにおいて従来のstate-of-the-artな結 果を超越した.数値的には0.62から0.71に向上した. ・ Links 論文 http://files.is.tue.mpg.de/black/papers/FuCVPR2016.pdf プロジェクト https://ps.is.tuebingen.mpg.de/publications/fu- cvpr-2016
  • 49. Wei Shen, Kai Zhao, Yuan Jiang, Yan Wang, Zhijiang Zhang, Xiang Bai, “Object Skeleton Extraction in Natural Images by Fusing Scale-associated Deep Side Outputs”, in CVPR, 2016. 【48】 Keywords: DeepSkeleton 新規性・差分 概要 一般的な物体のスケルトン推定を実行するアルゴリズムを 提案.人物に限らずあらゆる物体や動物の姿勢を推定する (上図)ために,Oxford VGG-16をベースとする(下図)が, 畳み込みの行程によって推定する部位を分け,最後に結果 を統合する.各層により得意・不得意を分別して学習する. 雰囲気的には与えられた前景の細線化を行うものである. ・煩雑な自然シーンにおいても物体のスケルトンを効果的 に推定することができる. ・色やテクスチャ,形状やサイズなどの多様性を許容して 物体のスケルトンを推定. Links 論文 http://arxiv.org/pdf/1603.09446v2.pdf コード https://github.com/zeakey/DeepSkeleton
  • 50. Keywords: 新規性・差分 手法 結果 概要 物体のスケッチ画像を詳細物体分類に用 いた手法(fine-graind sketch-based image retieval) 1.物体とフリーハンドの画像を対応し たデータセットを作成 2. 抽象的な画像を用いた画像識別を行っ た データセット例を以下に示す.また識別 を行うアーキテクチャを以下に示す.デ ータオーギュメンテーションはStroke Removalを用いて一枚の画像から9枚に 拡張する 物体分類の従来手法 と比較し識別性能が 向上した. Qian Yu+, “Sketch Me That Shoe”, in CVPR, 2016. 【49】 Links https://qmro.qmul.ac.uk/xmlui/bitstream/handle/123456789/11936/Hosped ales%20Sketch%20Me%20That%20Shoe%202016%20Published.pdf?seq uence=1
  • 51. Keywords: 新規性・差分 手法 結果 概要 CNNアーキテクチャとRNNを組み合わ せマルチクラス分類をend-to-endで行う フレームワークを提案した論文 end-to-endでマルチクラス分類を行う コンパクトかつ強力な多クラス分類モデ ルの設計 implicit attention mechanismは画像中の 小さな物体認識に有効であることも示さ れた. フレームワークの概略図を以下に示す.フレームワークは、ラベル の依存関係だけでなく、画像ラベルの関係を特徴づけるために、 joint embedding spaceを学習する.赤と青のドットはそれぞれ、ラ ベルと画像であり、黒丸は画像およびRNN出力の合計です。RNNは、 順次、joint embedding spaceにラベル埋め込みをリンクすることに より、関節埋め込み空間でのラベルの共起の依存関係をモデル化. 各時間ステップで、ラベルの確率は、画像の埋め込みおよびRNN出 力に基づいて計算される.以下にRNNのネットワーク構成図を示す. NUS-WIDEとMSCOCOで実験従来の手 法より良い結果となった Jiang Wang+, “CNN-RNN: A Unified Framework for Multi-label Image Classification”, in CVPR, 2016. 【50】 Links PDF
  • 52. David Ferstl, Christian Reinbacher. , Gernot Riegler, Matthias Rüther, Horst Bischof, “Learning Depth Calibration of Time-of-Flight Cameras”, in BMVC, 2015. 【51】 Keywords: Time of Flight (ToF), depth sensor, RGB-D camera, Random Regression Forest (RRF) 新規性・差分 手法概要 ・ToF型カメラは奥行きマップの品質はシーン内のシーンジ オメトリと表面特性に依存している.また,RGB-Dカメラ は以下の2つの誤差源が有る.それは固有のキャリブレーシ ョンのエラーと空間的に変化する測定された深さに依存する ことにより起こるエラーである.本論文では新規キャリブレ ーションフレームワークを使用 してRGB-Dカメラシステム の両方の誤差を減らす取り組みを 行う.そしてToF RGB-D カメラの完全自動較正のための方法を提案する. ・私たちの手法では,深度カメラの強度画像を非線形レンズ 歪みの標準ピンホールモデルを用いて深度カメラをパラメー タ化 する通常のカメラの強度画像として扱う.機械学習を 用いて誤差分布をモデル化することにより,直接深バイアス キャリブレーションの問題を解決する.また,私たちの手法 では,すべての誤差源を排除オフセット深さに深さと強度特 徴からマッピングを推測するためにRRFを使用する. ・提案手法は2つの部分に分かれている.1つの部分では幾何学的なRGB- Dシステムの内部・外部パラメータを推定する.パラメータの特徴は自動 的に単一のカメラとステレオキャリブレーションの両方で使用されるサ ブピクセル精度で較正ターゲット上で検出する. もう1つの部分では測 定された深さの誤差の補正を行う. 誤差の補正は、幾何学的なカメラキ ャリブレーション中に取得されたグラウンドトゥルース深度データから 学ぶ. ・RGB-D校正フレームワークの概要を図を下に示す.
  • 54. Lingxi Xie, Liang Zheng, Jingdong Wang, Alan Yuille, Qi Tian, “InterActive: Inter-Layer Activeness Propagation”, in CVPR, 2016. 【52】 Keywords: Activation Function of CNN, InterActive 新規性・差分 概要 CNNの上位層では空間的なコンテキストに着目した特徴が 抽出できないため,Low-levelな特徴量やHigh-levelな特徴 量を組み合わせることで特徴抽出の仕組みを強化.これを バックプロパゲーションの仕組みでhigh-levelな活性化関 数の値をlow-levelな活性化関数により高い重みで学習させ る. ・より上位の層から下位の層に情報を伝えて特徴量を学習 することで,活性化関数を用いた転移学習の精度を向上さ せることに成功した. ・様々なチューニングの結果,提案手法が各データにて高 い精度を達成した(下表). Links 論文 http://research.microsoft.com/en- us/um/people/jingdw/pubs%5CCVPR16- ActivenessBackPropagation.pdf プロジェクト
  • 55. Chuang Gan, “You Lead, We Exceed: Labor-Free Video Concept Learning by Jointly Exploiting Web Videos and Images”, in CVPR, 2016. 【53】 Keywords: 新規性・差分 概要 概念学習のためのウェブ動画を用いたデータセット構築方 法.[Lead Net] インターネット上の動画には概念学習に用いれないノイズ が存在し(図:右下)従来では人の手によってタグ付けされて いた.本論文ではCNNアーキテクチャの自動学習と RNN(LSTM)を用いて動画像からノイズとなるフレームを 除去し高品質な学習データを自動学習する仕組みを提案し ている.基本概念は動画像を用いて学習しチューニングし たアーキテクチャを用いてWeb画像を学習する.さらに Web画像によってチューニングしなおされたアーキテクチ ャで学習データのトリミング(ノイズ除去)を行う.その後 トリミングされた動作像からLSTMの学習を行う. 実験は学習方法を変更した手法で比較している(UCF101). 本手法の自動学習が有用であることが示された. またイベント認識でも有用な結果が得られた(MEDtest13). Links 論文 http://research.microsoft.com/pubs/266581/CVPR16_webly_fin al.pdf プロジェクト
  • 56. Xiao Chu, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, “Structured Feature Learning for Pose Estimation”, in CVPR, 2016. 【54】 Keywords: Pose Estimation 新規性・差分 概要 異なる関節をまたいで,また空間や特徴マップ間の共起的 な関係を同時に学習する.異なる画像であっても,特徴量 を学習することで効果的な姿勢推定を提案する.主に特徴 量とその相対的な関係がEnd-to-Endで学習され,双方向の 木構造モデルを提案とする. ・End-to-Endの学習フレームワークを提案し,特徴レベ ルで関節間の構造を捉えることができる. ・特徴マップをまたいで関節位置を学習可能である.直 感的には異なる人であっても姿勢の特徴は似ている. ・双方向の木構造モデル(Bi-directional tree-structured model)を提案する. Links 論文 http://arxiv.org/pdf/1603.09065v1.pdf プロジェクト http://www.ee.cuhk.edu.hk/~xgwang/projectpage_structured_f eature_pose.html
  • 57. Robert T. Collins, Weina Ge, “CSDD Features: Center-Surround Distribution Distance for Feature Extraction and Matching”, in ECCV, 2008. 【55】 Keywords: Keypoint, Feature Descriptor 新規性・差分 概要 SIFTのようなキーポイント記述や特徴記述子である Center-Surround Distribution Distance (CSDD)を提案する. CSDDではキーポイントを中心とした前景とその周辺の背 景となるピクセルの比較により記述が行われる.CSDDは 顕著な領域からキーポイント検出を行うものである.下の 図は直感的なCSDDの取得方法の説明であり,黄色領域と 青色領域の特徴分布の距離を比較することで顕著な領域を 抽出する. ・通常のキーポイント検出のようにコーナーから抽出する のではなく,周りと比較して顕著なものを取り出すという 考え方のキーポイント検出器である. ・ Links 論文 http://www.cse.psu.edu/~rtc12/Papers/eccv08CollinsGe.pdf ポスター http://vision.cse.psu.edu/research/CSDD/csdd_poster.pdf プロジェクト http://vision.cse.psu.edu/research/CSDD/index.shtml CSDDによるキーポイント検出.中央の画像はスコアの可視化,右の画像は上 位30の優位な特徴点を表示したものである.
  • 58. Kota Yamaguchi, M. Hadi Kiapour, Luis E. Ortiz, Tamara L. Berg, “Parsing Clothing in Fashion Photographs”, in CVPR, 2012. 【56】 Keywords: Cloth Parsing 新規性・差分 概要 ファッションスナップからの洋服の総合的な理解を行う論 文である.人物ベースのセグメンテーションや姿勢推定を 行い,各ファッションアイテムごとに分離するなど困難な 課題をいくつも含んでいる.53もの衣服のクラスに分類す る問題を扱う. ・53の衣服タイプのクラス,158,235枚のファッションス ナップを含むデータセットを公開した. ・SuperpixelによるセグメンテーションやHOGとMAP推定 による姿勢推定,CRFによるファッションラベルを付加し た.. ・領域ベースのファッションクラスラベルについて,Pixel Accuracyやmean Average Garment Recall (mAGR)を表に 示した.それぞれ89.0%, 69.8%と良好な性能を示した.そ の他,姿勢推定の精度も評価を行った. Links 論文 http://www.referitgame.com/home/publications/parsingclothing.pdf プロジェクト http://vision.is.tohoku.ac.jp/~kyamagu/ja/research/clothing_parsing/
  • 59. Jose M. Saavedra and Juan Manuel Barrios, “Sketch based Image Retrieval using Learned KeyShapes (LKS)”, in BMVC, 2015. 【57】 Keywords: image retrieval, Sketck Retrieval 新規性・差分 概要 スケッチベースの類似画像検索手法の提案.物体のスケッチでは, 物体ごとにキーとなるストローク(KeyShape)が組み合わさっている, という前提のもとに,下図のような辞書をk-menasによるクラスタ リングによって作成する(Learnd Key Shape: LKS). 物体ごとの辞書内におけるKeyShapeの組み合わせと,入力画像 のKeyShapeの照合によって類似画像を検索する. 物体ごとのキーとなるエッジではなく,スケッチのキーとなる ストロークを学習し(LKS)生成した辞書による類似画像検索手 法の提案. LKSを用いることで,従来手法より精度が向上した, Links Paper : http://www.bmva.org/bmvc/2015/papers/paper164/paper164.pdf Author : http://users.dcc.uchile.cl/~jsaavedr/publications.htm: LKS descriptorの流れ.まずSketch datasetからkeyshapeの辞書 を生成する.つぎに辞書を用いて,検索画像から抽出した輪郭, スケッチ画像からkeyshapeを検出する.最後に(1)投票(2)空間分 割(3)正規化によりLKS Histogramを生成し,LKS descriptorとす る. LSKによるスケッチ ベースの類似画像検 索結果
  • 60. Vivek Veeriah, Naifan Zhuang, Guo-Jun Qi, “Differential Recurrent Neural Networks for Action Recognition”, in ICCV, 2015. 【58】 Keywords: Action Recognition, Differential Recurrent Neural Network, 新規性・差分 概要 ・顕著な行動パターンに対応する時系列のダイナミクスの 影響を考慮した行動認識手法Differential Recurrent Neural Networks(DRNN)の提案. ・複雑な時系列表現の学習の可能性を提示 ・LSTMの特性は様々な行動のダイナミクスを学習するに 非常に有効的であるが,時系列の行動のダイナミクスを考 慮した研究はされていない. ・連続したフレーム間の顕著な動きによって発生する情報 のゲインの変化を強調する方式をLSTMに採用 Links 論文 http://arxiv.org/pdf/1504.06678v1 プロジェクト
  • 61. Tanaya Guha, Rabab Kreidieh Ward, “Learning Sparse Representations for Human Action Recognition”, in IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012. 【59】 Keywords: Action recognition, dictionary learning, expression recognition, overcomplete, orthogonal matching pursuit, sparse, representation, spatio-temporal descriptors 新規性・差分 概要 ・本稿では,オーバーコンプリートな辞書を学習するフレ ームワークの提案と,そのフレームワークを用いることで 行動認識のコンテキストを学習し,得られた粗な表現の有 効性の検証を行う. ・提案したフレームワークへ向けた新規の分類アルゴリズ ムの提案 ・提案したフレームワークは,顔の表情や身体的動作を含 むデータセット上で,State-of-the-artな結果が得られた. ・オーバーコンプリートな辞書の各記述子は,spatio- temporal descriptorsのセットを用いて構成される.これに より,動画の表現がより豊か,かつコンパクト Links 論文 http://home.iitk.ac.in/~tanaya/Project1_files/GuhaWardPAMI20 12.pdf プロジェクト
  • 62. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, “Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition”, in ECCV, 2014. 【60】 Keywords: Spatial Pyramid Pooling, deep convolutional neural network, visual recognition 新規性・差分 概要 ・既存のDCNNは入力画像のサイズが固定されている.こ の要求を排除するためのプーリング法「Spatial Pyramid Pooling」を提案. ・ImageNet 2012における精度の向上,Pascal VOC 2007 と Caltech101データセットにおいてはファインチューニ ングを行うことなくstate-of-the-art な分類結果を達成した. ・既存のCNNでは入力画像のサイズ/スケールが固定され ており,認識精度を下げる恐れがあった.「Spatial Pyramid Pooling」を使用することで,この固定サイズの 画像を入力する必要を排除 ・一度全体画像を入力することで,特徴マップを生成し, 因子の領域の特徴プーリングを行うことで,繰り返し特徴 の畳み込み計算を行う必要を避ける. Links 論文 https://arxiv.org/pdf/1406.4729v4 code https://github.com/ShaoqingRen/SPP_net プロジェクト
  • 63. Ming Yang, Kai Yu, “Real-Time Clothing Recognition in Surveillance Videos”, in ICIP, 2011. 【61】 Keywords: Clothing Recognition, Cloth Segmentation, SVM 新規性・差分 概要 監視カメラ中から人物の服装をリアルタイムに推定する研 究.服装認識のみならず,セグメンテーションについても 実行する.領域の抽出は背景差分など候補領域においてボ ロノイ画像,RegionGrowにより人物位置の獲得,局所特 徴抽出ではHOGやDenseSIFT,2D DCTを用いる.抽出し たベクトルはSVMにより識別される. ・新規に服装認識の問題を設定し,937人,25441の服装 インスタンスにおいて解析を行った.8種類のカテゴリに ついてSVMにより分類を行った. ・識別の結果,平均Recall率が約80%になるなど良好な解 析である. ・監視カメラのように静的な環境であればこのような手法 で十分と感じる. Links 論文 http://www.ece.northwestern.edu/~mya671/mypapers/ICIP11_ Yang_Yu.pdf プロジェクト
  • 64. Agnes Borras, Francesc Tous, Josep Llados, Maria Vanrell, “High-level Clothes Description Based on Colour-Texture and Structural Features”, in Pattern Recognition and Image Analysis, 2003. 【62】 Keywords: Cloth Description 新規性・差分 概要 監視カメラにおける服装解析の先駆的研究であるが,上半 身のみの解析という非常に限られた問題設定を扱っている と言える.色やテクスチャ,服装の構造に着目した特徴量 を用いた服装の解析.セグメンテーションはGraphCutを 用いている. ・色やテクスチャ,服装の構造に着目した特徴を新規に提 案した.色特徴は[1]に基づいているが,テクスチャは中央 図(5ステップにて異なるパーツを参照する),服装の構造 (clothing component)は下図の通りである. ・限られた環境ではあるものの,64%の精度で服装の識別 ができるようになったと主張. Links 論文 http://cat.uab.es/Public/Publications/2003/BTL2003/p114.pdf プロジェクト http://www.cat.uab.cat/Public/Publications/2003/BTL2003/
  • 65. Alireza Fathi, Ali Farhadi, James M. Rehg, “Understanding Egocentric Activities”, in ICCV, 2011. 【63】 Keywords: Egocentric Vision, Activity Recognition 新規性・差分 概要 一人称ビジョンからの日常行動の認識.ここでは食事の準 備を題材としており,7種類の異なる行動(e.g. cheese sandwich, coffee)やそのデータセットを提供した.一人称 ビジョンにおける行動認識の先駆的研究と言える.手領域 や物体領域のセグメンテーションを行い,意味づけやイン タラクションを解析した上でActivity (上記の7種)やさらに 詳細に分割されたActionを認識する. ・一人称ビジョンにおいて行動認識するという問題設定を 提供した.さらに,セグメンテーションやインタラクショ ン,行動とサブ行動分割といった問題を解決している. ・グラフィカルモデルはy=activity, a=action, h=object / hand, x=observeを示し,それらは階層的に計算される. ・Actionをヒストグラムとして扱っていて,集合体が Activityと判断される.識別にはCRFを用いた. ・Per-frameにおける行動認識がSTIP14.4%, SIFT + BoW 29.1%だったのに対してAdaBoostによる手法では45.0%. ・物体認識の正答率も右の棒グラフに示される.特に手領 域の推定は96%と高精度.物体や行動を合わせた詳細行動 においては64クラスで32.4%(提案手法)を達成. Links 論文 http://ai.stanford.edu/~alireza/publication/ICCV11.pdf プロジェクト http://ai.stanford.edu/~alireza/GTEA/
  • 66. Alireza Fathi, Yin Li, James M. Rehg, “Learning to Recognize Daily Actions using Gaze”, in ECCV, 2012. 【64】 Keywords: Gaze, GTEA Gaze+ Dataset, Egocentric Vision 新規性・差分 概要 一人称ビジョンにおいて,日常行動や物体を操作する際の 視線情報を推定する研究である.GTEAにおいて視線情報 を追加したデータセットGTEA Gaze+ Datasetを提供する ことで,行動認識だけでなく視線も同時推定する研究の問 題が提供された.まずは既存のシステムで視線を推定,そ の後は行動と視線の同時推定を行った. ・一人称における行動認識において視線は有効であるかを 検証した. ・行動と視線を同時に推定することに成功した.さらには 視線が行動において重要であることを実証. ・従来手法[Fathi+, ICCV2011]が27%だったのに対して, 提案手法の視線を用いる方法では47%の行動認識を達成し た.視線を用いる有効性が示せた. ・「視線が与えられた際の行動認識」「行動が与えられた 際の視線推定」ともに精度が向上することが判明した.こ こから,同時推定と推定された情報からもう一方を推定す る方が効率が良いことがわかった. Links 論文 http://ai.stanford.edu/~alireza/publication/ECCV12.pdf プロジェクト http://ai.stanford.edu/~alireza/GTEA_Gaze_Website/
  • 67. Kris M. Kitani, Takahiro Okabe, Yoichi Sato, Akihiro Sugimoto, “Fast Unsupervised Ego-Action Learning for First-Person Sports Videos”, in CVPR, 2011. 【65】 Keywords: First Person View, GoPro, Unsupervised Learning 新規性・差分 概要 一人称ビジョンからのスポーツ映像解析を行う.頭部に装 着したGoProカメラから行動を教師なしで学習し,映像の セグメント化を実行する.具体的にはスパースオプティカ ルフローにより抽出したモーションヒストグラムを Stacked Dirichlet Process Mixture Modelsにより解析する ことで自動で類似行動がクラスタリングされる. ・教師なし学習により行動を分割して高精度にセグメント 化することに成功した. ・一人称ビジョンにおいて頻繁に用いられるデータセット UEC Dataset (PARK, Quad sequenceなど)を提案した論文 としても知られる. Links 論文 http://www.cs.cmu.edu/~kkitani/pdf/KOSS-CVPR11.pdf データセット http://www.cs.cmu.edu/~kkitani/datasets/
  • 68. Yin Li, Zhefan Ye, James M. Rehg, “Delving into Egocentric Actions”, in CVPR, 2015. 【66】 Keywords: First-Person Vision (FPV), Dense Trajectories, 新規性・差分 概要 一人称ビジョンからの行動認識の改良に関する論文.Low- levelとしてはDense Trajectories (DT)によるモーション特 徴,DTにLABチャネルから取り出したLBPも統合した物体 特徴を適用.Middle-levelな情報では,手の姿勢や動作, 頭部の動作,視線方向も参照する.また,一人称ビジョン いおけるそれらの組み合わせについても詳細に評価を行っ た. ・一人称ビジョンにおいて高度な特徴量であるDTを用い ただけでなく,LABの各チャネルにおいてLBPを抽出する 特徴をDTのフレームワーク内にて実装した. ・中央の表のFPV datasetまとめも便利. ・下表の評価において,O(Object) + M(Motion) + E (Egocentric cues) + H(Hand)の組み合わせがもっとも効果 的であることが判明した.HがあればG(gaze)はさほど重 要ではない? Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Li_Delv ing_Into_Egocentric_2015_CVPR_paper.pdf 著者ページ http://yinli.cvpr.net/
  • 69. Hamed Pirsiavash, Deva Ramanan, “Detecting Activities of Daily Living in First-person Camera Views”, in CVPR, 2012. 【67】 Keywords: Activities of Daily Living (ADL), First Person Vision, Actiivty Detection 新規性・差分 概要 介護などで特に重要であると思われるActivities of Daily Living (ADL)の認識に取り組む.物体検出をVisual Phrases [Farhadi+, CVPR11]により実行し,行動認識ではTemporal Pyramidsを参照し,visual wordsを物体モデルから抽出, 長期の行動解析にも耐えうる手法とした. ・長時間に渡って解析を実行したADL dataasetを提案. ・ADL認識のための物体検出や行動認識手法が右の表や Confusion Matrixに示す通りである.行動認識の平均精度 は40.6%であった. Links 論文 http://people.csail.mit.edu/hpirsiav/papers/adl_cvpr12.pdf プロジェクト http://vision.ics.uci.edu/papers/PirsiavashR_CVPR_2012_1/ ビデオ https://www.youtube.com/watch?v=tybmC0bS928 スライド http://www.csc.kth.se/cvap/cvg/rg/materials/hossein_004_slide s.pdf
  • 70. Junhua Mao, Jonathan Huang,Alexander Toshev, Oana Camburu, Alan Yuille, Kevin Murphy, “Generation and Comprehension of Unambiguous Object Descriptions”, in CVPR, 2016. 【68】 Keywords: text descriptions of images,dataset 新規性・差分 概要 ・画像生成分の根本的な問題として,画像の説明の仕方 はいくらでもあるため,手法の評価が難しいという点が ある.そこで一度に説明するbounding_box内の物を1つ に限定することで,より明確な評価をする.右図のよう に,画像と領域が入力されたら説明文が出力され,文と 画像が入力されたらその文に合う領域が出力される. ・Google Refexp (G-Ref) datasetを提案.右上の画像 のように,リッチなアノテーションが物体ごと(緑 のマーク)に付与されている.MS COCOに基づいた ものなので物体のmaskやカテゴリーの情報にもアク セスできる. . datasetとtoolboxが公開されている. https://github.com/ mjhucla/Google_Refexp_toolbox Links 論文 https://arxiv.org/pdf/1511.02283v3.pdf
  • 71. Flora Ponjou Tasse, Jiri Kosinka, Neil Dodgson, “Cluster-based point set saliency ”, ICCV, 2015. 【69】 Keywords: cluster-based, saliency 新規性・差分 概要 ・本論文では,位相情報が欠ける点に対してクラスターベ ース手法の顕著点検出を提案する.手法の流れはfuzzy clusteringを使用して小さなクラスタに分解する.クラス タの一意性と各クラスタの空間分布を評価し,クラスタの 特性関数にこれらの値を組み合わせる.各点の顕著性を割 りはめるために各クラスタに属する点の確率を使用する. ・ポリゴンスープや範囲スキャンデータを含む3次元形状表 現の広い範囲に使用できる.また,本手法は一貫して低い 顕著性を割りはめるために各クラスタに属する点の確率を 使用する. Links 論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Tasse_Cluster-Based_Point_Set_ICCV_2015_paper.pdf 結果 任意の位相情報を使用せずに,false positive and false negativeのエラー率が上記のグラフのように合理的なバランスを達成している ことが示されてた.
  • 72. Nima Sedaghat, Thomas Brox, “Unsupervised Generation of a Viewpoint Annotated Car Dataset from Videos”, ICCV, 2015. 【70】 Keywords: fully automated, viewpoint, bounding box, dataset 新規性・差分 概要 ・物体認識手法は学習データやCADモデルにviewpointや keypointを必要とする.そこで完全に自動で静的なシーン の動画からviewpointやbounding boxのアノテーション画像 のデータセットを生成する手法を提案する. ・従来手法では手動ステップを含んでいるが提案手法はビ デオからのviewpoint label付き学習データセットを生成す るための完全自動化されている.また,パフォーマンスの 全体的な向上のために手動でラベルされたImageNet学習 データセットと提案手法のデータを結合することができる. Links 論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Sedaghat_Unsupervised_Generation_of_ICCV_2015_paper.pdf プロジェクト http://lmb.informatik.uni-freiburg.de/Publications/2015/SB15/
  • 73. Amir Ghodrati, Ali Diba, Marco Pedersoli, Tinne Tuytelaars, Luc Van Gool, “DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers”, in ICCV, 2015. 【71】 Keywords: DeepProposal, Deep Convolutional Layer 新規性・差分 概要 ・CNN特徴に基づいた物体位置を提案する手法の提案 ・本手法はCNN最終層から最初の畳み込みそうへ遡り,最 も有効な物体位置を選択し,ボックスを洗練する逆カスケ ード法を提案する. 1)検出に向け抽出された特徴と同じ特徴を使用 2)積分画像を用いて特徴を集約 3)粗密カスケードによって位置提案の粗密な評価を回避 以上により,効率的に物体位置を提案することができる Links 論文 http://arxiv.org/pdf/1510.04445v1 プロジェクト DeepProposalの提案フレームワーク 画像中の有効な物体位置提案を得るために,粗密カスケードに畳み込み層 の機能を使用する. 最終畳み込み層(5層)から密な提案サンプリングを行ない,初期層(2層)まで 徐々にボックスをフィルタリングを行う. 最終段階では,提案手法の改良を行うために第2層から抽出した輪郭を使 用する. 生成したボックスは,物体検出パイプラインで使用する事ができる.
  • 74. Mathieu Aubry, Bryan C. Russell, “Understanding deep features with computer-generated imagery”, in ICCV, 2015. 【72】 Keywords: Understanding deep features, CNN, 新規性・差分 概要 ・画像において発生する要因(物体形状や色,3D視点,照明) に対して,CNNで生成された特徴の分析を行う. ・3次元のCADモデルの大規模データセットからレンダリン グした画像を使用し,その画像内の要因を変化させることで, 様々なシーンに対応したCNN特徴の応答を解析する. ・分析し,得られた成分を定性的・定量的に解析,PCAを用 いて可視化を行う. ・CNNは,AlexNet, Places, Oxford VGGの3つを使用する. ・大規模なデータセットを学習した3つのCNNの定性的・ 定量的な結果を提示 ・様々なシーンの要因や物体のカテゴリに向けたネットワ ークおよびCNNの層全体の違いを観測 Links 論文 https://arxiv.org/pdf/1506.01151v1 動画 https://www.youtube.com/watch?v=aDq5IGw--lc プロジェクト
  • 75. Dong Zhang, Mubarak Shah, “Human Pose Estimation in Videos”, in ICCV, 2015. 【73】 Keywords: Human Pose Estimation, 新規性・差分 概要 ・制約のない動画中の人間の姿勢を推定する手法を提案す る ・本提案手法の核となるアイデアは「抽象化」と「結合」 である.これにより,動画のフレーム内およびフレーム間 の身体のパーツの動きを制約し,強制する. ・提案手法は効率的にツリーベースの姿勢を生成しながら も,既存の手法に比べ,動画中の時間的・空間的な身体の パーツの制約を複雑な計算処理を行わずにモデル化できる ・「抽象化」ではツリーベースの身体のパーツの構成と空 間的制約を付与 ・「結合」では,身体のパーツに時間的制約を付与し,最 適な追跡を実現する. Links 論文 http://www.dromston.com/download.php?Down=HumanPoseE stimationInVideos.pdf 著者 http://www.dromston.com/ dataset http://www.dromston.com/download.php?Down=HPEV_Datas ets.zip
  • 76. Yair Poleg, Chetan Arora, Shmuel Peleg, “Temporal Segmentation of Egocentric Videos”, in CVPR, 2014. 【74】 Keywords: Video Segmentation, Egocentric Vision 新規性・差分 概要 一人称ビジョンからビデオのセグメント化を実行するた めの手法を提案する.本論文ではモーションベースの手 法に着目し,一人称ビジョンのような動的な環境でも適 切に動作特徴を捉えるCumulative Displacement Curves (CDC)を提案する. ・一人称ビジョンにおけるモーションベースの特徴量 Cumulative Displacement Curves (CDC)を提案した.フロ ーの蓄積とbinary classificationによる新しい識別の戦略も 示した. ・CDC+SVMを用いて,7つのクラス分類やGaze Fixation を高精度に行った. Links 論文 http://www.cs.huji.ac.il/~peleg/papers/cvpr14-egoseg.pdf プロジェクト CDCの記述方法.10x5ブロックに分割された領域から特徴点の移動 (Displacement)を蓄積する.右が実際のカーブの様子である.頭部の(意図しな い)回転は統計的に除去される傾向にあるという.識別は上図のようなbinary classificationにより木構造で判別する.
  • 77. Alireza Fathi, Xiaofeng Ren, James M. Rehg, “Learning to Recognize Objects in Egocentric Activities”, in CVPR, 2011. 【75】 Keywords: Egocentric Vision, Object Recognition, Segmentation 新規性・差分 概要 一人称ビジョンから弱教師あり学習により物体や手領域の セグメンテーションを行う.各行動(に紐付いた物体名)が わかっている状態で,いかに物体セグメンテーションを行 うかを問う問題.Multiple Instance Learning (MIL)を用い て物体セグメンテーションを行う. ・ジョージア工科大学のデータセットであるGTEA datasetを提案.その後,一人称ビジョンにおいて行動認 識や物体セグメンテーションのタスクとして用いられるよ うになる. ・弱教師あり学習にて物体や手領域のセグメンテーション ができるようになる. Links 論文 http://ai.stanford.edu/~alireza/publication/CVPR11.pdf プロジェクト http://ai.stanford.edu/~alireza/GTEA/] ビデオ https://vimeo.com/21723853
  • 78. Jean-Baptiste Alayrac+, “Unsupervised Learning from Narrated Instruction Videos”, in CVPR, 2016. 【76】 Keywords: 新規性・差分 概要 ・教師なし学習でナレーションに含まれる行動タスクと動 画像を対応づける手法の提案.特定のタスクを完了するた めに必要な共通の行動を自動で学習する. ・入力された映像とナレーションの相補的性質を活用し教 師なし学習する手法の提案.新規データセットの提案.実 験的検証.各ナレーションはオブジェクトの関係性の行動 列に変換され,意味的な統合を行い,K個のタスクに分離 される Links 論文 http://www.di.ens.fr/~alayrac/papers/alayrac16unsupervised.pdf
  • 79. Alexandre Alahi, “Social LSTM: Human Trajectory Prediction in Crowded Spaces”, in CVPR, 2016. 【77】 Keywords: 新規性・差分 概要 ・群衆の経路予測のためのRNNモデルの提案.(social LSTM) ・従来の群衆解析は人同士はぶつからないことや同じような動きをすると いった仮説の基に解かれてきた.しかし本手法では群衆予測に特化した RNNアーキテクチャを構築することでデータ特化の群衆予測を可能にした. Social LSTMを構築する上でSocial Poolingを提案した.Social Poolingとは それぞれに近い存在の重みも考慮するpooling方法である.近い人間が複数 存在する場合はセルごとに重みを統合する Links 論文 http://web.stanford.edu/~alahi/downloads/CVPR16_ N_LSTM.pdf
  • 80. Zuxuan Wu, “Harnessing Object and Scene Semantics for Large-Scale Video Understanding”, in CVPR, 2016. 【78】 Keywords: 新規性・差分 概要 オブジェクトとシーンを意味的に融合させたネットワーク の構築(Object-Scene semantic Fusion:OSF). 物体認識,シ ーン認識,フレームベースの低レベルCNNの3層のCNN特 徴を意味的に融合する.ActivityNetとFCVIDで学習された m出るを用いている.Fusion Netに誤差逆伝搬情報を入力 することでビデオと物体・シーンの意味的関係性を観測す ることが可能 オブジェクト特化のCNN特徴ととシーン特化のCNN特徴 を意味的に融合した特徴抽出が可能. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Wu_ Harnessing_Object_and_CVPR_2016_paper.pdf
  • 81. Yin Li, Alireza Fathi, James M. Rehg, “Learning to Predict Gaze in Egocentric Video”, in ICCV, 2013. 【79】 Keywords: Gaze Estimation, Egocentric Vision 新規性・差分 概要 一人称カメラの装着者の潜在的な手がかりを学習すること で,視線推定を自動で行うことができるという研究.特に, ユーザの頭部動作や手領域の位置に着目し,それらを総合 的に判断することで視線を高度に推定する.右図のグラフ ィカルモデルにより視線を推定する.入力は操作位置・グ ローバルモーション・手のモーション・手の位置. ・頭部動作や手領域といった潜在的な動作から視線を推定 することに成功した. ・従来のsaliencyはIttiらのボトムアップモデルや対象物あ りきのトップダウンモデルであったが,一人称ビジョンな らではの視線推定方法を提案した. ・AUC scoreで87.8%,AAEで8.35 degreeと比較手法と比 べても最も良好な性能を示した. Links 論文 http://ai.stanford.edu/~alireza/publication/Li-Fathi-Rehg- ICCV13.pdf
  • 82. Stefano Alletto, Giuseppe Serra, Simone Calderara, Rita Cucchiara, “Understanding social relationships in egocentric vision”, in Pattern Recognition, 2015. 【80】 Keywords: Social Relationship, Egocentric Vision 新規性・差分 概要 一人称ビジョンにおけるインタラクション認識.時系列モ デルであるHMMを用いて顔ランドマークや形状を記述. さらには複数人物の頭部向き(head orientation)や人物間の 距離から教師ありクラスタリングによりインタラクション を検出する. 一人称ビジョンにおいて, ・低解像かつ煩雑な環境においてもロバストな頭部姿勢推 定技術を提案 ・キャリブレーションによらない3次元の位置推定技術 ・Supervised Correlation ClusteringやStructural SVMによ りインタラクション認識を行う ・提案手法については右のフローチャートがわかりやすい ・Landmark+HOG+HMMを組み合わせる手法が最適な方 法であると判断した Links 論文 https://www.researchgate.net/publication/28 0528864_Understanding_social_relationshi ps_in_egocentric_vision
  • 83. Jun Yuan+, “Temporal Action Localization with Pyramid of Score Distribution Features”, in CVPR, 2016. 【81】 Keywords: 新規性・差分 概要 ・時系列方向のアクションローカライゼーションのための アーキテクチャ構築. Pyramid of Score Distribution Features (PSDF) の提案. ・従来の行動認識は行動ごとにトリムされた動画像を対象 としていた.本論文では行動の始まりから終わりまでをピ ラミッド状にスコアとして評価しトリムされていない動画 像から行動を検出する手法の提案を行っている. PSDFは各検出領域を中心とする複数の分解能を持つ動き 情報を抽出するために提案されている. Links 論文 http://www.cv- foundation.org/openacc ess/content_cvpr_2016/ papers/Yuan_Temporal _Action_Localization_C VPR_2016_paper.pdf
  • 84. Jagannadan Varadarajan, “A Topic Model Approach to Represent and Classify American Football Plays”, in BMVC, 2013. 【82】 Keywords: 新規性・差分 概要 ・アメリカンフットボールの映像解析にトピックモデルを 応用した例.選手の動きを入力とし選手の動作方向、時間、 配置を文章として記述.その後教師ありトピックモデルの 一種であるMedLDAを用いてプレイのタイプを出力する. ・アメリカンフットボールの映像解析(選手の軌跡を用い た)でのトピックモデルを用いたフレームワークを提案し 高い精度で分類が行えている. 選手の軌跡を文章と捉え統計的に解析する手法の検証を行 っている.またデータセットの提案も行なっている. Links 論文 https://www.researchgate.net/profile/Bernard_Ghanem/publicat ion/262009746_A_Topic_Model_Approach_to_Represent_and _Classify_American_Football_Plays/links/55808f4608ae47061 e5f3322.pdf
  • 85. L Neumann, J Matas, “Real-time scene text localization and recognition, ” Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on ... 【83】 Keywords:Class-specific Extremal Regions, ERs 新規性・差分 概要 エンドツーエンドのリアルタイムシーンテキストのローカ ライゼーションと認識の手法を提案している.リアルタイ ムのパフォーマンスを達成するために,文字検出問題に焦 点を当て,極地領域(ERs)から順次に領域を選択すること でローカライゼーションと認識を達成している. Class-specific Extremal Regionsという情景画像文字検 出の手法を提案している.この手法はでは, ERs(Extremal Regions)という周囲より高い画素を1つ の領域としてグループ分けしていく.この領域を候補 領域とすることで,高い再現率を示した. Links 論文 : http://ieeexplore.ieee.org/xpls/abs_all.j sp?arnumber=6248097 ・ER detectionチャンネルごとの再現率と適合率を実験し た結果,HSI表色系のH,S,Iチャンネルに勾配強度の大 きさのチャンネルを加えることで高い再現率を示した. ・ICDAR2011データセットセットにおいて高い再現率を 示した
  • 86. Stefano Alletto, Giuseppe Serra, Simone Calderara, Francesco Solera, Rita Cusshiara, “From Ego to Nos-vision: Detecting Social Relationships in First-Person Views”, in CVPRW, 2014. 【84】 Keywords: Social Relationship, Egocentric Vision, First Person Vision 新規性・差分 概要 一人称ビジョンにおいて,人物間の社会的な関係性/イン タラクションを把握する論文.具体的には撮影されたカメ ラから誰と誰が会話しているかを理解する.頭部姿勢推定 や3次元位置を推定して,Structured SVMによりグループ を推定する. ・一人称ビジョンにおいて新規に頭部姿勢推定する手法を 提案した ・3次元のシーン再構成する手法を提案 (頭部や人物の位置 を空間にマッピング) ・Structural SVMによる学習で,グループごとのくくりを 学習する ・EGO-GROUP Dataset(右図)を提案し,各環境における グループを認識する問題を提供した. Links 論文 http://www.cv- foundation.org/openac cess/content_cvpr_wor kshops_2014/W16/pap ers/Alletto_From_Ego_ to_2014_CVPR_paper .pdf プロジェクト
  • 87. Suriya Singh, Chetan Arora, C. V. Jawahar, “First Person Action Recognition Using Deep Learned Descriptors”, in CVPR, 2016. 【85】 Keywords: First Person View(FPV), CNN, 新規性・差分 概要 ・ウェアラブルカメラを付けた人物の姿勢と自然な頭部運 動によって, 動画に急激な動きが生じ, 着用者の行動認識が 困難である.最後に行った行動と着用者の行動分類をCNN で学習させた. ・ 第三者のビデオ分析により, FPVを用いた行動認識のデ ータセットを多くて一般化できない. 本研究では, FPVを用いた動作認識のために着用者の動きと 事前にビデオ分析に訓練を受けた空間的・時間的の流れを入 れた CNNを提案する.これにより精度が従来研究より向上. Links 論文 https://cvit.iiit.ac.in/images/ConferencePapers/2016/EgoConvNetCVPR2016.pdf
  • 88. Huizhong Chen, Andrew Gallagher, Bernd Girod, “Describing Clothing by Semantic Attributes”, in ECCV, 2012. 【86】 Keywords: Fashion Attribute, Clothing, Semantic Attribute 新規性・差分 概要 自然画像からのファッション属性 (Clothing Attributes, Fashion Attributes)を推定する問題.Low-levelな特徴やそ れを補足する特徴をConditional Random Fields (CRF)を用 いることで属性推定を実行する.データセットはAmazon Mechanical Truk (AMT)により収集し,1,856枚の画像に対 して右図(list of attributes)のような283,107の属性を付与し た.フローチャートのように各属性ごとにSVM識別を行い, 出力をCRFに入力することで複数の属性を認識する.特徴 量はSIFTやLAB,Maximum Response Filtersを用いた. ・人体の姿勢にも適応した洋服の特徴を提案した ・ファッション属性間の関係性を考慮した法則に着目して 学習を実行 ・ファッションに関する新しいアプリケーションを提案し た.性別の分類についても言及した Links 論文 http://web.stanford.edu/~hchen2/papers/ECCV2012_ClothingA ttributes.pdf データセット http://web.stanford.edu/~hchen2/datasets.html
  • 89. Tomasz Malisiewicz, Abhinav Gupta, Alexei Efros, “Ensemble of Exemplar-SVMs for Object Detection and Beyond”, in ICCV, 2011. 【87】 Keywords: Exemplar SVM, Object Detection 新規性・差分 概要 Exemplar SVMによる物体検出の提案.通常SVMではカテ ゴリごとにクラスを分類するが,Exemplar SVMではイン スタンスごとにSVMを用意して,近いサンプルを割りあて るため,物体の姿勢や見え方の非常に近いものが割り当て られるというアイディア.セグメンテーションや幾何学的 構造,3Dモデルなどへの転移も可能と判断した. ・クラスごとではなく,SVMをインスタンスごとに割りあ てるExemplar SVMを提案する. ・直感的にはNearest Neighbor をSVMで行っている.作 者らはこの手法は驚くほどうまくいっていると言及した. Links 論文 http://repository.cmu.edu/cgi/viewcontent.cgi?article=1780&co ntext=robotics プロジェクト http://www.cs.cmu.edu/~tmalisie/projects/iccv11/ コード https://github.com/quantombone/exemplarsvm
  • 90. H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, T. Serre, “HMDB: A Large Video Database for Human Motion Recognition”, in ICCV, 2011. 【88】 Keywords: HMDB, Action Recognition 新規性・差分 概要 行動認識の大規模データベースであるHMDB (a large human motion database)の提案 論文.51の行動クラス(次ページ図),6,766動画クリップを含み,学習/テストは3分割 されたファイルを参照して交差検証を行う.各クラス最低でも101の動画を含んでお り,クラス内のサンプル数は十分確保されている.2016年の最先端の精度でも 65~66%台(UCF101ですら90%超えている)ともっとも難しいとされている.カメラモ ーション有,上半身のみの評価,体向きの違い,低画質を含むなど画像認識の困難な 課題を含んでいる. ・それまでの行動認識データセットの中でも最大級の規模を誇るデータセットとなっ た.(2016年現在はそれよりも大規模なUCF101 - http://crcv.ucf.edu/data/UCF101.php, THUMOS15 - http://www.thumos.info/download.html, ActivityNet - http://activity- net.org/ などが存在する) ・感覚的には不要なフレームを自動で判断して除く機能が必要.すべてのフレームを 一様に評価する方法では限界であるため60%台からの移行がない? Links 論文 http://cbcl.mit.edu/cbcl/publications/ps/Kuehn e_etal_iccv11.pdf プロジェクト http://serre- lab.clps.brown.edu/resource/hmdb-a-large- human-motion-database/
  • 92. Bolei Zhou, Liu Liu, Aude Oliva, Antonio Torralba, “Recognizing City Identity via Attribute Analysis of Geo-tagged Images”, in ECCV, 2014. 【89】 Keywords: City Identity, Attribute Analysis, GPS, Geo-tagged Images 新規性・差分 概要 都市ごとの「アイデンティティ」を属性ベースで解析して都市間の類似度 を計算した論文.都市計画などに役立てることを想定.21の都市から集め られた約2,000,000枚のGPSタグが付与された画像から解析を行う.MIT City Databaseを同時に公開し,交通の様子 (Transportation)や(歴史的)建造 物 (Architecture)などが含まれる.画像は画像共有SNSであるInstagram, Flickr, Panoramioなどから取得した. ・膨大な画像から属性の解析や都市間の類似度などを計算可能とした. ・画像からAttributeを解析する技術を用いた.論文が出版された当初はハ ンドクラフト特徴+SVMであったが,現在ではPlaces-CNNによる属性解析 に置き換えられた. Links 論文 http://people.csail.mit.edu/bzhou/project/eccv2014/ECCV14_cit yperception.pdf プロジェクト http://cityimage.csail.mit.edu/ 著者 http://people.csail.mit.edu/bzhou/
  • 93. James Hays, Alexei A. Efros, “IM2GPS: estimating geographic information from a single image”, in CVPR, 2008. 【90】 Keywords: Geo Information Estimation, GPS 新規性・差分 概要 写真を入力として,その画像がどこで撮影されたのかを推 定する問題(IM2GPSと命名した).6,472,304枚のGPSタグ が付与された画像を用いて学習することにより地球上の有 名な位置であればランダムよりも30倍高い精度での位置推 定が可能になる.特徴量としてはLAB, Texton, Line Feature, Gist, Geometric Context [Hoiem+, 2005]を適用し た. ・画像入力として,地球上の位置を推定する ・Nearest Neighborで推定した結果をずに示す.ランダム よりも明らかに良い結果となった.横軸がDatabase size, 縦軸が%である.最終的には120-NNが良好な精度を達成 した. Links 論文 http://graphics.cs.cmu.edu/projects/im2gps/im2gps.pdf プロジェクト http://graphics.cs.cmu.edu/projects/im2gps/ 著者 http://www.cc.gatech.edu/~hays/
  • 94. David M. Chen, Georges Baatz, Kevin Koser, Sam S. Tsai, Ramakrishna Vedantham, Timo Pylvanainen, Kimmo Roimela, Xin Chen, Jeff Bach, Marc Pllefeys, Bernd Girod, Radek Grzezczuk, “City-Scale Landmark Identification on Mobile Devices”, in CVPR, 2011. 【91】 Keywords: 新規性・差分 概要 パノラマ画像やそれに対するGPSデータ,クエリイメージ のペアを含んだデータセットを提供することで,都市レベ ルのランドマークマッチング問題の促進を図る.データベ ース中には約1,700,000枚の画像が含まれる. ・モバイル端末におけるランドマークマッチングのデータ セットを一般的に提供する. ・総合的な位置認識技術を提案する. Links 論文 http://web.stanford.edu/~bgir od/pdfs/Chen_CVPR2011.p df プロジェクト https://sites.google.com/site/ chenmodavid/datasets
  • 95. Xiaowei Li, Changchang Wu, Christopher Zach, Svetlana Lazebnik, Jan-Michael Frahm, “Modeling and Recognition of Landmark Image Collections Using Iconic Scene Graphs”, in ECCV, 2008. 【92】 Keywords: Iconic Scene, Image Collection, 3D Reconstruction 新規性・差分 概要 Webベースの検索から,物体認識により対象となるランド マークを選択し,それらを用いて3次元再構成を行う.右 の画像の例では”Statue of Liberty”の3次元モデルを復元す る課題であり,Webから抽出した45,284枚の画像から不要 なものを40%除去し,また,図の例では世界の自由の女神 - NewYork, Tokyo, LasVegas を復元した. ・2次元の物体認識や3次元の再構成を組み合わせたような 論文.両者のメリットを組み合わせた形で研究が行われて いる. Links 論文 http://web.engr.illinois.edu/~slazebni/publications/eccv08.pdf
  • 96. David Crandall, Lars Backstrom, Daniel Huttenlocher, Jon Kleinberg, “Mapping the World’s Photos”, in WWW, 2009. 【93】 Keywords: Geotagged Photos 新規性・差分 概要 位置情報が付加された写真をいかに集めてデータを構成す るかについて言及した論文.画像収集はFlickr内にて行い, 合計で35,000,000枚の画像を収集するに至った.コンテキ スト解析や位置情報を元に探索を行った.SIFT+BoFによ るランドマーク識別やクラスタリングにより類似画像を構 造化した. ・Webないに煩雑に存在している画像を,位置やコンテキ ストなどの情報を元にして構造化に成功した ・3千万枚という大規模なデータベースを生成し,いずれ の画像にもGPS情報が付けられている Links 論文 http://www.cs.cornell.edu/~crandall/papers/mapping09www.pdf プロジェクト http://www.cs.cornell.edu/~crandall/photomap/
  • 97. Slava Kisilevich, Milos Krstajic, Daniel Keim, Natalia Andrienko, Gennady Andrienko, “Event-based analysis of people’s activities and behavior using Flickr and Panoramio geotagged photo collections”, in Information Visualisation, 2010. 【94】 Keywords: Geotagged Images, Photo-sharing websites 新規性・差分 概要 写真共有サービスから位置情報が付けられた画像を抽出し て空間的・時間的な解析を行い可視化する研究である.面 白そう/有名な場所の解析,行動パターンから興味を持つ 場所の解析などを行う.定期イベントによる場所と人の移 り変わりや,観光地ランク,モビリティなどの解析を行う. マイニングにより時間的や空間的に特徴的な傾向を抽出し た. 右の図は解析の結果得られた可視化の例であり,下記のよ うなものを含む. ・写真が撮られやすい場所 ・観光地における密度マップ ・イベントとその人数の変遷 ・FlickrとPanoramioによる行動の違い Links 論文 https://bib.dbvis.de/uploadedFiles/264.pdf プロジェクト
  • 98. Carl Doersch, Saurabh Singh, Abhinav Gupta, Josef Sivic, Alexei A. Efros, “What Makes Paris Look like Paris?”, in ACM Transactions on Graphics (ToG), 2012. 【95】 Keywords: Geo-tagged Images 新規性・差分 概要 その街らしさを説明する要素はどこにあるか?を解析した 論文である.例えば「パリ(フランス)」らしさを説明する 際には建物の窓やバルコニー,街の看板やランドマークな どが挙げられる.Web上の数万の画像を解析することで他 の街とは異なる特徴を見つける. ・「特徴的な」パターンを見つけるに成功した.エッフェ ル塔や看板のパターンなどは非常に有効な情報であること が判明した.バルコニーの平均画像においても他の都市と の違いを明らかにした.また,木や車などその街を説明す る度合いが低いものに関しては除去することができる ・ Links 論文 http://graphics.cs.cmu.edu/projects/whatMakesParis/paris_sigg _reduced.pdf ビデオ https://www.youtube.com/watch?v=s5-30NKSwo8 ビデオ2 https://vimeo.com/145472163 著者 https://www.cs.cmu.edu/~cdoersch/
  • 99. Daniel DeTone, Tomasz Malisiewicz, Andrew Rabinovich, “Deep Image Homography Estimation”, in arXiv pre-print 1606.03798, 2016. 【96】 Keywords: HomographyNet, DCNN 新規性・差分 概要 2視点間の変換行列H (Homography)を求めるためにDeep Convolutional Neural Networks (DCNN)を用いる.Multiple View Geometryの4点対応問題をDCNN内で解いて変換行 列を出力するというアプローチ. ・DCNN内でコンピュータビジョンの幾何的な問題を解決 できるようにした ・Classificationベースの手法とRegressionベースの手法を 提案し,エラーを求めた.結果的にRegressionの方がエラ ーが少なかった.(右図; 9.2 pixels) Links 論文 https://arxiv.org/pdf/1606.0379 8v1.pdf
  • 100. Wei Yang, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, “End-to-End Learning of Deformable Mixture of Parts and Deep Convolutional Neural Networks for Human Pose Estimation”, in CVPR, 2016. 【97】 Keywords: Deformable Mixture of Parts, Deep Convolutional Neural Networks, Human Pose Estimation 新規性・差分 概要 ・身体のパーツの変形可能で混合な表現にDeep Convolutional Neural Networks(DCNN)を組み合わせた, 人間の姿勢推定を行うエンドツーエンドなフレームワーク の提案 ・困難なアーティキュレーションに対し,最先端のアプロ ーチと比較して,パフォーマンスの向上を確認した. ・DCNNへ身体パーツ間の幾何学的関係の領域を事前知識 として組み込むことは困難であった. ・領域の事前知識をフレームワークに組み込むことで,モ デルの構成の柔軟性を向上 Links 論文 https://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1& cad=rja&uact=8&ved=0ahUKEwiFnaWqjKnNAhUj3KYKHQxrCJwQFggd MAA&url=https%3A%2F%2Fblue-sea-697d.quartiers047.workers.dev%3A443%2Fhttp%2Fwww.ee.cuhk.edu.hk%2F~xgwang%2Fpaper s%2FyangOLWcvpr16.pdf&usg=AFQjCNGOKTQBd5hBpYfaPwXRmUIrH 9S5pw&sig2=VV-Lxlfvn1E8VsQodsd4Tg
  • 101. Yingying Zhang, Desen Zhou, Siqin Chen, Shenghua Gao, Yi Ma, “Single-Image Crowd Counting via Multi-Column Convolutional Neural Network”, in CVPR, 2016. 【98】 Keywords: Crowd Counting, Multi-Column Convolutional Neural Network 新規性・差分 概要 ・任意の視点および任意の群衆密度の画像から,画像内の 人口を推定する方法の精度向上を目指す. ・入力画像に密度マップをマッピングするMulti-Column Convolutional Neural Network(MCNN)を提案 ・1198画像に33万の頭のアノテーションをつけたデータ セットを構築 ・既存の群衆データセットおよび提案したデータセットに おいて,既存するすべてのアプローチと比較して優れた性 能を発揮した. ・MCNNの入力画像は任意のサイズ・解像度でよい. ・異なるサイズを許容するフィルタを使用することで,画 像中の人物の距離や画像の解像度による人間の頭の大きさ の変化に対応している. ・真の密度マップを学習する必要はなく,すべて幾何学適 応カーネルを使用して,正確に計算される. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Zhang_ Single-Image_Crowd_Counting_CVPR_2016_paper.pdf
  • 102. Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla, “SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation”, in arXiv pre-print 1511.00561, 2015. 【99】 Keywords: SegNet, Semantic Segmentation 手法 結果 概要 ・Convolution-Deconvolution型のアーキテクチャで Semantic Segmentationを行うSegNetを提案. ・Encoder(下図左側):VGG16の13層のconvolution層を使用. FC層を使用しない. ・Decoder(下図右側):Encoderと対応する構造. upsamplingでは、Encoderのmax-pooling位置を再利用. ・FCN, DeconvNetより低精度だが,省メモリ・高速. Links 論文 http://arxiv.org/pdf/1511.00561v2.pdf プロジェクト(コードあり) http://mi.eng.cam.ac.uk/projects/segnet/ YouTube https://www.youtube.com/watch?v=e9bHTlYFwhg 新規性・差分 ・Convolution-DeconvolutionによりSemantic Segmentation. (SegNetの最初の論文[arXiv:1505.07293]はCVPR2015に 投稿されており,DeconvNetより投稿が早い.) ・end-to-endで学習可能であり,multi-stage training, region proposalsが不要.
  • 103. Hyeonwoo Noh, Seunghoon Hong, Bohyung Han, “Learning Deconvolution Network for Semantic Segmentation”, in ICCV, 2015. 【100】 Keywords: DeconvNet, Semantic Segmentation 手法 結果 ・Convolution-Deconvolution型のアーキテクチャで Semantic Segmentationを行うDeconvNetを提案. ・object proposalにより,サイズの異なる物体を効果的にSegmentation可能. 論文 http://www.cv- foundation.org/openaccess/content_iccv_2015/papers/Noh_Le arning_Deconvolution_Network_ICCV_2015_paper.pdf プロジェクト http://cvlab.postech.ac.kr/research/deconvnet/ コード https://github.com/HyeonwooNoh/DeconvNet ・Convolution network(下図左側):VGG16の13層のconvolution層を使用. FC層を2層使用. ・Deconvolution network(下図右側):Convolution networkと対応する構造. unpoolingでは,Encoderのmax-pooling位置を再利用. ・Convolution-DeconvolutionによりSemantic Segmentation. (SegNetよりarXivでの公開が10日早い。) ・object proposalによりinstance-wise segmentationが可能. 概要 Links 新規性・差分
  • 104. Edgar Simo-Serra, Satoshi Iizuka, Kazuma Sasaki, Hiroshi Ishikawa, “Learning to Simplify: Fully Convolutional Networks for Rough Sketch Cleanup”, in SIGGRAPH, 2016. 【101】 Keywords: DeconvNet, sketch simplification 手法 結果 ・Convolution-FlatConvolution-Deconvolution型の アーキテクチャでラフスケッチを線画化. ・state of the art[Liu+,2015](ベクタ画像の入力が必要) や, 市販ソフトと比較し,有効性を確認. 論文 http://hi.cs.waseda.ac.jp/~esimo/publications/SimoSerraSIGGRAPH2016.pdf プロジェクト http://hi.cs.waseda.ac.jp/~esimo/ja/research/sketch/ ・アーキテクチャ - Down-convolution: ラフスケッチを小さな特徴マップに圧縮. - Flat-convolution: 不可欠な線を抽出. - Up-convolution: 入力画像と同一の解像度に戻し,線画を出力. ・任意の解像度のラスタ画像から直接線画化可能なCNN. ・ラフスケッチ線画化用のデータセットを提供. 概要 Links 新規性・差分 ・線画化用データセット - 5人の絵師による68ペアの画像(ラフスケッチと単純化したスケッチの ア) - 通常の方法でラフスケッチを単純化すると,画像間の差異が大きいため 単純化した画像からラフスケッチを描くよう絵師に依頼. - 3種のData Augmentation
  • 105. Seunghoon Hong, Hyeonwoo Noh, Bohyung Han, “Decoupled Deep Neural Network for Semi- supervised Semantic Segmentation”, in NIPS, 2015. 【102】 Keywords: DeconvNet, Semantic Segmentation, Semi-supervised learning 手法 結果 概要 ・classification用のネットワークとsegmentation用のネッ トワークを分離した,半教師ありSemantic Segmentation を提案. ・PASCAL VOC 2012 datasetを用いた比較で WSSL[Papandreou+,ICCV2015]より高精度. Links 論文 http://papers.nips.cc/paper/5858-decoupled-deep-neural-network-for-semi-supervised- semantic-segmentation.pdf プロジェクト http://cvlab.postech.ac.kr/research/decouplednet/ コード https://github.com/HyeonwooNoh/DecoupledNet ・アーキテクチャ - Classification Network: 画像中の物体のクラスを特定. - Segmentation Network: 特定されたクラスごとに,2値のsegmentation. DeconvNetを使用. - Bridging layers: クラス特有の情報を伝え, 分離されたネットワークの最適化を可能にする. 新規性・差分 ・従来のsemantic segmentationが,領域ごとの classificationを学習していたのに対し,提案手法は classificationとsegmentationを分離し,別々のネットワー クとして学習. ・他の半教師あり学習と異なり,弱教師データからの pixel-wise segmentation生成・修正の繰り返しが不要. ・学習方法 - 多数のimage-level annotations(画像ごとのクラスラベルデータ)で Classification Networkを学習. - 少数のpixel-wise annotations(Segmentationデータ)で Bridging layers, Segmentation Networkを学習.
  • 106. Edgar Simo-Serra, Sanja Fidler, Francesc Moreno-Noguer, Raquel Urtasun, “Neuroaesthetics in Fashion: Modeling the Perception of Fashionability”, in CVPR, 2015. 【103】 Keywords: Fashionability, 新規性・差分 概要 ユーザのファッション性をいかに理解し,コーディネートの推薦手法に ついて提案する.ユーザのファッション性を理解して,類似のファッシ ョン性を持つユーザからどのようなコーディネートがあるのかを推薦す る.データセットは144,169枚の画像やメタデータ(コメント,場所,評 価など)から構成され,Coditional Random Fields (CRF)によりファッショ ン性を解析し,どのようなアイテムを追加したらよいかを考案する. ・ユーザタイプ,服装解析,写真映りなどを考慮したファ ッション性である”Fashionability”を考案した. ・ファッション共有SNSであるChictopicから画像やタグ情 報などを含む大規模データを構築し,ファッションの推薦 を行う技術を提案した. Links 論文 http://hi.cs.waseda.ac.jp/~esimo/publications/SimoSerraCVPR2015.pdf プロジェクト http://hi.cs.waseda.ac.jp/~esimo/ja/research/fashionability/ コード http://hi.cs.waseda.ac.jp/~esimo/en/research/fashionability/# データセット http://hi.cs.waseda.ac.jp/~esimo//data/Fashion144k_v1.tar.bz2 ポスター http://hi.cs.waseda.ac.jp/~esimo/publications/posters/SimoSerraCVPR2015_po ster.pdf
  • 107. Sergey Karayev, Matthew Trentacoste, Helen Han, Aseem Agarwala, Trevor Darrell, Aaron Hertzmann, Holget Winnemoeller, “Recognizing Image Style”, in BMVC, 2014. 【104】 Keywords: Style Recognition, Caffe 新規性・差分 概要 Flickr StyleやWikipaintingなど写真や絵画におけるスタイ ル認識を実行する.具体的には右図に示すようなものであ り,FlickrであればHDRやVintageなど20種,絵画であれば ImpressionismやCubismなど25種に分類する.データは Flickrが80K,Wikipaintingが85Kで構成されており,特徴 量はCNN6,7,MC-bit,LAB,GIST,Saliencyが用いられ たが,CNN特徴量を用いるのがよい.(ただし,全部の統 合がもっとも良好な性能を示す) ・写真や絵画のスタイル認識を提案 ・シーン認識やファッション認識(における前処理や特徴 量として)にも応用されている Links 論文 https://arxiv.org/pdf/1311.3715v3.pdf プロジェクト http://vislab.berkeleyvision.org/ デモ http://similaritydemo.vislab.berkeleyvision.org/similar_to/rando m/caffe%20fc6/euclidea
  • 108. Edgar Simo-Serra, Sanja Fidler, Francesc Moreno-Noguer, Raquel Urtasun, “A High-Performance CRF Model for Clothes Parsing”, in ACCV, 2014. 【105】 Keywords: Semantic Segmentation, Cloth Parsing 新規性・差分 概要 ファッション画像におけるセマンティックセグメンテーションの手法 を提案.Conditional Random Fields (CRF)によりモデルを構築, Unary項やPairwise項としてSimilarityやLimbsの項を設定した(10式). SuperPixelや人体の関節に対してラベルを付加することとし,Unary 項では色ヒストグラム,Gaborフィルタ,2次元の相対的な位置,前景 や背景,Clothelets,SIFTを,Pairwise項ではShape/ Color/ Textureの 類似度,関節とSuperPixelの位置関係を考慮して,CRF内で総合的に 判断する(右図). ・Fashionistaデータセットにてそれまでのstate-of-the-art [Yamaguchi+, CVPR2012]と比較して相対的に30%向上し た.29クラスのセマンティックセグメンテーションにて 12.32%から20.52%に向上した. Links 論文 http://www.cs.toronto.edu/~urtasun/publications/simo_et_al_ac cv14.pdf プロジェクト http://hi.cs.waseda.ac.jp/~esimo/ja/research/fashion/ コード http://hi.cs.waseda.ac.jp/~esimo/code/clothes_parsing/ 特徴量 http://hi.cs.waseda.ac.jp/~esimo//data/poseseg.tar.bz2
  • 109. Kota Yamaguchi, M. Hadi Kiapour, Tamara L. Berg, “Paper Doll Parsing: Retrieving Similar-Styles to Parse Clothing Items”, in ICCV, 2013. 【106】 Keywords: Cloth Parsing 新規性・差分 概要 ファッション検索を想定したファッション画像解析の研究 である.クエリ画像と類似した画像をデータベースから検 索する.ファッションアイテムのグローバルモデルやロー カルモデル,さらにはクエリから推定画像への転移学習を 行う.ファッション解析のフロー図は右に示す. ・クエリ画像からのファッション画像検索を実行 Links 論文 http://www.tamaraberg.com/papers/paperdoll.pdf プロジェクト http://vision.is.tohoku.ac.jp/~kyamagu/ja/research/paperdoll/ 著者 http://vision.is.tohoku.ac.jp/~kyamagu/ja/
  • 110. Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, Xiaoou Tang, “DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations ”, in CVPR, 2016. 【107】 Keywords: image retrieval, DeepFashion, CNN 新規性・差分 概要 総合的なアノテーションによる大規模な衣服データセットである Deep Fashionを紹介する.Deep Fashionは,大規模な属性,衣類の ランドマーク,異なる撮影環境といった注釈付けがされている80万枚 を超える画像より構成されている.またDeepFahsionのためのCNNア ーキテクチャであるFashionNetを提案する.FashionNetは共同で衣 類の属性やランドマーク(下図)を予測することにより衣類特徴を学習 する.推定されたランドマークはその後,学習した特徴をプーリング またはゲートするために用いる.推定されたランドマークは反復的に 最適化される. 衣服の大規模データセットであるDeepFashionと, DeepFashionを学習したCNNアーキテクチャであるFashioNet の提案.衣服に関する検索タスクの性能を大きく向上させた. Links Paper : http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Liu_DeepFashion_Po wering_Robust_CVPR_2016_paper.pdf Author : http://personal.ie.cuhk.edu.hk/~lz013/ project: http://personal.ie.cuhk.edu.hk/~lz013/projects/DeepFashion.html (上図)FashionNetの構造は16層のVGGNetと似ている.具体的に は,最後の層が図の赤,緑,青のハイライトで表現されているよ うな3種類の分岐による層に置き換えられている. (下図) DeepFashionの一例
  • 111. Alireza Fathi, James M. Rehg, “Modeling Actions through State Changes”, in CVPR, 2013. 【108】 Keywords: Video Segmentation, Key-frame, Action Detection 新規性・差分 概要 一人称ビジョンからの行動のセグメント化 (キーフレーム 検出)に関する論文.行動の開始と終了には特徴的な動作 が含まれる(e.g. Open Coffee Jar, Close Coffee Jar)と主張 して,行動検出を行った上でビデオをセグメントに分割. 弱教師あり学習のフレームワークにより行動検出とビデオ のセグメント化を実現. ・環境の変化をベースとして行動検出を実行した ・弱教師あり学習により行動検出 ・行動の開始-終了まで理解することができる Links 論文 http://ai.stanford.edu/~alireza/publication/Fathi_CVPR13.pdf
  • 112. Juan Carlos Niebles, Chih-Wei Chen, Li Fei-Fei, “Modeling Temporal Structure of Decomposable Motion Segments for Activity Classification”, in ECCV, 2010. 【109】 Keywords: Vdieo Segmentation 新規性・差分 概要 ひとつの行動内において異なるサブ行動/motion segments を把握した上で総合的に行動を判断する手法である.右の 図では複数(3つ)のSegmentをそれぞれ組み合わせ,それぞ れのスコアの合計により行動を評価. ・行動認識において,複数のセグメントを評価する手法を 提案した.全てのフレームを参照するではなく,有効な特 徴を選択して評価する. ・KTHデータセットにて非常に良好な性能を示した. Links 論文 http://vision.stanford.edu/pdf/NieblesChenFei- Fei_ECCV2010.pdf
  • 113. Torsten Sattler, Michal Havlena, Konrad Schindler, Marc Pollefeys, “Large-Scale Location Recognition and the Geometric Burstiness Problem”, in CVPR, 2016. 【110】 Keywords: Location Recognition 新規性・差分 概要 写真から自分が今どこにいるのかを推定する問題設定.学 習時にはクエリ画像とそのGPSの位置情報 (Geo-tag)を用 い,テスト時にはクエリ画像のみから詳細な位置推定を行 う.提案手法では大規模データによらず,周りとの相関に より位置を効果的に捉える方法を提案する.”Geometric Burst”と呼ばれる手法を考案. ・Geometric Burstと呼ばれる,その場所を記述する特徴点 を抽出する.異なる時間や天候などに依存しない特徴を Inlierと定義し,効果的に場所の特徴を説明するものを拾え た. ・特に,Recall率を向上することに成功した. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Sattler_ Large-Scale_Location_Recognition_CVPR_2016_paper.pdf コード https://github.com/tsattler/geometric_burstiness
  • 114. Xiaojun Chang, Yao-Liang Yu, Yi Yang and Eric P. Xing, “They Are Not Equally Reliable: Semantic Event Search using Differentiated Concept Classifiers”, in CVPR, 2016. 【111】 Keywords: semantic event detection, semantic event image retrieval 新規性・差分 概要 インターネット上の動画のような制約がない 場合での複雑なイベント検出は近年では多くの 進歩を見せている.しかし,正例の訓練データ の数が不足する場合にstate-of -the -artの精度は 劇的に低下する.動画のラベル付は,費用と時 間を要することから,動画が与えられていない 場合での意味的なイベント検出という非常にに 困難な問題の検討が必要である.本稿では任意 の例の動画がない場合でのイベント検索システ ムのstate-of -the -artシステムを提案する. 学習データ数が少ない場合における,動画像の 意味的イベント検出手法を提案した.具体的に は,他のソースから収集した概念分類を活用す ることを提案した. Links Paper : http://www.cs.cmu.edu/~yaoliang/mypapers/cvpr16a.pdf Author : http://www.cs.cmu.edu/~uqxchan1/ 大規模な意味的イベント検索のためのフレームワーク.(図は特定の乗馬競技イベンの場 合): まず,skip-gram言語モデルによって各概念とイベントの関連性を推定する.次に概念分 類の信頼性を考慮するために,概念スコアを空間的メタ学習を通じてcombineし,GCGア ルゴリズムより効率的に求める. 正例データ数を変化させた場合で のMEDTest 2014, MEDTest 2013 における提案手法の評価実験結果. SMLは,空間的メタ学習という著 者らの提案手法を示している.
  • 115. Sergey Zagoruyko, Nikos Komodakis, “Wide Residual Networks”, in arXiv pre-print 1605.07146, 2016. 【112】 Keywords: Deep Residual Networks (ResNet) 新規性・差分 概要 ResNetは残差を学習することで勾配の消失を防ぎ,深い構造のCNN 学習に非常に有効な枠組みである.しかし,ボトルネックとして特徴 の再利用の問題や学習が非常に遅いという報告がある(数十万回の学 習に数週間かかるようである).この問題に対し,提案手法では深さ を低減して幅を広げるというWide ResNet (WRNs)を提案する.具体 的にはショートカットの際に右図のように畳み込みマップの幅を広く し,さらには間にdropoutを挟むことでボトルネックを解消.この WRNは16層のモデルでも従来のResNetを上回る精度を実現したとし ている.GitHubにてコードを公開している. ・構造は深くないながら,従来のResNetの性能を上 回っている.CIFAR-100のデータにてオリジナルの ResNetが164層で24.33%,1001層で22.71%のエラー のところを,WRNでは20.0%までエラー率を下げた. ・それまでのとにかく深くするという流れに歯止めを かけた?(それがわかるのは今後の実験の繰り返しで ある) Links 論文 https://arxiv.org/pdf/1605.07146v1.pdf プロジェクト(コードあり) https://github.com/szagoruyko/wide- residual-networks
  • 116. Carl Vondrick, Hamed Pirsiavash, Antonio Torralba, “Anticipating Visual Representations from Unlabeled Video”, in CVPR, 2016. 【113】 Keywords: Action Prediction, Anticipating Action 新規性・差分 概要 人物の行動予測に関する論文である.映画のシーンを学習対象とし て,数秒後の行動を予測する.学習の枠組みはラベル付けされてい ない膨大な(600時間の)映像データから教師なし学習により実施す る.CNNによりモデリングするのは人物の行動や物体である. ・CNN内で時間的に離れたフレームの特徴の関連性を対応 づけることにより1~5秒後の行動を予測することに成功し た. ・人間の平均予測率が71%だったのに対して提案手法は 43.6%であった. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Vondric k_Anticipating_Visual_Representations_CVPR_2016_paper.p df プロジェクト http://web.mit.edu/vondrick/prediction/
  • 117. Prashanth Balasubramanian, Sarthak Pathak, Anurag Mittal, “Improving Gradient Histogram Based Descriptors for Pedestrian Detection in Datasets with Large Variations”, in CVPRW, 2016. 【114】 Keywords: HOG, Pedestrian detection 新規性・差分 概要 データセットにバリエーションがある際の歩行者検出につ いて,HOGベースの手法に対して改良を施す.バリエー ションを相殺する際にスムージングを行うわけであるが, エッジの消失を避けるためにランキングベースの非線形変 換を実施する. ・データセットのバリエーションを考慮 して,非線形変換によりスムージングを 行うことで歩行者の姿勢変動やその他の 要因によるばらつきがあったとしてもロ バストに歩行者を捉えることができる. Links 論文 http://www.cv- foundation.org//openaccess/content_cvpr_2 016_workshops/w24/papers/Balasubramani an_Improving_Gradient_Histogram_CVPR_ 2016_paper.pdf
  • 118. Bingbing Ni, Xiaokang Yang, Shenghua Gao, “Progressively Parsing Interactional Objects for Fine Grained Action Detection”, in CVPR, 2016. 【115】 Keywords: Fine Grained Action Detection 新規性・差分 概要 詳細行動認識を解決する際に人物だけでなく特に物体のラ ベルやその位置などを総合的に解析(Parsing)する.この解 析する際にはLong-Short Term Memory (LSTM)を用いるこ とで詳細認識の検出精度を改善することができると主張し た.右図は本論文の提案するフレームワークである.画像 の入力からVGG19により第5畳み込み層を取り出し, LSTMへの入力とする.LSTMでは文脈を把握した物体検 出を行い,フレーム間で情報を共有して信頼度の高い物体 を検出することも可能である.実際の行動検出には IDT+FVと組み合わせる.最終的な識別器はSVMで実行す る. ・詳細行動の検出に対して物体の解析やLSTMによる文脈 解析を導入した.物体解析も非常に高精度に行った. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Ni_Pro gressively_Parsing_Interactional_CVPR_2016_paper.pdf
  • 119. Yang Zhou, Bingbing Ni, Richang Hong, Xiaokang Yang, Qi Tian, “Cascaded Interactional Network for Egocentric Video Analysis”, in CVPR, 2016. 【116】 Keywords: Egocentric Video Analysis 新規性・差分 概要 一人称ビジョンにおいて[Fathi+, ICCV2011]の高度な改良 であるという位置付け.手や物体領域のセグメンテーショ ンや意味づけ,人物のモーション認識を総合した上で行動 を判断することができる.論文中では[Noh+, ICCV15]によ るセグメンテーション,Hand/Object/Motionという3種類 のマップによるカスケードにより候補領域の抽出や物体の 検出を実行,さらにはIDTによりモーション特徴を抽出す る.最後にはそれらの統合により行動認識を行う. ・GTEAやADLデータセットにて非常に高い精度を達成し た.ADLデータセットにてObjectのみでは43.8%だった認 識率もIDTを含めると55.2%まで向上する. ・Hand Segmentationもセマンティックセグメンテーショ ンの枠組みを用いると精度が劇的に改善する.それが一人 称ビジョンにおける行動認識に有益な情報となる. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Zhou_Cascaded_Inte ractional_Targeting_CVPR_2016_paper.pdf Fathi+, ICCV11 http://ai.stanford.edu/~alireza/publication/ICCV11.pdf Noh+, ICCV15 http://www.cv- foundation.org/openaccess/content_iccv_2015/papers/Noh_Learning_Decon volution_Network_ICCV_2015_paper.pdf
  • 120. Wei Yu, Kuiyuan Yang, Yalong Bai, Tianjun Xiao, Hongxun Yao, Yong Rui, “Visualizing and Comparing AlexNet and VGG using Deconvolutional Layers”, in ICML Workshop, 2016. 【117】 Keywords: CNN Visualization, Deconvolutional Layer 新規性・差分 概要 AlexNetとVGGNetを可視化することにより,深い構造は いかに特徴抽出をしているかを明らかにしようとする試み. AlexNet: 8層,VGGNet: 16/19層であるため,深さの違い についても働きを可視化する.可視化には[Zeiler & Fergus, ECCV14]のDeconvolutional Layersを用いている. ・可視化によりVGGNetがAlexNetよりもなぜ,優れてい るのかを明らかにした. ・右下の可視化はAlexNet, VGGNet-16の例である.下層 では画像全体に特徴が現れているが,上位層(c5_3やc5)で は物体の概念のみに対して特徴が浮かび上がっている.そ の特徴抽出はVGGの方が高度であった. Links 論文 http://icmlviz.github.io/assets/papers/4.pdf
  • 121. James Charles, James Charles, Derek Magee, David Hogg, Andrew Zisserman, “Personalizing Human Video Pose Estimation”, in CVPR, 2016. 【118】 Keywords: Personalize, Pose Estimation, CNN 新規性・差分 概要 ・自動でパーソナライズを行う姿勢推定ConvNetの提案 ・3つのベンチマーク(Pfister et al., Chen & Yuille, Yang & Ramanan)と比較して,State-of-the-art ・個人向けにファインチューニングすることで高い精度で 姿勢推定を行うことができるということを示した. ・dense optical flowとimage-based matchingを組み合わせ を使用することで,追加の姿勢のアノテーションを生成 ・オクルージョンアウェアな自己評価モデルを用いること で,誤った姿勢のアノテーションを除去し,高精度なアノ テーションを生成 ・以上のアノテーションを使用し,ConvNetをファインチ ューニング Links 論文 https://arxiv.org/pdf/1511.06676v2.pdf 著者 http://www.comp.leeds.ac.uk/scsjc/ Youtube https://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=0ahUKEwi67p3 E5LXNAhXMjZQKHc71CwAQtwIIKTAB&url=https%3A%2F%2Fblue-sea-697d.quartiers047.workers.dev%3A443%2Fhttps%2Fwww.youtube.com%2Fwatch%3Fv%3DYO1JF 8aZ_Do&usg=AFQjCNEg2YWLv31UpH0ccCONO6LDddMoAQ&sig2=5aTU3vZSXCEP60lElqhpYQ Stage1では,いくつかのビデオフレームは1つ以上の姿勢推定器か ら信頼度の高い推定値のものをアノテーションとしてつける. Stage2では,空間的なマッチングを使用する. Stage3で,アノテーションを時間的に伝播させる. Stage4で,エラーを除去するために新規のアノテーションの自己評 価を行う. Stage2〜4を繰り返し行い,パーソナライズを行う.
  • 122. Shih-En Wei, Varun Ramakrishna, Takeo Kanade, Yaser Sheikh, “Convolutional Pose Machines”, in CVPR, 2016. 【119】 Keywords: Pose Estimation, CNN 新規性・差分 概要 ・姿勢推定タスクに向けた画像特徴と画像依存の空間モデ ルの学習を行う手法(ポーズマシン)の提案 ・ポーズマシンは,豊富な暗黙の空間モデルの学習を行う 逐次予測フレームワークである. ・MPIIやLSP, FLIC datasetsを含むベンチマークと比較し, State-of-the-artな性能を発揮した. ・明示的なグラフィカルモデルの推測を行うことなく,身 体パーツ位置の高い推定値を生成するConvNetのシーケン スアーキテクチャを構成. ・目的関数を設けることで,学習中の勾配の損失による特 徴付不足に対応する. Links 論文 https://arxiv.org/pdf/1602.00134v4.pdf code https://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&cad=rja&uact=8&ved=0ahUKEwjCjZ2C- rfNAhWIX5QKHVsCDZ8QFgg4MAI&url=https%3A%2F%2Fblue-sea-697d.quartiers047.workers.dev%3A443%2Fhttps%2Fgithub.com%2Fshihenw%2Fconvolutional-pose-machines- release&usg=AFQjCNE7v_v5d-doV4pRDMcY1aI4-mf7Lw&sig2=PgGBNzeqTL-xvtnPYOdN1Q Youtube https://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&cad=rja&uact=8&ved=0ahUKEwjCjZ2C- rfNAhWIX5QKHVsCDZ8QtwIIPzAD&url=https%3A%2F%2Fblue-sea-697d.quartiers047.workers.dev%3A443%2Fhttps%2Fwww.youtube.com%2Fwatch%3Fv%3DMxgUeUo915k&usg=AFQjCNF5 AVge474-mynjJoEOFRXJSRWQvw&sig2=VMpTtbCgv4aL5TNV0pa4vw こちら側に図や実験結果を挿入し,キャプションを付けて ください.
  • 123. Yuka Kihara, Matvey Soloviev, Tsuhan Chen, “In the Shadows, Shape Priors Shine: Using Occlusion to Improve Multi-Region Segmentation”, in CVPR, 2016. 【120】 Keywords: Multi-Region Segmentation, Occulusion, Deep ;earning 新規性・差分 概要 ・画像中から互いにオクルージョンとなる可能性のある物 体を含む2次元画像から多領域分割を行うアルゴリズムの 提案 ・本アルゴリズムは,一度オクルージョン領域を認識する と,オクルージョンによって欠落した部分の推測を行う. ・本アルゴリズムを使用することで,オクルージョンによ って欠落した物体とオクルージョンとなった物体の復元画 像を生成することができ,高い精度で復元が可能である. ・Deep learning modelを使用し,前の段階の形状を取り 込む. ・全領域のエネルギーを最小化し,オクルージョンのない 領域のピクセルについて検討を行う. Links 論文 https://arxiv.org/pdf/1606.04590v1.pdf
  • 124. Di Lin, Jifeng Dai, Jiaya Jia, Kaiming He, Jian Sun, “ScribbleSup: Scribble-Supervised Convolutional Networks for Semantic Segmentation”, in CVPR, 2016. 【121】 Keywords: scribble, CNN, Semantic Segmentation 新規性・差分 概要 ・セマンティックセグメンテーションのデータセットにお けるアノテーションの付与を簡単で効率的に行うアルゴリ ズムの提案. ・本アルゴリズムは,PASCAL VOC,PASCALCONTEXT datasetにおいて優れた結果を示した. ・大規模なデータセットにおけるセマンティックセマンテ ィックモデルのアノテーション付けは,ピクセル単位で行 っており,極めて非効率的である. ・本アルゴリズムは上記の問題を解決する.画像上のセグ メンテーションしたい物体にスクリブル(落書きで書いた ような線)を描くことで自動的にセグメンテーションを行 うアルゴリズムとなっている. ・本アルゴリズムは,描いたスクリブルからデータを集約 し,各領域のCNNのパラメータを学習することで,自動的 なセグメンテーションを可能とする. Links 論文 http://www.cse.cuhk.edu.hk/leojia/papers/scribblesup_cvpr16.pdf プロジェクトhttp://research.microsoft.com/en- us/um/people/jifdai/downloads/scribble_sup/ Code https://www.dropbox.com/s/9vh3kvtd742red8/scribble_annotation.zip?dl =0 上図において,(b)は通常のアノテーシ ョンの付け方,(c)が本アルゴリズムで のアノテーションの付け方である. 左図は,グラフィカルモデルの概要 super pixel 上でのpairwise termはマー クされていない画素に情報を伝播させ るために使用する. network-based unary termはFCNからの 情報に従い,修正を行う.
  • 125. Lisa Anne Hendricks, Subhashini Venugopalan, Marcus Rohrbach, Raymond Mooney, Kate Saenko, Trevor Darrell, “Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data”, in CVPR, 2016. 【122】 Keywords: Image Captioning 新規性・差分 概要 画像を説明するのみならず,質問に対する回答文を用意す る.従来では画像性成分のミスが回答文のミスに繋がって いたが,外部データを有効に(ペアとして)学習することで 該当する知識の転移を行う. Word2vecを用いることでペアの概念の距離を計算する. これを画像特徴量と対応づけることで効果的に画像説明文 を行えることが判明した. ・MSCOCOにて非常に高い精度を達成した.METEORに て21,F1にて39.78を達成 ・DCCによる転移により,データサンプルの少ないような ものに対しても効果的に学習ができることが判明した ・ビデオへの適用や,NOCにより表現能力を拡張しただけ でなく, Links 論文 https://arxiv.org/abs/1511.05284
  • 126. Junhua Mao, Jonathan Huang, Alexander Toshev, Oana Camburu, Alan Yuille, Kevin Murphy, “Generation and Comprehension of Unambiguous Object Descriptions”, in CVPR, 2016. 【123】 Keywords: Image Captioning 新規性・差分 概要画像認識レベルではなく,画像の説明文のための表現能力 を向上する.(x: a man, o: a man is wearing a blue sweater) また,画像説明文の評価は非常に難しいが,これ をわしゃの意図に沿うように、さらには受けてにもわかり やすい文章にするべく画像を理解する. CNN特徴やLSTMにより全ての候補領域からの説明を行い, 最大化する.LSTMモデルは全ての候補領域から生成され たものとLoss関数を最小化するものが選択される. ・・話し手や受け手の意図をLSTMモデルに反映させるこ とにより,効果的な画像説明文の生成が可能となった. Links 論文 http://cbmm.mit.edu/sites/defau lt/files/publications/object_descr iption_cbmm.pdf
  • 127. Zichao Yang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Smola, “Stacked Attention Networks for Image Question Answering”, in CVPR, 2016. 【124】 Keywords: 新規性・差分 概要 画像の説明文をベースとして,コンピュータが質問に回答する質問回答文を用 意する.画像と質問文を入力として,多階層モデルにより回答を用意する. SANsは質問モデル,回答モデル,複数のアテンションモデル,推定器を備えて いる.VGGの画像特徴マップ,LSTMによる回答モデル,アテンションマップ は質問や画像特徴からMulti-modal poolingにより対応付けされる.さらにはこ のMulti-modal poolingを再帰的に繰り返すことによりアテンションや回答の質 を高める.最後にSoftmaxにより回答を出力. ・Multi-modal poolingにより言語と画像の対応づけを行い, 質問回答文への効果的なモデルとした. ・VQAチャレンジ@CVPR16での優勝チームもこの Stacked Attention Networksをベースとした Links 論文 https://arxiv.org/abs/1511.02274 コード https://github.com/zcyang/imageq a-san
  • 128. Hyeonwoo Noh, Paul Hongsuck Seo, Bohyung Han, “Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction”, in CVPR, 2016. 【125】 Keywords: 新規性・差分 概要 Dynamic Parameter Prediction (DPP)を提案することにより質問回答文を行う. 質問回答文は複数の物体認識が複合的に合わさっていると仮定し,DPPを畳 み込みや全結合層の後に配置する.アーキテクチャは識別ネットワークと推 定ネットワークに分けられる.識別はVGGとDPP,推定はGRUとDPPにより 構成され,最終的には回答が用意される.Pre-trained GRUやFine-tuning CNN により効果的に画像や文章の特徴を捉えることが可能となる. ・ベースラインと比較(with / without DPP)すると,DPPを 用いることにより精度がよくなることがわかった. Links 論文 http://arxiv.org/abs/1511.05756 コード https://github.com/HyeonwooNoh/DPPnet 著者 http://cvlab.postech.ac.kr/~hyeonwoonoh/
  • 129. Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Dan Klein, “Neural Module Networks”, in CVPR, 2016.【126】 Keywords: Image Question Answering 新規性・差分 概要 Neural Module Networksを提案することで質問回答文への 提案とする.右図のグレーの部分が提案部分である.質問 文(e.g. red, above)から画像を参照し,回答にふわさいい ものを探索する.特徴はCNN,文章の解釈はLSTMと標準 的なものを用いるが,コントリビューションはそこからの 階層的な探索であるNeural Module Networksであり,効果 的な回答を用意するための仲介役をこなす. ・・Neural Module Networksにより回答文の構造化を効果 的に行った.色,画像中の位置や形状など,あらゆる言語 や画像の関係性を捉えられるようにした. ・質問回答文のデータセットにおけるstate-of-the-art 58.9% vs 59.4% 提案手法
  • 130. Scott Reed, Zeynep Akata, Honglak Lee, Bernt Schiele, “Learning Deep Representations of Fine-grained Visual Descriptions”, in CVPR, 2016. 【127】 Keywords: Zero-shot learning 新規性・差分 概要 Zero-shot学習は学習データのラベルがない状態で概念を学習 することである.この状態で詳細な画像説明 (fine-grained visual descriptions)を実現する.モデルとしてはRNNがmid- level CNNの上位に位置するモデルを提案. ・zero-shot in CUBにてstate-of-the- artを達成 ・画像検索においてもクエリ文章か ら画像特徴を効果的に選び出し,意 図に沿うピンポイントな画像を検索 できるようにした Links 論文 http://web.eecs.umich.edu/~honglak/cvpr2 016-sentenceEmbed.pdf
  • 131. Zeynep Akata, Mateusz Malinowski, Mario Fritz, Bernt Schiele, “Multi-Cue Zero-Shot Learning With Strong Supervision”, in CVPR, 2016. 【128】 Keywords: Zero-shot learning 新規性・差分 概要 画像空間とクラスの空間を学習するために,part annotationやキーポイント位置を与えてその対応関係を覚 えさせておく.Multiple Visual Partsは0ショットの文脈に てstate-of-the-artな精度を与えた(56.5% on CUB).さらに, 概念間のギャップを埋めた. ・Deep Fragment Enbeddings を適用してzero-shot learningにおける言語の手がかりと画像の手がかりを対応 づけした. ・構造化されていない言語データに対して人物のアノテー ションがなく言語の対応づけを行った Links 論文 http://arxiv.org/abs/1603.08754
  • 132. Yongqin Xian, Zeynep Akata, Gaurav Sha, “Latent Embeddings for Zero-shot Classification”, in CVPR, 2016. 【129】 Keywords: Zero-shot learning 新規性・差分 概要 画像とクラス空間をzero-shotにより学習する. SJE[Akata+, 2015]が十分な識別を得られなかったため, その改善に取り組んだ.それに対してLatent Embeddings Methods (LatEm)を提案することで複数行列の学習を行い, 画像とクラス空間の誤差(分散)を少なくする. ・物体の姿勢やアピアランス,その他の要因に対するバリ エーションにおいてもZero-shot learningの枠組みで学習し て言語を対応づけ可能とした. ・高速かつ効果的なモデル選択手法(e.g. Model Prunning) を提案 ・右下の検索された画像を見てみると,詳細な概念が学習 されていることがわかる. Links 論文 http://arxiv.org/pdf/1603.08895v2.pdf
  • 133. Roland Kwitt, Sebastian Hegenbart, Marc Niethammer, “One-shot learning of scene locations via feature trajectory transfer”, in CVPR, 2016. 【130】 Keywords: One-shot learning 新規性・差分 概要 One-shot学習によるシーン位置の学習.似通った画像特徴 から位置を特定することは可能か,また微細な特徴の変化 をどのように学習するのかを提案する. ・天候の違いや場所など40のアトリビュートを推定する問 題を提供,Transient Attributes Databaseを提案した. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Kwitt_O ne-Shot_Learning_of_CVPR_2016_paper.pdf プロジェクト https://github.com/rkwitt/TrajectoryTransfer
  • 134. Chuang Gan, Tianbao Yang, Boqing Gong, “Learning Attributes Equals Multi-Source Domain”, in CVPR, 2016. 【131】 Keywords: 新規性・差分 概要 Zero-shot学習による,画像検索のためのアトリビュート 学習.中レベルと高レベルの空間は交錯していて識別が非 常に難しいが,ドメイン生成モデルにより効果的な識別を 実現する. ・AWA, CUB, a-YahooやUCF101にて非常に効果的な学習 と識別を行った. Links 論文 http://crcv.ucf.edu/people/faculty/Gong/Paper/attribute- dg.pdf 著者 http://homepage.cs.uiowa.edu/~tyng/
  • 135. Judy Hoffman, Saurabh Gupta, Trevor Darrell, “Learning with side information through modality hallucination”, in CVPR, 2016. 【132】 Keywords: 新規性・差分 概要 ソースドメイン(RGB)とターゲットドメイン(Depth)が異な るシーンでの適用方法.Modality Hallucinationを行う, RGBとHalluciationネットワークからの損失関数を最適化. NYUDv2 RGBDetectionにてFast R-CNN 29%に対して提 案手法は34%. ・Depth画像に頼りすぎることなく,補助情報としてRGB の情報をよくするという発想 ・良好な識別結果を達成した Links 論文 https://people.eecs.berkele y.edu/~jhoffman/papers/Ho ffman_CVPR16.pdf
  • 136. David F. Fouhey, Abhinav Gupta, Andrew Zisserman, “3D Shape Attributes”, in CVPR, 2016. 【133】 Keywords: 3D Shape Attribute 新規性・差分 概要 3次元の複雑な形状を復元するための手法を提供する.従来のカテゴリベー スの認識ではなく,形状の「雰囲気」を表現するような認識にする.この 問題のために彫刻の2次元画像のデータセットを生成.データはwikipediaや Flickrなどで収集.242のアーティストから2197のワード、143kの画像を 9352ビューポイントより収集した.認識のモデルはVGG-Mモデルから12 shape attributes, 1024のshape embeddingを出力. ・形状の雰囲気を伝えるような認識を可能と した. ・72.3%の認識率を達成,ローカルには 82~87%のクラスも存在し,同一形状の物体に 対して回転しているかどうかも表現可能 (類似 しているが,異なる形状かどうかを判断可能). Links 論文 http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/f ouhey16.pdf プロジェクト http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/
  • 137. Joseph DeGol, Mani GolparvarFard, Derek Hoiem, “Geometry-Informed Material Recognition”, in CVPR, 2016. 【134】 Keywords: 新規性・差分 概要 航空画像からの材質認識 (Material Recognition)である.GeoMat Dataset を提案し,サーフェイスからその材質が何であるかを推定する.点群情 報も提供し,3次元的な情報も適用可能である.識別困難な状況も,3次 元的な形状を把握した上で材質を判断可能である. FV+CNNが68%であるのtに対してFV-Nが73%,+N3Dが73.84%. ・航空画像からの材質認識という困難な課題に取り組んで, 一定以上の成果をあげたことが新規性として挙げられる. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/DeGol_ Geometry- Informed_Material_Recognition_CVPR_2016_paper.pdf
  • 138. Abhijit Bendate, Terrance E. Boult, “Towards Open Set Deep Networks”, in CVPR, 2016. 【135】 Keywords: Open World Setting 新規性・差分 概要 従来のAlexNetのような物体のカテゴリ認識ではなく,カ テゴリにプラスして様々な環境におけるカテゴリを認識す るためにソフトマックス関数の出力を用いる(Open Set ). Softmaxのみならず,Openmax関数を定義してこの問題に 取り組み,この問題に取り組んだ.Openmaxでは unknownクラスなども含み,実世界をより深く認識するた めの枠組みとなっている. ・Softmaxに加えて,より表現能力をましたOpenMaxと呼 ばれる出力層を提案した. ・CNN easily fooledにインスパイアされて,「よくわから ない」クラスなどより実世界の認識に近い性質を識別器に もたせた. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Bendal e_Towards_Open_Set_CVPR_2016_paper.pdf
  • 139. Mark Wolff, Robert T. Collins, Yanxi Liu, “Regularity-Driven Building Façade Matching Between Aerial and Street Views ”, in CVPR, 2016. 【136】 Keywords: 新規性・差分 概要 ストリートビューと航空画像を対応づける問題.この問題 に対して建物の窓など少ないながらも特徴的な部分をマッ チングすることにより解決する.エッジやカラー,テクス チャや変形のコストを用いることによりマッチング精度を 向上した.NYUやSF, Romaのデータにおいて高い精度を 実現した. ・Street-viewとAerial-view間の誤 差関数を決定したことが新規性と して挙げられる. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr _2016/papers/Wolff_Regularity- Driven_Facade_Matching_CVPR_2016_ paper.pdf
  • 140. R. T. Pramod, S. P. Arun, “Do Computational Models Differ Systematically From Human Object Perception?”, in CVPR, 2016. 【137】 Keywords: 新規性・差分 概要 人間に近い物体検出手法を実現する.人間の視覚機能(特 徴抽出)と画像特徴の比較を行うことで,人間とコンピュ ータの違いを見分けるというものである.これに対して形 状が微小に異なる物体やその位置を変更して反応時間を計 測した. ・形状変化を微小に含むデータセットを用いて人間の反応 速度やコンピュータによる物体検出を行うことで,両者の 違いを明らかにする. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Pramod _Do_Computational_Models_CVPR_2016_paper.pdf
  • 141. Wei Wang, Zhen Cui, Yan Yan, Jiashi Feng, Shuicheng Yan, Xianbo Shu, Nicu Sebe, “Recurrent Face Aging”, in CVPR, 2016. 【138】 Keywords: Face Aging, Recurrent Neural Networks 新規性・差分 概要 人物の顔の経年変化を表現した.年齢のグループを9つに分類, データを男女で合計6,000のペアを用意した.データに対しては半 自動で年齢のアノテーションを行っている.Interpolation + Eigenfaces & OpticalFlowにより顔特徴量を取っている.さらに, 経年による人物の顔変化においてもデータから表現する. ・RNNを用いて,特徴を効果的に捉えたうえでRNNアー キテクチャを設定した. ・中間顔 (intermediate faces)を生成することができるよう になった Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Wang_ Recurrent_Face_Aging_CVPR_2016_paper.pdf
  • 142. Justus Thies, Michael Zollhofer, Marc Stamminger, Christian Theobalt, Matthias Niessner, “Face2Face: Real-Time Face Capture and Reenactment of RGB Videos”, in CVPR, 2016. 【139】 Keywords: Face Reenactment with Single View 新規性・差分 概要 顔特徴点の追跡により,顔から別の顔への投影を実施する. Parametric Face Modelでは個人差や顔の表情,その他の 動作や照明などによる顔の見え方を推定するためのモデル とする.ReenactmentではRGBの画像から各種パラメータ や特徴点追跡の結果を,ターゲット側でも各種パラメータ を推定しておく. ・単眼カメラからの入力で,顔の置き換えをリアルタイム で実行できるようにした.これにより,ウェブカメラのみ で顔の置き換えができるようになったと言える. ・顔の微小な特徴点追跡を行うことができた Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Thies_ Face2Face_Real-Time_Face_CVPR_2016_paper.pdf
  • 143. Sergey Tulyakov, Xavier Alameda-Pineda, Elisa Ricci, Lijun Yin, Jeffrey F. Cohn, Nicu Nebe, “Self- Adaptive Matrix Completion for Heart Rate Estimation”, in CVPR, 2016. 【140】 Keywords: Heart Rate Estimation 新規性・差分 概要 画像ベースの顔認識から心拍を推定するという研究.66の 顔特徴追跡から顔画像を切り抜き,領域を変換する.Low- rank 行列やマスク画像の推定を行うSelf-adaptive Matrix Completionを用いて推定した. ・顔画像から心拍数を推定するという新しい試みに対して 成功と言える ・入力は顔画像で十分であるということを実証した Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Tulyako v_Self-Adaptive_Matrix_Completion_CVPR_2016_paper.pdf
  • 144. Leon A. Gatys, Alexander S. Ecker, Matthias Bethge, “Image Style Transfer Using Convolutional Neural Networks”, in CVPR, 2016. 【141】 Keywords: Style Transfer, CNN 新規性・差分 概要 CNNを用いた画風の変換に関する研究.CNNに含まれる 特徴マップのマルチスケール性をうまく利用して詳細な領 域においても画風の変換を実行する.風景画を変換して, 絵画に若干近づけたあとに変換を行うことで,どのような 画像でも自然な画風変換が可能になる. ・生成モデルを改良して,画像の表現方法を拡張した ・画風変換のための制御しやすくなり,より人間のイメー ジに沿うような画像変換とした Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Gatys_I mage_Style_Transfer_CVPR_2016_paper.pdf
  • 145. Arthur Daniel Costea, Sergiu Nedevschi, “Semantic Channels for Fast Pedestrian Detection”, in CVPR, 2016. 【142】 Keywords: Semantic Segmentation, ICF, Pedestrian Detection 新規性・差分 概要 セマンティックセグメンテーションをチャネルとして用い た歩行者検出.直感的にはIntegral Channel Features (ICF) のチャネルを増やしていると捉えることができる.セマン ティックセグメンテーションは人や建物,路面などが含ま れる. ・セマンティックセグメンテーションの結果をチャネルと してICFを取得 ・チャネルに対するフィルタを複数階層に渡り抽出できる ようになった ・ICFの高速な処理(15fps)のみならず,Caltech Pedestrian にてエラー率16.83%という数字を記録した Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Costea _Semantic_Channels_for_CVPR_2016_paper.pdf
  • 146. Hakan Bilen, Basura Fernando, Efstratios Gavves, Andrea Vedaldi, Stephen Gould, “Dynamic image networks for action recognition”, in CVPR, 2016. 【143】 Keywords: 新規性・差分 概要 ビデオフレームを一枚の画像に投影した状態でCNNにより 時系列特徴を抽出をして行動認識を実行する.Two- Stream CNNのTemporal-Streamの改良である.時系列画 像よりランク学習を行い”Dynamic Image”を生成する. Rank pooling layerやさらには学習の効率化のための近似 により時系列のまとまりを効果的に学習し,行動認識に効 果的な特徴を捉える. ・Rank Pooling Layerやその近似手法により誤差逆伝播法 を用いた際にも高速かつ高精度な時系列表現を実現. ・行動認識に対して効果的な性能を発揮した. Links 論文 https://www.robots.ox.ac.uk/~vgg/publications/2016/Bilen16a/b ilen16a.pdf
  • 147. Vignesh Ramanathan, Jonathan Huang, Sami Abu-Le-Hajia, Alexander Gorban, Kevin Murphy, Li Fei- Fei, “Detecting Events and Key Actors in Multi-person Videos”, in CVPR, 2016. 【144】 Keywords: Event Recognition, Action Recognition 新規性・差分 概要 (学習のアノテーションなしに)Key-Actorを見つけることでより複雑 な行動認識やイベント認識を効果的に行う.Basketball Databaseを 公開し,複雑なイベント認識を行う際にいかに自動で重要人物を捉 えるかを提案する.学習では人物のアノテーションがないので,人 物の検出と追跡を行い,イベント認識と同時に重要人物の学習を行 い,テスト時にはKey-Actorとそのラベルを返却する.重要人物やイ ベントの学習とテストにはBidirectional LSTMを用いた. ・アノテーションがない状態から人物の検出や追跡を行い, イベント認識のラベルから重要人物の学習を行うことがで きる. ・Bidirectional LSTM (BLSTM)をイベント認識のタスクに 用いることができた Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Raman athan_Detecting_Events_and_CVPR_2016_paper.pdf プロジェクト http://basketballattention.appspot.com/ データセット http://basketballattention.appspot.com/bball_dataset_april_4.cs v
  • 148. , “Regularizing Long Short Term Memory With 3D Human Skeleton Sequences for Action Recognition”, in CVPR, 2016. 【145】 Keywords: LSTM, RNN, 3D Pose 新規性・差分 概要 カメラのビューポイントやモーションの分散が大きい大規 模データベースからの行動認識を扱う.モデルにはLSTM が用いられており,2層構成でエンコードとデコードを行 う.クラスの損失やクラス内分散に関する拘束を与えて学 習を実行する. ・現在の行動モデルはCNNをより深くかつデータを大規模 にしているが,次元人体姿勢を推定して学習することでそ れらの問題を解決した.特徴空間も低次元である. ・低次元ながら大規模データベースに対しても一定の精度 を達成した. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2 016/papers/Mahasseni_Regularizing_Long _Short_CVPR_2016_paper.pdf
  • 149. Zuxuan Wu, Yanwei Fu, Yu-Gang Jiang, Leonid Sigal, “Harnessing Object and Scene Semantics for Large-Scale Video Understanding”, in CVPR, 2016. 【146】 Keywords: 新規性・差分 概要 イベント認識を行う際に物体やシーンの認識を行う. 20,954クラスの物体情報や205のシーン情報を追加して時 系列画像からの認識を行う.また,Zero-shot Learningの 枠組みも使用している. ・イベントの認識に対して物体やシーンの認識による表現 を取り入れた ・行動認識やイベント認識の大規模データベースに対して も効果的に働くことが判明した Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Wu_Ha rnessing_Object_and_CVPR_2016_paper.pdf プロジェクト https://www.disneyresearch.com/publication/harnessing- object-and-scene-semantics/
  • 150. Oscar Koller, Hermann Ney, Richard Bowden, “Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data is Continuous and Weakly Supervised”, in CVPR, 2016. 【147】 Keywords: 新規性・差分 概要 弱教師あり学習のための大規模な手のデータセットを公開 した.アプリケーションとしては手話認識のためである. ImageNetにて学習済みのモデルを用いて,GoogLeNetを 学習する. ・とにかくデータを大量に用意して,データを対応づける という手法をとる Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Koller_ Deep_Hand_How_CVPR_2016_paper.pdf YouTube https://www.youtube.com/watch?v=TPXzc3GKF9c
  • 151. Edward Johns, Stefan Leutenegger, Andrew J. Davidson, “Pairwise Decomposition of Image Sequences for Active Multi-View Recognition”, in CVPR, 2016. 【148】 Keywords: 新規性・差分 概要 ロボットの認識のためにカメラビュー推定とアクティブな 物体認識を実現するという研究.ModelNetと呼ばれる, 3D ShapeNetを参考にした手法を考える.提案手法ではペ アとなる画像の回転を推定するネットワークを構築してカ メラビューを推定する. ・回転を計算するネットワークを構築することで 全ての領域にて Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Johns_ Pairwise_Decomposition_of_CVPR_2016_paper.pdf
  • 152. Yixin Zhu, Chenfanfu Jiang, Yibiao Zhao, “Inferring Force and Learning Human Utilities From Videos”, in CVPR, 2016. 【149】 Keywords: 新規性・差分 概要 ビデオの入力と3次元の環境から体内の力のかかり具合を 推定するという問題設定である.人物の姿勢や屋内環境に おける家具や床の状況から重心のみならず,体重の分散や 体における力のかかり具合を推定する. ・体内の力のかかり具合を推定するという新しい 問題設定にチャレンジした Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Zhu_Inf erring_Forces_and_CVPR_2016_paper.pdf
  • 153. , “Robust Multi-Body Feature Tracker: A Segmentation-Free Approach”, in CVPR, 2016. 【150】 Keywords: 新規性・差分 概要 位置付け的にはKLTの改良で,例えば車両の複数領域にお いて特徴点追跡を行う.提案手法ではセグメンテーション フリーなエピポーラ拘束に従った手法を用いる. ・トラジェクトリ推定のエラーの低減に貢献し,KITTIな ど車両のデータにも用いることで効果を発揮することが判 明した Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Ji_Rob ust_Multi-Body_Feature_CVPR_2016_paper.pdf
  • 154. Shoou-I Yu, Deyu Meng, Wangmeng Zuo, Alexander Hauptmann, “The Solution Path Algorithm for Identity-Aware Multi-Object Tracking”, in CVPR, 2016. 【151】 Keywords: 新規性・差分 概要 IDが紐付けされた複数物体追跡の問題を扱う.オクルージ ョンのあとに交差した状況においてもラベル付けを謝るこ となく追跡することができるようになる. ・新規にL0ノルムをベースとした最適化手法を提案した ・ Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Yu_The _Solution_Path_CVPR_2016_paper.pdf
  • 155. Yi-Hsuan Tsai, Ming-Hsuan Yang, Michael J. Black, “Video Segmentation via Object Flow”, in CVPR, 2016. 【152】 Keywords: Video Segmentation, Segmentation, Optical Flow 新規性・差分 概要 オプティカフロー画像を初期値として,動的物体のセグメ ンテーションを行う.オプティカルフローの動的物体を捉 える性質と,セグメンテーションの境界を切り分ける性質 を利用して高精度なビデオに対するセグメンテーションを 実行する.デンスオプティカフローと,セグメンテーショ ン手法はSuperpixelとグラフィカルモデルを適用した. ・セグメンテーションとオプティカフローのメリットを組 み合わせた手法により動的な画像においても高精度にセグ メンテーションが行えている. Links 論文 http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Tsai_Vi deo_Segmentation_via_CVPR_2016_paper.pdf
  • 156. Hua Zhang, Si Liu, Changqing Zhang, Wenqi Ren, Rui Wang, Xiaochun Cao, “SketchNet: Sketch Classification with Web Images”, in CVPR, 2016. 【153】 Keywords: image retrieval, Sketck Retrieval 新規性・差分 概要 スケッチ画像中の特有の構造を検出する弱教師あり学習手法の提案. SketchNetを名付けたCNNより,スケッチ画像と実画像との間に存 在する潜在的構造を学習する.TUBerlinスケッチベンチマークでの 実験において,SketchNetは有効性を実証し,スケッチ画像分類にお いて深層特徴は最先端手法を超える実質的な改善をもたらすことを 示した. SketchNetというスケッチ画像によるweb上の類似画像検索 のためのCNNアーキテクチャを提案している.TUBerlinスケ ッチベンチマークにおいて,従来手法の性能を上回った. Links Paper : http://www.cv- foundation.org/openaccess/content_cvpr_2016/papers/Zhang_SketchNet_Sk etch_Classification_CVPR_2016_paper.pdf (上図)SketchNetを用いたスケッチ画像のカテゴリ予測:初めに学習 済みのSketchNetより予測カテゴリを初期化する.スケッチ画像と テスト画像のペアをテストペアとしてSketchNetに入力,テストペ アごとの予測結果をマージして,最終的なカテゴリを識別する. (下図)SketchNetのアーキテクチャ: R-netにはテスト画像(正例)と, テスト画像とは異なるカテゴリの画像(負例)を入力,S-netにはスケ ッチ画像を入力する.Netごとの出力を図のようにマージしC-netに