SlideShare a Scribd company logo
2
Most read
7
Most read
13
Most read
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Deep High-Resolution Representation
Learning for Human Pose Estimation”
Matsuo Lab, Ryo Okada/岡田 領
Outline
1. 書誌情報
2. 論文の概要
3. 姿勢推定問題とは
4. 先行研究
5. 提案手法
6. 実験
7. まとめ
2
書誌情報
• タイトル
– Deep High-Resolution Representation Learning for Human
Pose Estimation
• 著者
– Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang
– University of Science and Technology of China,
Microsoft Research Asia
• CVPR’19
3
概要
4
本論文の概要
• Deep High-Resolution Representation Learning for
Human Pose Estimation
– ネットワーク全体で高解像度を維持する一方で、複数スケールを繰り返し
フィージョンする姿勢推定のためのhigh resolution network
(HRNet)を提案
– 異なるスケールのインタラクションを密にして高精度出した
5
姿勢推定とは
6
Human Pose
Estimation - 姿勢推定
• 姿勢推定とは
– 画像や動画から肩や手首といった人間の関節部分
(キーポイント)を推定する問題
• 種類
– 2D姿勢推定
• 画像から関節部分の2次元(x, y)の位置を推定する
– 3D姿勢推定
• 画像から関節部分の3次元(x, y, z)の位置を推定す
る
• 利用例
– 行動認識、アニメーション、ゲーム
– Homecourt(バスケのシュートの分析アプリ)
7
Human Pose Estimation - 姿勢推定
• 姿勢推定モデルのアプローチ
– トップダウンアプローチ
• まず人物を検知する。その後、それぞれの人物について姿勢推定(Single Person Pose
Estimation)を行う。
• 人数に比例して計算量が増加する
– ボトムアップアプローチ
• 画像中のキーポイントを全て洗い出したあと、人物ごとにマッチングさせて繋ぎ合わせて
いく。
• トップダウンに比べ、計算量が少ないが、部位間のつなぎ合わせの精度が低い
8
先行研究
9
姿勢推定の先行研究
10
Hourglass Cascaded pyramid network Simple Baseline
• 対照的な高->低、低->高解像度の
ネットワーク(Hourglass)を直列に
8つつ繋ぐ。それぞれのhourglass
ではIntermediate supervisionを用
いる。
• Skip connection使ってフュージョ
ンする。
• トップダウンアプローチ(人物検
知->姿勢推定)
• 左側の GlobalNetで単純明瞭な
キーポイントを見つける。右部分
のRefineNetが複数スケールの特
徴をアップサンプリング・統合す
ることで、抽象度の高く、見つけ
づらいキーポイントの推定を行う。
• ResNetで高->低解像度、Hourglass
ではアップサンプリングであった
が、deconv layerでスケールを戻
す。
• シンプルなネットワークで高性能
を示した。
• ECCV Posetrack challenge 2018で優
勝
• 著者らの前作
既存研究のポイントと提案手法の着想
11
既存研究 提案手法
直列に高->低解像度へ落とす
段階的に異なるスケールを加えていく
ものが多い
Intermediate supervisionを使用
(Hourglassなど)
並列に高->低解像度ネットワーク
(分類やセグメンテーションのmulti scale
networkから着想. Ex. Convolutional
neural fabric, interlinked CNN)
複数スケールを一気に繰り返しフュー
ジョン
(Deep fusionから着想)
intermediate supervisionを使用
しないため、計算量小。
ネットワーク
構成
複数スケール
の加算方
Intermediat
e
supervision
提案手法
12
HRNetのアーキテクチャ
13
• 高解像度から始め徐々に低解像度
のサブネットワークを加えていく。
• 後段のステージの並列ネットワー
クの解像度は前段のステージのも
のに加え、より解像度の低いもの
で構成される。
• サブネットワーク間で情報を繰り
返しフュージョンする
• 異なるスケールのfeature mapは
アップサンプリング (nearest
neighbor サンプリング + 1x1
convolution) またはダウンサ
ンプリング (strided 3x3
convolution) して加算。
並列マルチ解像度サブネットワーク Exchange Unit
s: stage, r: resolution index
HRNetのアーキテクチャ
14
• 最終層では1x, 2x, 4x, 8xの4スケー
ルが出力される。このうち最も精度の
高い1xの出力のみが用いられる。
• 損失関数はground truthのキーポイン
トヒートマップに対するmean square
error。
HRNet全体イメージ 出力
• 4ステージ、4並列サブネットワーク
• 実験では2サイズのネットワークを用意
• HRNet-W32(チャンネル幅32,64,128,256)
• HRNet-W48(チャンネル幅48,96,192,384)
実験
15
実験
• 以下データセットで検証。それ
ぞれSoTAを達成。
– MSCOCO
• 物体検知・セグメンテーション・人物
姿勢を含むデータセット
– MPII Human Pose Estimation,
PoseTrack
• 人物2D姿勢データセット
• 評価指標(COCOでの検証の際)
– Object Keypoint Similarity
– 物体認識におけるIoUと似た役割
– OKS閾値でのStandard Average
precisionとrecall scoresで評
価 16
http://image-
net.org/challenges/talks/2016/ECCV2016_workshop_presentation_keypo
int.pdf
COCO test-devでの性能比較結果
17
提案手法が高精度を示
している
• AP: OKSを10段階に
変えた時のAverage
Precisionの平均値
• AP50, AP75: OKSの閾
値0.5, 0.75
• APM,APL: 中サイズ、
大サイズ人物に対す
るAP
分解検証
18
分解検証
• 以下3点について分解検証
1. フュージョン回数による効果
2. ネットワーク内での解像度の扱いの影響
3. ヒートマップ推定に利用するfeature mapの解像度
4. 入力サイズの影響
19
分解検証
20
①フュージョンの繰り返しによる効果
提案手法(HRNet-W32)のほうが高性能となった。
徐々にスケール/サブネットワークを増やしていく
のが性能向上につながると言える。
②ネットワーク内での解像度の扱いの影響
マルチスケールのフュージョンは効果的であり、回
数を増やすほど高い性能に
最初から4つのサブネットワークを繋いだネット
ワークと提案手法とを検証(variant of the
HRNet)。
ネットワークの深さやフュージョンについては同じ。
- 結果
Variant of the HRNet: 72.5AP
HRNet-W32:73.4 AP
分解検証
21
③ヒートマップ推定に利用する
feature mapの解像度
小さいサイズにおける変化の方が性能の改善幅が大
きい。
ある程度の解像度を利用すれば精度の高い結果につ
ながる。
④入力サイズの影響
ネットワーク最後で利用するfeature mapの解像
度の精度への影響を検証。
解像度は予測精度に大きく影響することがわかる。
まとめ
• 姿勢推定のためのhigh resolution network(HRNet)を提案した
– プロセス全体で高解像度を維持し、解像度を復元する必要がない、
– 複数の解像度を繰り返しフュージョンし、高い精度を得た
• Future work
– HRNetの他のタスクでの効果検証(すでにいくつか検証している)
• 物体検知
– High-Resolution Representation Learning for Object Detection
• セグメンテーション
– High-Resolution Representations for Labeling Pixels and Regions
• 画像分類
– High-Resolution Representation Learning for ImageNet Classification
• 顔認識
– 未
22
THANK YOU.
23

More Related Content

PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
 
PDF
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
PPTX
Triplet Loss 徹底解説
tancoro
 
PDF
4 データ間の距離と類似度
Seiichi Uchida
 
PDF
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
 
PDF
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
 
PPTX
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
 
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
Triplet Loss 徹底解説
tancoro
 
4 データ間の距離と類似度
Seiichi Uchida
 
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
 
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
 
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 

What's hot (20)

PDF
最適輸送の解き方
joisino
 
PDF
Optimizer入門&最新動向
Motokawa Tetsuya
 
PDF
Attentionの基礎からTransformerの入門まで
AGIRobots
 
PPTX
モデル高速化百選
Yusuke Uchida
 
PDF
実装レベルで学ぶVQVAE
ぱんいち すみもと
 
PDF
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
 
PDF
点群深層学習 Meta-study
Naoya Chiba
 
PPTX
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
 
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
 
PDF
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Deep Learning JP
 
PPTX
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
 
PDF
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
PDF
一般向けのDeep Learning
Preferred Networks
 
PDF
SSII2019企画: 点群深層学習の研究動向
SSII
 
PDF
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
 
PPTX
画像キャプションの自動生成
Yoshitaka Ushiku
 
最適輸送の解き方
joisino
 
Optimizer入門&最新動向
Motokawa Tetsuya
 
Attentionの基礎からTransformerの入門まで
AGIRobots
 
モデル高速化百選
Yusuke Uchida
 
実装レベルで学ぶVQVAE
ぱんいち すみもと
 
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
 
点群深層学習 Meta-study
Naoya Chiba
 
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Deep Learning JP
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
 
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
一般向けのDeep Learning
Preferred Networks
 
SSII2019企画: 点群深層学習の研究動向
SSII
 
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
 
画像キャプションの自動生成
Yoshitaka Ushiku
 
Ad

Similar to [DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation (17)

PDF
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
Deep Learning JP
 
PDF
【メタサーベイ】Face, Gesture, and Body Pose
cvpaper. challenge
 
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
PPTX
第3回nips読み会・関西『variational inference foundations and modern methods』
koji ochiai
 
PDF
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
Deep Learning JP
 
PDF
Deeplearning lt.pdf
Deep Learning JP
 
PDF
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
2018 07 02_dense_pose
harmonylab
 
PDF
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
 
PPTX
第3回WBAハッカソン第2回説明会資料(配布用)
The Whole Brain Architecture Initiative
 
PDF
[DL輪読会]Training RNNs as Fast as CNNs
Deep Learning JP
 
PDF
DeNAにおける機械学習・深層学習活用
Kazuki Fujikawa
 
PPTX
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
Deep Learning JP
 
PPTX
Eccv2018 report day2
Atsushi Hashimoto
 
PPTX
CVPR2017 参加報告 速報版 本会議 2日目
Atsushi Hashimoto
 
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
Deep Learning JP
 
【メタサーベイ】Face, Gesture, and Body Pose
cvpaper. challenge
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
第3回nips読み会・関西『variational inference foundations and modern methods』
koji ochiai
 
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
Deep Learning JP
 
Deeplearning lt.pdf
Deep Learning JP
 
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
2018 07 02_dense_pose
harmonylab
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
 
第3回WBAハッカソン第2回説明会資料(配布用)
The Whole Brain Architecture Initiative
 
[DL輪読会]Training RNNs as Fast as CNNs
Deep Learning JP
 
DeNAにおける機械学習・深層学習活用
Kazuki Fujikawa
 
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
Deep Learning JP
 
Eccv2018 report day2
Atsushi Hashimoto
 
CVPR2017 参加報告 速報版 本会議 2日目
Atsushi Hashimoto
 
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
 

Recently uploaded (11)

PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 

[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation