SlideShare a Scribd company logo
Deep Learning-Based
Human Pose Estimation:
A Survey
CE ZHENG, WENHAN WU, CHEN CHEN, TAOJIANNAN YANG, SIJIE ZHU,
JU SHEN, NASSER KEHTARNAVAZ, MUBARAK SHAH, arXiv2023
杉浦大輝(名工大玉木研)
2024/05/30
概略
◼Human Pose Estimation
(以下HPE)
• 画像や動画などの入力
• 人体の部位を特定し人体表現を構築
◼本資料の内容
• 2DHPE
• 3DHPE
• Dataset and Evaluation
• Application
• Conclusion and future direction
TensowFlow: 姿勢推定
2D Human Pose Estimation
◼2D HPE
• Single-person
• 人物が一人のみでの姿勢推定タスク
• 回帰手法
• ヒートマップベース手法
• 現在主流
• Multi-person
• 複数の人物の姿勢推定タスク
• Top-down method
• Bottom-up method
2D Human Pose Estimation
◼2D HPE
• Single-person
• 人物が一人のみでの姿勢推定タスク
• 回帰手法
Single-person, 回帰手法
◼DeepPose[Toshev & Szegedy, CVPR2014]
• 初めてHPEにDeepLerningを導入した手法
• AlexNet[Krizhevsky+, NeurIPS2012]で特徴抽出,各関節点への回帰
• 入力画像サイズが220×220
• 細かい位置の推定に不向き
• カスケード上にネットワークを多段に重ねる
• 前段の各キーポイントを中心に画像をクロップ
• 層を経ることに解像度の高い画像を扱う
Single-person, 回帰手法
◼[Sun+, ICCV2017]
• ResNet-50[He+, CVPR2016]に基づくCompositional Human Pose Regression
• 人体の構造情報を十分に活用していない問題に対処
• 関節ベースでなく骨ベースのポーズ表現
• 動的なポーズや複雑な人体の動きにすくれた安定性と精度
• 関節ベース
• 人体の各関節(肩や肘など)の位置を直接推定
• 骨ベース
• 各関節を結ぶ骨をベクトルとしてモデル化
• 骨の長さは一定による制約
Single-person, 回帰手法
◼[Luvizon+, Computets &
Graphics2019]
• Soft-argmax関数の導入
• 特徴マップを間接座標に変換
するため
◼[Li+, CVPR2021]
• Transformer-based cascade network
• DETR[Carion+, ECCV2020]
• 人物とキーポイントを同時に検出
• Self-attention
• 関節と外観の空間的相関を捉
える
2D Human Pose Estimation
◼2D HPE
• Single-person
• 人物が一人のみでの姿勢推定タスク
• ヒートマップベース手法
• 現在主流
Single-person, ヒートマップベース
◼ヒートマップベース手法
• 人間の関節の二次元座標を直接推定しない
• 各キーポイントの各座標に対する存在確率を示すヒートマップの出力
• 精度
• 高精度なローカライゼーションが可能
• 特に細かい部位の位置を正確に特定するのに有効
• 堅牢性
• 複雑なポーズや部分的に遮蔽されたポーズに対しても比較的堅牢
• 可視化
• どの部位がどの程度確信を持って検出されたかが分かりやすい
[Newell+, ECCV2016]
Single-person, ヒートマップベース
◼[Wei+, CVPR2016]
• Convolutional Pose Machines: CPM
• 多段階処理でキーポイントの位置を予測する
• 各段階での予測が以前の予測を強化する構造
• 初期推定が不正確でも,後続のステップで修正
• 各段階でlossを算出
• 勾配消失問題に対処
Single-person, ヒートマップベース
◼Stacked Hourglass Networks for HPE[Newell+, ECCV2016]
• Stacked hourglass: 積み重ねられた砂時計 の構造
• EncoderとDecoderの繰り返しで構成されるCNN
• 一つ目でざっくり推定
• 二つ目でざっくり推定(一つ目を元に)を元に詳細に
• ...
• 局所的な情報と全体の情報を有効活用
Single-person, ヒートマップベース
◼HRNet [Sun+, CVPR2019]
• 高解像度の特徴量を維持
• マルチスケールな特徴量を並列に処理
• メインである高解像度のルート
• サブの低解像度化したルート
hourglass
[Newell+, ECCV2016]
High-to-LowおよびLow-to-Highフレームワークに
依存する代表的なネットワーク図
Cascaded pyramid
networks
[Chen+, CVPR2018]
Combination with
dilated convolution
[Insafutdinov+, ECCV2016]
SimpleBaseline
[Xiao+, ECCV2018]
Single-person, ヒートマップベース, GAN
◼GAN [Goodfellow+, NeurIPS2014]の導入
◼Adversarial PoseNet[Chen+, ICCV2017]
• 体の関節の幾何学的な制約を考慮したconditional adversarial network
• Hourglass型のポーズ生成器
• 身体ポーズの妥当さを識別する二つの識別器
Single-person, ヒートマップベース, GAN
◼Self Adversarial Training[Chou+, APSIPA ASC2018]
• 生成器と識別器で同じ構造のネットワーク
• オーソドックスなGANの仕組み
Single-person, ヒートマップベース, Body structure information
◼Body structure informationの導入
◼[Yang+, CVPR2016]
• Deformable Mixture of Parts (DPM)モデルとディープラーニングの組み合わせ
• DPM
• オブジェクトや人体のパーツを個別の要素としてモデリング
• 空間的な配置を認識するアプローチ
• 各部位間の相対的な位置関係を捉える
• Hard negativesを発見
• 空間的・外観的整合性から
Single-person, ヒートマップベース, Human pose in video sequence
◼Human pose in video sequence
• 時間情報のモデリング
◼MoDeep [Jain+, ACCV2014]
• Two-branch CNN
• 静止画像からの情報を処理
• 動きの情報(optical flowなど)を処理
• 二つの枝は別々に特徴を学習し,その後で組み合わせて最終的なポーズ推定
Single-person, ヒートマップベース, Human pose in video sequence
◼Flowing ConvNets [Pfister+, ICCV2015]
• optical flowを活用
• 複数のフレームからの情報を統合し,人体の関節位置を高精度に推定
• 隣接フレームからのヒートマップ予測を揃える
• 時間的文脈を取り入れ,ポーズ推定の精度を向上
2D Human Pose Estimation
◼2D HPE
• Multi-person
• 複数の人物の姿勢推定タスク
• Top-down method
Multi-person, Top-down
◼Top-down method
1. 人物検出器を用いて入力画像から一人の人物ボックスを取得
2. それぞれのボックスに一人用のpose推定器を適用
Multi-person, Top-down
◼[Xiao+, ECCV2018]
• シンプルな手法にこだわった
• バックボーンネットワークに数層のデコンボリューション層を追加
• 低解像度の特徴マップからヒートマップを推定
• アルゴリズムの分析と比較を容易
• 複雑さを減らしながらも高精度を実現
Multi-person, Top-down
◼Graph-PCNN[Wang+, arXiv2020]
• 二段階フレームワーク
• ヒートマップベースのポーズ推定
• graph pose refinement (GPR) module
1. ガイドポイントを利用して最初に粗いローカライゼーション
2. これらのポイント間の関係をグラフでモデリング
Multi-person, Top-down, under occlusion and truncation scenes
◼Estimating poses under occlusion and truncation scenes
• Occlusion
• 対象が部分的に隠れている状況
• Truncation
• 対象が画像の枠によって切り取られている状況
• 多人数では手足の重なりが避けられない
• 人物検出で失敗しやすい
• [lqbal & Gall, ECCV2016]
• [Fang+, ICCV2017]
• [Chen+, CVPR2018]
• [Rafi+, arXiv2020]
Multi-person, Top-down, under occlusion and truncation scenes
◼[lqbal & Gall, ECCV2016]
1. 入力データの取得(a)
• Faster R-CNN[Ren+, NeurIPS2015]で人物検出
• 各関節の候補点を検出
2. 関節点のグラフ構築(b)
• 関節点から完全連結グラフを作成
• 関節点がどの人物に属するかを推定
3. 関連付けの最適化(c)
• 整数線形プログラミングを利用
• 最もらしい関節点の組み合わせを選択
Multi-person, Top-down, under occlusion and truncation scenes
◼RMPE [Fang+, ICCV2017]
• Symmetric Spatial Transformer Network
• 入力された人物のバウンディングボックスを正規化
• 人物がどのような位置や姿勢をしていても効果的に対応
• Parametric Pose Non-Maximum-Suppression
• 冗長検出問題を解決
• 複数のポーズ推定結果から最も確信度の高いポーズを選択
• Pose-Guided Proposals Generator
• 不正確な人物検出から精度の高いポーズ推定候補を生成
Multi-person, Top-down, under occlusion and truncation scenes
◼CPN[Chen+, CVPR2018]
• 遮蔽されたり見えにくいキーポイン
トの検出に効果的
• GlobalNet
• 初期のキーポイントを検出
• RefineNet
• 困難なキーポイントの精度を向
上
◼[Rafi+, arXiv2020]
• Self-supervised
• 疎なアノテーションのビデオから
キーポイントの対応関係を学習
Multi-person, Top-down, Transformer
◼Transformer-based methods
• 予測されたキーポイントの長距離依存性
• 画像内の離れた位置にあるキーポイント間の関係も効果的に学習
• 大域的な情報の活用
• 全体のコンテキストを理解することが可能
• CNN
• 主に局部的な特徴を捉えるのに優れる
• 長距離の依存関係やグローバルなコンテキストの捉えるには限界
• [Li+, ICCV2021]
• [Yuan+, NeurIPS2021]
Multi-person, Top-down, Transformer
◼TokenPose [Li+, ICCV2021]
• トークンベースの表現
• 視覚的手がかりと制約関係を学習
• 各キーポイントをトークンとし
て埋め込み
◼HRFormer [Yuan+, NeurIPS2021]
• HRNetのブロックをtransformer
moduleと入れ替え
• メモリと計算効率の向上
Multi-person, Top-down, Multi-frame
◼Multi-frame pose estimation in video
• 時間情報の活用
◼[Bertasius+, NeurIPS2019]
◼[Liu+, CVPR2021]
Multi-person, Top-down, Multi-frame
◼PoseWarper [Bertasius+, NeurIPS2019]
• 動画中のフレームにラベル付けするコスト削減
• 疎なアノテーションでの学習に利点
◼DCpose [Liu+, CVPR2021]
• Pose Temporal Merger
• 連続するフレーム間でのポーズ情報を統合
• Pose Residual Fusion
• 現在フレームのポーズ推定に
前フレームのポーズ情報を組み合わせ
• Pose Correction Network
• 初期の推定ポーズを修正
2D Human Pose Estimation
◼2D HPE
• Multi-person
• 複数の人物の姿勢推定タスク
• Bottom-up method
Multi-person, Bottom-up
◼Bottom-up method
1. 画像内のすべての身体関節の位置を特定
2. 個々の人物にグループ化
• 一般的にtop-down methodより計算速度が速い
Multi-person, Bottom-up
◼DeepCut [Pishchulin+, CVPR2016]
• 体の各部位を候補として生成
• 整数線形プログラムを用いて最適に分割・ラベル付けする手法
◼OpenPose [Cao+, CVPR2017]
• [Wei+, CVPR2016]を使用
• 2Dベクトルフィールド(Part Affinity Fields)
• 個々の体の部位を関連付け
• 人数が多くてもリアルタイムのパフォーマンスを維持
• 体の部位の検出と関連付けを同時に行う
Multi-person, Bottom-up
◼PifPaf [Kreiss+, CVPR2019]
• 低解像度や部分的に遮蔽された環境での人物のポーズ推定を改善する
• Part Intensity Field
• 個々の体の部位の正確な位置を特定
• 体の各部分の検出が可能
• Part Association Field
• 検出された体の部位間の接続を確立
• 分散した体の部位を正確に関連付けて,一つの連続した人間のポーズを形成
Multi-person, Bottom-up, Multi-tasks structures
◼PersonLab [Papandreous+, ECCV2018]
• 姿勢推定とインスタンスセグメンテーション
◼MultiPoseNet [Kocabas+, ECCV2018]
• 姿勢推定,人物検出,セマンティックセグメンテーション
• ポーズ残差ネットワーク(PRN)
Multi-person, Bottom-up, Multi-tasks structures
◼SAHR [Luo+, CVPR2021]
• Scale-adaptive heatmap regression
• 関節の標準偏差を適応的に最適化する
• 様々な人間のスケールトラベリングの曖昧性に対する耐性
2D HPE Summary
◼2D HPEの課題
• 著しいオクルージョン下での信頼性の高い検出
• 大きく重なった人体の境界を識別できないことがある
• 計算効率
• リソースに制約あるデバイスに実装はまだ困難
• レアなポーズのデータが限られている
• データ生成や拡張手法の開発は有用であろう
3D Human Pose Estimation
◼ 3D HPE
• Monocular RGB images and videos
• Single-person
• 一人のみでの姿勢推定タスク
• Direct estimation
• 2D to 3D lifting
• Other
• Multi-person
• 複数の人物の姿勢推定タスク
• Top-down method
• Bottom-up method
• Multi-view
• Other sources
• Depth and point cloud sensors
• Wearable Inertial Measurement Units(IMUs) with monocular image
• Radio Frequency device
• Other sensors/sources
3D Human Pose Estimation
◼ 3D HPE
• Monocular RGB images and videos
• Single-person
• 一人のみでの姿勢推定タスク
• Direct estimation
Single-person, Direct estimation
◼[Sun+, ICCV2017]
• 骨を用いたポーズ表現
• 長距離の相互作用をエンコードする
合成損失関数を導入
◼[Pavlakos+, CVPR2017],
[Pavlakos+, CVPR2018]
• ジョイントの順序深度(ordinal depth)を提案
• 人間のアノテータが容易に提供できる
ジョイントの相対的な深さ情報を使用
3D Human Pose Estimation
◼ 3D HPE
• Monocular RGB images and videos
• Single-person
• 一人のみでの姿勢推定タスク
• 2D to 3D lifting
Single-person, 2D to 3D lifting
◼[Martinez+, ICCV2017]
• 完全連結残差ネットワーク
• 2Dポーズの依存による曖昧さが残った
◼[Tekin+, ICCV2017]
• 二つのストリームを融合して最終的な3Dポーズを推定
• 2Dジョイント位置のヒートマップを生成する「Confidence Map Stream」
• 画像から直接特徴を抽出する「Image Stream」
Single-person, 2D to 3D lifting
◼[Jahangiri & Yuille, ICCVW2017]
[Sharma+, ICCV2019]
[Li & Lee, CVPR2019]
• 2Dポーズから複数の3Dポーズを生成
• Ranking networks
• 複数の3Dポーズ仮説の中から最も適切なポーズを選択するために使用
Single-person, 2D to 3D lifting, GCN
◼Graph Convolutional Networks (GCN)
• 関節をノード,骨をエッジとするグラフ表現
◼Locally Connected Networks(LCN) [Ci+, ICCV2019]
• 表現力の限界を克服するために,局所的に接続されたネットワーク
• 完全連結ネットワーク
• GCN
• 少ないデータで高精度な3Dポーズ推定を実現
• 未知の動作やデータセットに対しても高い汎化性能
Single-person, 2D to 3D lifting, GCN
◼SemGCN [Zhao+, CVPR2019]
• グラフ畳み込みに学習可能な重み行列を導入(SemGConv)
• ノード間の意味的な関係を捉える
◼[Zhou+, ICCV2021]
• Weight modulation
• 各ノードに対して異なるモジュレーションベクトルを学習
• ノード間の特徴変換を分離しつつモデルサイズを小さく保つ
• Affinity modulation
• 人体骨格の自然な接続を超えた追加のエッジをモデル化
Single-person, 2D to 3D lifting, Kinematic model
◼Kinematic model
• 運動学的な高速条件を持つ骨と間接によって表現
• 骨格の関節結合情報
• 関節の回転特性
• 骨の長さの固定比率
◼[Zhou+, ECCV2016]
• 運動学モデルをニューラルネットワークに直接埋め込む手法を提案
• 無機とか移転の制約
Single-person, 2D to 3D lifting, Kinematic model
◼[Wang+, ICCV2019]
• 体の異なる部分に応じて異なる自由度を持つ関節をモデル化
• 高自由度の関節(例: 肘)は低自由度の関節(例: 胴体)の従属変数
• 逆に低自由度の関節も高自由度の関節に制約
• 双方向ネットワークの提案
• 人体骨格の運動学的依存性と幾何学的依存性のモデル化
Single-person, 2D to 3D lifting, Kinematic model
◼[Xu+, CVPR2020]
• 2Dポーズのノイズが正確な3Dポーズ推定
の重要な障害であることを実証
• 手順
1. 局所キネマティックパラメータの抽出
2. カメラ投影変換
3. 空間マップ変換
Single-person, 2D to 3D lifting, unusual pose and occlusions
◼In-the-wild data with unusual pose and occlusions
• 通常とは異なるポーズやオクルージョンのある実環境データ
◼[Zhou+, ICCV2017]
• Weakly supervised transfer learning
• In-the-wild画像の2Dアノテーションを
弱いラベルとして使用
◼[Habibie+, CVPR2019]
• 3Dアノテーションなしでより正確な推定を実現
• Projection loss
• 3D関節位置を2D画像平面に投影
• 予測された2D関節位置との誤差を最小化
Single-person, 2D to 3D lifting, unusual pose
and occlusions
◼[Chen+, CVPR2019]
• ClosureとInvarianceリフティング特性に基づくUnsupervised lifting network
• Geometric self-consistency loss
• 2Dポーズのデータのみを使用
• Closure
• 2Dスケルトンが正確に3Dスケルトン推定され,ランダムに回転されて再投
影された場合,得られる2Dスケルトンは有効な2Dポーズの分布内に収まる
• Invariance
• 異なる視点からの同じ3Dスケルトンの2D投影が,再び3Dに推定された際に,
同じ3D出力を生成するべきである
Single-person, 2D to 3D lifting, temporal information
◼Videos can provide temporal information
• 時間情報を利用して,精度とロバスト性を向上させる
◼[Hossain & Little, ECCV2018]
• LSTMを用いたrecurrent neural networkの提案
• 時間的に一貫性のある3Dポーズ推定
◼[Pavllo+, CVPR2019]
• 拡張時間畳み込み(dilated temporal convolutions)に基づく畳み込みモデル
• 予測誤差が時間的に非連続で独立であるという仮定
• オクルージョンの存在下では成立しない可能性あり
• 予測誤差が時間的に連続
• 予測の誤差が時間の経過とともに滑らかに変化し,一つのフレームの誤差
が次のフレームにも影響を及ぼす
Single-person, 2D to 3D lifting, temporal information
◼SRNet [Zeng+, ECCV2020]
• Split and recombine戦略
1. ポーズを局所的な関節のグループに分割
2. それぞれを別々のネットワークブランチで処理
3. 最後に全体のコンテキストを再結合
• 稀で未見なポーズ問題に対処
Single-person, 2D to 3D lifting, Transformer
◼Transformer architecture
◼PoseFormer [Zheng+, ICCV2021]
• 畳み込みアーキテクチャを使用しない
最初の純粋なtransformerベース手法
◼PoseFormerV2 [Zhao+, CVPR2023]
• 入力シーケンスを周波数領域に変換
• 低周波数成分のみを利用することで,
計算負荷を減らしつつ高精度な推定を実現
3D Human Pose Estimation
◼ 3D HPE
• Monocular RGB images and videos
• Single-person
• 画像中に一人のみでの姿勢推定タスク
• other
Single-person, other, HMR
◼Human Mesh Recovery (HMR)
• Skinned Multi-Person Linear(SMLP) [Loper+, ACM TOG2015]
• Stitched Puppet model [Zuffi & Black, CVPR2015] など
• パラメトリック人体モデルを人体メッシュの復元に用いる
Single-person, other, HMR, Volumetric models
◼Volumetric models are used to recover high-quality human mesh
• 高品質の人体メッシュを復元
◼[Tan & Cipolla, BMVC2017]
[Tung+, NeurIPS]
[Pavlakos+, CVPR2018]
[Omran+, 3DV2018]
• 単眼カメラからのモーションキャプチャに対する新しいアプローチを提案
• ニューラルネットワークを用いて3D形状とスケルトン構造を予測
Single-person, other, HMR, Volumetric models
◼[Kolotouros+, CVPR2019]
• Graph-CNNアーキテクチャ
◼[Zheng+, ACM Multimedia2022]
• Pose2Mesh[Choi+, ECCV2020]に匹敵する性能
• 計算量とメモリを大幅に削減
Single-person, other, HMR, Transformer
◼Transformer
◼METRO [Lin+, CVPR2021]
Mesh Graphormer [Lin+, ICCV2021]
• メッシュ頂点と関節間の相互作用を同時にモデル化
• 計算量とメモリは高い
◼FeatER [Zheng+, CVPR2023]
POTTER [Zheng+, CVPR2023]
• 上記に対し,計算量とメモリの削減をしたモデル
Single-person, other, HMR, extended SMLP
◼Extended SMLP-based models
• SMLPモデルの限界に対処
• 計算量が多い
• 手や顔のランドマークがない
◼SMLPify [Lassner+, CVPR2017]
• 再投影誤差を最小化する手法
◼SMLP-X [Pavlakos+, CVPR2019]
• 完全に関節のある手と顔の
ランドマークも予測可能
Single-person, other, HMR, extended SMLP
◼SPIN [Kolotouros+, ICCV2019]
• SMLP oPtimization IN the loop
• 3D人間ポーズと形状を再構築するための新しい手法
• ディープラーニングによる回帰とモデルフィッティングを統合
• 自己改善型のトレーニングループを構築
Single-person, other, HMR, extended SMLP
◼[Chen+, ICCV2019]
• ビデオ内の3D人間ポーズ推定におけるオクルージョンに対処する手法
• 時空間情報を活用し,遮蔽された状態でも精度の高いポーズ推定
• Cylinder Man Modelの導入
• 3D人間ポーズ推定におけるオクルージョンラベルを生成するために使用され
るモデリング手法
3D Human Pose Estimation
◼ 3D HPE
• Monocular RGB images and videos
• Multi-person
• 複数の人物の姿勢推定タスク
• Top-down method
Multi-person, Top-down
◼Top-down
1. 人物検出
2. 個別人物の3Dキーポイント推定
3. 3Dポーズ推定
• 各3Dキーポイントをワールド座標系で配置する工程
Multi-person, Top-down
◼LCR-Net [Rogez+, CVPR2017]
• 基本的な構図
• 制御された環境でしか性能を
発揮しなかった
◼[Zanfir+, CVPR2018]
• セマンティックセグメンテーションの追加
• ハンガリーマッチング法
• ビデオベースのmulti-person 3DHPE用
• 各検出結果をグラウンドトゥルースに対応付けし,評価時の一致率を最大化
Multi-person, Top-down
◼PoseNet [Moon+, ICCV2019]
• カメラ距離を考慮したアプローチ
◼PandaNet [Benzine+, CVPR2020]
• Pose estimation and Detection Anchor-based Network
1. アンカーベースの表現
2. ポーズ認識アンカー選択戦略
3. 損失の自動重み付け
3D Human Pose Estimation
◼ 3D HPE
• Monocular RGB images and videos
• Multi-person
• 複数の人物の姿勢推定タスク
• Bottom-up method
Multi-person, Bottom-up
◼ Bottom-up
1. 各身体パーツ,深度マップ,ヒートマップを生成
2. 一つのワールドマップにする
• 関節点を正確にグループ化することが難しい
Multi-person, Bottom-up
◼ [Zanfir+, NeurIPS2018]
• 人物グルーピング問題をbinary integer programing (BIP)問題として定式化
• 各段階で解像度を徐々に高めながら特徴を抽出
• 詳細な空間情報を失うことなく精度を向上
◼ SPM[Nie+, ICCV2019]
• シングルステージ手法を提案
• 従来の二段階手法(人物検出とポーズ推定)
に比べ,効率的でシンプル
Multi-person, Bottom-up
◼ [Kundu+, ECCV2020]
• ペアとなる2D画像と3Dポーズアノテーションを不使用
• Frozen network
• 二つのモダリティ間で共有
される潜在空間を利用
◼ [Fabbri+, CVPR2020]
• 高解像度のボリュームヒートマップを圧縮
計算効率を向上させながら詳細な3Dポーズを推定
• Distance-based heuristic
• 関節点のクラスタリングにおいて使用される手法
Multi-person, Bottom-up, occlusionへの対処
◼OPRM [Metha+, I3D2018]
• Occlusion-Robust Pose-Map
• オクルージョンに強いポーズマップを使用
◼Xnet [Metha+, ACM TOG2020]
• 一般的なシーンでオクルージョンや人物間の相互作用を扱う
• Stage I: 2Dと3Dポーズの特徴を推定
• Stage II: 3Dポーズの完全な推定
• Stage III: 時間的安定性とカメラ
相対位置を提供
Multi-person, Bottom-up, occlusionへの対処
◼ [Zhen+, ECCV2020]
• 奥行きを考慮した関節関連付けアルゴリズム
• 人物間のオクルージョンと骨の長さの制約を推論
3D Human Pose Estimation
◼ 3D HPE
• Multi-view
Multi-view
◼Multi-view
• 多視点の画像 or 動画を入力
• 一人用,複数任用という使い分けはない
◼[Rhodin+, CVPR2018]
• マルチビュー画像を利用した弱教師あり学習手法
• 形状認識3D潜在表現を学習するフレームワークを提案
• 3Dアノテーションのないマルチビュー画像と背景セグメンテーション
◼[Chen+, ECCV2020], [Mitra+, CVPR2020],
[Zhang+, CVPR2020], [Huang+, ECCV2020]
• 一貫性制約を持つマルチビューマッチングフレームワークを提案
Multi-view
◼[Pavlakos+, CVPR2017]
AdaFuse [Zhang+, IJCV2020]
• マルチビュー画像の2Dヒートマップを3D構造モデルに集約
• マルチビューのカメラ環境が変わるとモデルを再学習する必要がある
◼Domes to Drones[Pirinen+, NeurIPS2019]
• 自己教師あり強化学習手法の提案
• Active Triangulation
• 遮蔽問題を効果的に解決
• ドローンによる動的なカメラ配置
• 最適な視点からのデータを
取得して三角測量を行う
Multi-view
◼ MvP[Wang+, NeurIPS2021]
• Multi-view Pose transformer
• マルチビュー画像から3Dポーズを直接回帰するtransformerモデル
• 複数人の関節のクエリを表現するために設計
• 既存の手法(複雑な多段パイプライン)
• (a)再構成ベース
• (b)体積表現ベース
• 我々の手法
• (c)MvP
• パイプラインが大幅に簡素
• 効率を向上させる。
Multi-view, lightweight, fast inference time, efficient adaptation
◼lightweight architecture, fast inference time, and efficient adaptation
• 軽量アーキテクチャ,高速推論時間,カメラ設定などの効率的な適応
◼[Chen+, CVPR2020]
• 反復処理による学習
• 3Dポーズを反復的に更新しながら各ビューの2Dと3Dポーズをマッチ
• 従来手法
• カメラ台数の増加に伴う爆発的な実行時間の増加の可能性
• 提案手法
• 線形な時間複雑性を有する
Multi-view, lightweight fast inference time, efficient adaptation
◼[Remelli+, CVPR2020]
• カメラ非依存表現
• 3Dポーズをカメラ視点から切り離し
複数の視点からの情報を効率的に統合
• Direct Linear Transform (DLT)
• GPUに適した効率的なDLT実装を使用
• リアルタイム性能
• 提案手法はリアルタイムで動作し,従来手法に匹敵する精度
◼Faster VoxelPose [Ye+, ECCV2022]
• VoxelPose [Tu+, ECCV2020]の高速化
• 10倍近く高速化
• 特徴量を3つの2次元座標平面に再投影
• X, Y, Z座標を個別に推定
3D Human Pose Estimation
◼ 3D HPE
• Other sources
• Depth and point cloud sensors
• Wearable Inertial Measurement Units(IMUs) with monocular image
• Radio Frequency device
• Other sensors/sources
Other sources, depth and point cloud sensors
◼DoubleFusion [Yu+, CVPR2018]
A2J [Xiong+, ICCV2019]
[Kadkhodamohammadi+, WACV2017]
TexMesh [Zhi+, ECCV2020]
• 深度画像を用いた3D姿勢推定
◼[Jiang+, ICCV2019]
[Wang+, CVPR2020]
• PointNet++と3D人体モデルを組み合わせて3Dメッシュを復元
Other sources, IMUs with monocular images
◼Wearable Inertial Measurements Units (IMU)
• 物体のオクルージョンや衣服の障害物なしにモーションを記録
• 人体の向きと加速度を追跡
◼[Mascard+, ECCV2018]
[Mascard+, Computer Graphics Forum2017]
[Huang+, ACM TOG2018]
[Huang+, CVPR2020]
[Zhang+, IJCV2020]
• 時間の経過とともにドリフティングが発生
• 時間の経過とともにセンサーの測定値が正確でなくなること
• 加速度計やジャイロスコープが内部的な誤差を積み重ねることによる
• 原因に温度変化,センサーのバイアス,不完全なキャリブレーションなど
Other sources, Radio frequency device
◼Radio Frequency(無線周波数)ベースのセンシング
• WiFiの範囲内で壁を横断し情報を取得できる
• カメラ画像に比べ空間分解能低く,粗い姿勢推定になる
◼[Zhao+, SIGCOMM2018]
[Zhao+, ICCV2019]
Other sources, Other sensors / sources
◼[Isogawa+, CVPR2020]
• Non-line-of-sight(NLOS)で撮像された光子の
三次元時空間ヒストグラムから3D姿勢推定
◼SelfPose [Tome+, arXiv]
xR-EgoPose [Tome+, ICCV2019]
Mo 2 cap 2 [Xu+, arXiv2018]
• 魚眼カメラによる3D姿勢推定
Other sources, Other sensors / sources
◼[Saini+, ICCV2019]
• 複数の自立型超小型空撮機(MAV)
による3D姿勢推定
◼Bodies at Rest [Clever+, CVPR2020]
• 圧力検知マットの圧力画像から
ベッド上の安静姿勢推定
3DHPE summary
◼多くは2D to 3D lifting手法
◼課題
• モデルの汎化
• 既存のデータセットは制約のあるシーンで撮影されたもの
• 実世界のデータに適応すると性能が下がる
• オクルージョンに対するロバスト性と計算効率
Dataset and Evaluation
◼Dataset and Evaluation
• 2D
• Datasets
• Evaluation
• Performance Comparison
• Single-person
• Multi-person
• 3D
• Datasets
• Evaluation
• Performance Comparison
• Single-view single-person
• Single-view multi-person
• Multi-view
2DHPE, Datasets
◼Max Planck Institute for Informatics (MPII) Human Pose Dataset
[Andriluka+, CVPR2014]
2DHPE, Datasets
◼Microsoft Common Objects in Context (COCO) Dataset
[Lin+, arXiv2020]
• 33万枚以上の画像と20万人の被写体をキーポイントでラベル付けしている
• 17の関節がある
• COCO-WholeBody[Jin+, arXiv2020]
2DHPE, Datasets
◼PoseTrack Dataset(PoseTrack2017) [Andriluka+, CVPR2018]
• 混雑した環境におけるオクルージョンなどを含む
2DHPE, Datasets
2DHPE, Evaluation
◼Percentage of Correct Parts(PCP) [Eichner+, IJCV2012]
• 推定された関節の位置がどれだけ正確かを測定
• 1人用の姿勢推定の評価
1. 距離の計算
• 各部位に対して,推定された関節点と実際の関節点の距離を計算
2. 閾値の設定
• 距離が許容範囲内(通常は部位の長さの50%以下)なら検出成功
3. 正解率の計算
◼Percentage of Detected Joints(PDJ) [Toshev & Szegedy, CVPR2014]
• 各関節点の推定位置と真の位置の距離を体のサイズで正規化
• 閾値以下の距離にある場合を検出成功
2DHPE, Evaluation
◼Percentage of Correct Keypoints(PCK)
[Yang & Ramanan, IEEE TPAMI2012]
• 基準長は人物の体の特定の長さ(例:頭から足までの高さ)に対する割合
• 例
• PCK@0.5は,基準長の50%以内に正しく推定された関節点を評価
• 推定された関節点の位置と真の位置の距離を計算
• その距離が設定した閾値以内であれば検出成功
2DHPE, Evaluation
◼Average Precision (AP) and Average Recall (AR)
• Object Keypoint Similarity (OKS)
• 検出されたキーポイントの位置がどれだけ正確であるかを測定
• 距離計算
• 検出と真値のキーポイントの正規化された距離を計算
• OKSの閾値でAPとARを求める
• AP
• 検出されたキーポイントのうち,正しいものの割合
• AR
• 正解キーポイントのうち,検出されたものの割合
Single-person 2DHPE, Performance Comparison
◼一人用2DHPE性能比較
• MPIIデータセットで検証
• PCK@0.5で比較
H: Heatmap, R: Regression
Multi-person 2DHPE, Performance Comparison
◼多人数2D
• COCOデータセットで検証
• Object Keypoint Similarity(OKS)
• 0.5の時,AP.5と表されている
• Top-down: 性能が良い
• Bottom-up: 高速である
T: Top-down, B: Bottom-up
3DHPE, Datasets
◼Human3.6M [Ionescu+, IEEE TPAMI2014]
• 4台のカメラで被験者を撮影した計約360万フレームの動画
• MoCapシステムによってキャプチャ
• 17の動作と11人のアクターしかいない
3DHPE, Datasets
◼MuPoTS-3D [Mehta+, 3DV2018]
• 多人数3Dデータセット
• 20の実世界シーン
• マルチビューマーカーレスMoCapシステム
でキャプチャ
• 難しいサンプル
• オクルージョン
• 急激な照明な変化
• レンズフレア
3DHPE, Datasets
3DHPE, Evaluation
◼Mean Per Joint Position Error(MPJPE, Reconstruction Error)
• 関節点の推定座標と正解座標の距離を全ての関節点およびデータで平均
• 位置合わせ方法
• 腰などの基準となる関節点 (Root Joint) の座標を並進移動
• 回転を加えた剛体変換による位置合わせ (Rigid Alignment)
• PA-MPJPE(Reconstruction Error)という
◼Normalized Mean Per Joint Position Error (NMPJPE)
[Rhodin+, CVPR2018]
• 各関節点の推定位置と真の位置の誤差を計算し,その平均を取ったもの
1. 関節点の位置誤差を計算
2. 平均誤差を取る
3. 正規化
3DHPE, Evaluation
◼Mean Per Vertex Error(MPVE) [Pavlakos+, CVPR2018]
• 3Dメッシュの精度を評価
• 各頂点(vertex)の推定位置と真の位置の誤差の平均
◼3DPCK
• PCKを3次元に拡張したもの
• 関節点の推定座標と正解座標の距離が設定した閾値よりも小さいと検出成功
• 一般的に閾値は150mm
3DHPE, Evaluation
◼Summary
• MPJPE
• 人体形状や骨格の予測スケールに依存
• 値が低くても,必ずしも正確な姿勢推定であるとは言えない
• 3DPCK
• 誤った間接に対しては頑健
• 正しい関節の精度を評価することはできない
• 連続フレームに渡った評価指標はない
• 既存のメトリクスは単一フレームにおける精度の評価
• 時間的一貫性となめらかさを備えた3DHPEの性能評価が必要
3DHPE, Performance Comparison, Single-view single-person
◼単眼一人用3DHPEの性能比較
• Human3.6Mで比較
• より複雑なシーンデータだとすぐに性能低下
• 17の動作と11人のアクターのため
3DHPE, Performance Comparison, Single-view multi-person
◼単眼多人数3DHPEの性能比較
• MuPoTS-3Dで比較
• トップダウン法の方が性能が高い
• ボトムアップ法は計算効率が高い
3DHPE, Performance Comparison, Multi-view
◼複数ビューの3DHPE
• Human3.6Mで比較
• オクルージョンと奥行きの曖昧さを緩和
Application
◼Application
• Action recognition, prediction, detection, and tracking
• Action correction and online coaching
• Clothes parsing
• Animation, movie, and gaming
• AR and VR
• Healthcare
Application, Action recognition, prediction, detection, and tracking
◼ActionXPose [Angelini+, arXiv2018]
• 人間の姿勢推定を用いたリアルタイムの人間行動認識
• 抽出した姿勢データをLSTMと1D-CNNに入力し,行動を分類
◼[Markovitz+, CVPR2020]
• 人間の姿勢グラフを用いて異常検出を行う新しい手法を提案
• 姿勢データを潜在空間にマッピング・クラスタリングして異常行動を識別
Application, Action recognition, prediction, detection, and tracking
◼[Cao+, ECCV2020]
• 予測された3Dポーズを長期的な人間の動作予測に利用
1. GoalNet
• シーン画像と2Dポーズ履歴から,未来の複数の2Dゴールを予測
2. PathNet
• ゴールに向かう3Dパスを計画
3. PoseNet
• 予測された3Dパスに沿ってシーケンスを生成
◼VPN [Das+, ECCV2020]
• 人間の行動を監視するために,日常生活の活動を識別する
Application, Action correction and online coaching
◼Action correction and online coaching
• 人体の正確なコントロール指導の目的
◼AI Coach [Wang+, ACM MM2019]
• パーソナライズされたトレーニング支援
• ポーズ推定モジュールを備えた
• AIコーチングシステム
Application, Clothes parsing
◼Clothes parsing
• Eコマースにおいて衣服の購入を含む様々な面で影響
◼Simulcap [Yu+, CVPR2019],
pose transfer [Li+, CVPR2019]
• 特定の服を着ている人の3D外観を推定
◼TailorNet [Patel+, CVPR2020]
• 人間のポーズ,体形,および衣服の
スタイルに基づいて3Dの衣服変形を予測
• 衣服のしわのディテールを保持して予測
Application, Animation, movie, and gaming
◼Animation, movie, and gaming
• 複雑な動きやリアルな身体的インタラクションを持つキャラクターを表現
◼Pose2Pose[Willett+, IUI2020], PoseTween [Liu+, ACM UIST2020]
Application, AR and VR
◼Photo Wake-Up [Weng+, CVPR2019]
• 単一の写真から人間の被写体を
3Dアニメーション化する手法を提案
• 歩き出したり,座ったり,ジャンプしたり
◼Vid2Player [Zheng+, arXiv2020]
• インタラクティブに操作可能な
ビデオスプライトに変換するシステム
• プロテニス選手のビデオ
• 実際のプレイヤーの動作や戦略を模倣
Application, Healthcare
◼Healthcare
• 複雑な疾患の診断,リハビリのトレーニング作成,理学療法の実施
◼[Lu+, arXiv2020]
• パーキンソン病の運動重症度を評価
◼[Gu+, ICCVW2019]
• 患者が自宅で助言を受けられるポーズベースの理学療法システム
◼[Chen+, Symmetry2020]
• 転倒検出モニタリング
◼[Chen+, JTEHM2018]
• 病院環境における患者の信頼性の高い姿勢ラベルを提供
• 自然な行動に対する神経相関の研究を補強
Conclusion and Future Direction
◼姿勢推定のためのドメイン適応
• 既存のデータセットでは異なるドメインではうまくいかないことが多い
• GANベースの学習アプローチで対応される傾向がある
• 人間のポーズ知識を効果的に転送する方法はない
◼人体メッシュ表現モデルの膨大なパラメータ数
• メッシュの品質を保ちパラメータ数をどう減らすか
• 人によって体型は様々
• BMIやシルエットなどの情報がより良い汎化につながるかも
Conclusion and Future Direction
◼人間と3Dシーンの相互作用の無視
• 人物がシーン内の物体や環境とどのように関わっているかを考慮しないこと
• 例
• 無視
• 人物が椅子に座っている場合,椅子に座っているという事実を無視し,人
物が空中に浮いているかのように推定
• 考慮
• 椅子の存在を考慮し,腰や脚が椅子に触れていることを反映し姿勢を推定
◼適切な評価指標
• 映像からの3D姿勢推定はなめらかで連続的でない
• 時間的一貫性と動きの滑らかさに焦点を当てた評価指標が必要
Conclusion and Future Direction
◼解像度の不一致に未関心
• 既存の学習データは高解像度の画像や動画
• 低解像度の入力は不正確な姿勢の推定につながる可能性
• コントラスト学習スキームが役立つ可能性
• 原画像と低解像度版を性のペアとする
◼敵対的攻撃に対して脆弱
• 知覚できないノイズは性能に大きく影響する
• [Jl+, Virtual Reality & Intelligent Hardware2020]
• 敵対的攻撃に考慮した研究
Conclusion and Future Direction
◼異なる動きのパターンや形状を持つ可能性
• 単一の共有ネットワークアーキテクチャが最適とは限らない
• Neural Architecture Search(NAS) [Elsken+, JMLR2019]
• 各関節の推定に最適なアーキテクチャを探索できる
• 姿勢推定における多目的なNASを探求する価値がある

More Related Content

PDF
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
 
PPTX
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
PDF
3D CNNによる人物行動認識の動向
Kensho Hara
 
PPTX
Triplet Loss 徹底解説
tancoro
 
PDF
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
Kazuyuki Miyazawa
 
PPTX
【DL輪読会】HexPlaneとK-Planes
Deep Learning JP
 
PDF
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
3D CNNによる人物行動認識の動向
Kensho Hara
 
Triplet Loss 徹底解説
tancoro
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
Kazuyuki Miyazawa
 
【DL輪読会】HexPlaneとK-Planes
Deep Learning JP
 
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 

What's hot (20)

PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
PDF
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP
 
PDF
Introduction to YOLO detection model
WEBFARMER. ltd.
 
PDF
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
PDF
Action Recognitionの歴史と最新動向
Ohnishi Katsunori
 
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
PDF
Transformer メタサーベイ
cvpaper. challenge
 
PDF
ConvNetの歴史とResNet亜種、ベストプラクティス
Yusuke Uchida
 
PDF
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
 
PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
Tenki Lee
 
PDF
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
Naoya Chiba
 
PDF
実装レベルで学ぶVQVAE
ぱんいち すみもと
 
PDF
Mean Teacher
harmonylab
 
PDF
顕著性マップの推定手法
Takao Yamanaka
 
PPTX
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
Deep Learning JP
 
PDF
[DL輪読会]SlowFast Networks for Video Recognition
Deep Learning JP
 
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
PDF
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
PDF
Attentionの基礎からTransformerの入門まで
AGIRobots
 
PDF
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP
 
Introduction to YOLO detection model
WEBFARMER. ltd.
 
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
Action Recognitionの歴史と最新動向
Ohnishi Katsunori
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
Transformer メタサーベイ
cvpaper. challenge
 
ConvNetの歴史とResNet亜種、ベストプラクティス
Yusuke Uchida
 
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
Tenki Lee
 
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
Naoya Chiba
 
実装レベルで学ぶVQVAE
ぱんいち すみもと
 
Mean Teacher
harmonylab
 
顕著性マップの推定手法
Takao Yamanaka
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
Deep Learning JP
 
[DL輪読会]SlowFast Networks for Video Recognition
Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
Attentionの基礎からTransformerの入門まで
AGIRobots
 
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
 
Ad

Similar to 論文紹介:Deep Learning-Based Human Pose Estimation: A Survey (20)

PPTX
[DL輪読会]Human Pose Estimation @ ECCV2018
Deep Learning JP
 
PPTX
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
Deep Learning JP
 
PPTX
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
Deep Learning JP
 
PDF
DeepPose: Human Pose Estimation via Deep Neural Networks
Shunta Saito
 
PDF
【メタサーベイ】Face, Gesture, and Body Pose
cvpaper. challenge
 
PDF
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
Shunsuke Ono
 
PPTX
CVPR Festival
Masafumi Noda
 
PPTX
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 
PPTX
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Deep Learning JP
 
PDF
CVPR2011 Festival PDF
Masafumi Noda
 
PDF
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Deep Learning JP
 
PPTX
[DL輪読会]Whole-Body Human Pose Estimation in the Wild
Deep Learning JP
 
PDF
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
Deep Learning JP
 
PDF
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
Yukiyoshi Sasao
 
PPTX
2018 07 02_dense_pose
harmonylab
 
PDF
[DL輪読会]VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera
Deep Learning JP
 
PPTX
Sprint16 papers research
MisakiRyo
 
PDF
CVPR2017勉強会 Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Koichi Takahashi
 
PDF
論文紹介:2D Pose-guided Complete Silhouette Estimation of Human Body in Occlusion
Toru Tamaki
 
PPTX
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
[DL輪読会]Human Pose Estimation @ ECCV2018
Deep Learning JP
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
Deep Learning JP
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
Deep Learning JP
 
DeepPose: Human Pose Estimation via Deep Neural Networks
Shunta Saito
 
【メタサーベイ】Face, Gesture, and Body Pose
cvpaper. challenge
 
夏のトップカンファレンス論文読み会 / Realtime Multi-Person 2D Pose Estimation using Part Affin...
Shunsuke Ono
 
CVPR Festival
Masafumi Noda
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Deep Learning JP
 
CVPR2011 Festival PDF
Masafumi Noda
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Deep Learning JP
 
[DL輪読会]Whole-Body Human Pose Estimation in the Wild
Deep Learning JP
 
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
Deep Learning JP
 
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
Yukiyoshi Sasao
 
2018 07 02_dense_pose
harmonylab
 
[DL輪読会]VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera
Deep Learning JP
 
Sprint16 papers research
MisakiRyo
 
CVPR2017勉強会 Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Koichi Takahashi
 
論文紹介:2D Pose-guided Complete Silhouette Estimation of Human Body in Occlusion
Toru Tamaki
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
Ad

More from Toru Tamaki (20)

PDF
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
Toru Tamaki
 
PDF
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
Toru Tamaki
 
PDF
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
Toru Tamaki
 
PDF
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
Toru Tamaki
 
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
 
PDF
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
 
PDF
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
Toru Tamaki
 
PDF
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
Toru Tamaki
 
PDF
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
Toru Tamaki
 
PDF
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
Toru Tamaki
 
PDF
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
Toru Tamaki
 
PDF
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
Toru Tamaki
 
PDF
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
Toru Tamaki
 
PDF
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
Toru Tamaki
 
PDF
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
Toru Tamaki
 
PDF
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
Toru Tamaki
 
PDF
論文紹介:On Feature Normalization and Data Augmentation
Toru Tamaki
 
PDF
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
Toru Tamaki
 
PDF
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
Toru Tamaki
 
PDF
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
Toru Tamaki
 
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
Toru Tamaki
 
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
Toru Tamaki
 
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
Toru Tamaki
 
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
Toru Tamaki
 
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
Toru Tamaki
 
論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically ...
Toru Tamaki
 
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
Toru Tamaki
 
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
Toru Tamaki
 
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
Toru Tamaki
 
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
Toru Tamaki
 
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
Toru Tamaki
 
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
Toru Tamaki
 
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
Toru Tamaki
 
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
Toru Tamaki
 
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
Toru Tamaki
 
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
Toru Tamaki
 
論文紹介:On Feature Normalization and Data Augmentation
Toru Tamaki
 
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
Toru Tamaki
 
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
Toru Tamaki
 
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
Toru Tamaki
 

Recently uploaded (10)

PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 

論文紹介:Deep Learning-Based Human Pose Estimation: A Survey

  • 1. Deep Learning-Based Human Pose Estimation: A Survey CE ZHENG, WENHAN WU, CHEN CHEN, TAOJIANNAN YANG, SIJIE ZHU, JU SHEN, NASSER KEHTARNAVAZ, MUBARAK SHAH, arXiv2023 杉浦大輝(名工大玉木研) 2024/05/30
  • 2. 概略 ◼Human Pose Estimation (以下HPE) • 画像や動画などの入力 • 人体の部位を特定し人体表現を構築 ◼本資料の内容 • 2DHPE • 3DHPE • Dataset and Evaluation • Application • Conclusion and future direction TensowFlow: 姿勢推定
  • 3. 2D Human Pose Estimation ◼2D HPE • Single-person • 人物が一人のみでの姿勢推定タスク • 回帰手法 • ヒートマップベース手法 • 現在主流 • Multi-person • 複数の人物の姿勢推定タスク • Top-down method • Bottom-up method
  • 4. 2D Human Pose Estimation ◼2D HPE • Single-person • 人物が一人のみでの姿勢推定タスク • 回帰手法
  • 5. Single-person, 回帰手法 ◼DeepPose[Toshev & Szegedy, CVPR2014] • 初めてHPEにDeepLerningを導入した手法 • AlexNet[Krizhevsky+, NeurIPS2012]で特徴抽出,各関節点への回帰 • 入力画像サイズが220×220 • 細かい位置の推定に不向き • カスケード上にネットワークを多段に重ねる • 前段の各キーポイントを中心に画像をクロップ • 層を経ることに解像度の高い画像を扱う
  • 6. Single-person, 回帰手法 ◼[Sun+, ICCV2017] • ResNet-50[He+, CVPR2016]に基づくCompositional Human Pose Regression • 人体の構造情報を十分に活用していない問題に対処 • 関節ベースでなく骨ベースのポーズ表現 • 動的なポーズや複雑な人体の動きにすくれた安定性と精度 • 関節ベース • 人体の各関節(肩や肘など)の位置を直接推定 • 骨ベース • 各関節を結ぶ骨をベクトルとしてモデル化 • 骨の長さは一定による制約
  • 7. Single-person, 回帰手法 ◼[Luvizon+, Computets & Graphics2019] • Soft-argmax関数の導入 • 特徴マップを間接座標に変換 するため ◼[Li+, CVPR2021] • Transformer-based cascade network • DETR[Carion+, ECCV2020] • 人物とキーポイントを同時に検出 • Self-attention • 関節と外観の空間的相関を捉 える
  • 8. 2D Human Pose Estimation ◼2D HPE • Single-person • 人物が一人のみでの姿勢推定タスク • ヒートマップベース手法 • 現在主流
  • 9. Single-person, ヒートマップベース ◼ヒートマップベース手法 • 人間の関節の二次元座標を直接推定しない • 各キーポイントの各座標に対する存在確率を示すヒートマップの出力 • 精度 • 高精度なローカライゼーションが可能 • 特に細かい部位の位置を正確に特定するのに有効 • 堅牢性 • 複雑なポーズや部分的に遮蔽されたポーズに対しても比較的堅牢 • 可視化 • どの部位がどの程度確信を持って検出されたかが分かりやすい [Newell+, ECCV2016]
  • 10. Single-person, ヒートマップベース ◼[Wei+, CVPR2016] • Convolutional Pose Machines: CPM • 多段階処理でキーポイントの位置を予測する • 各段階での予測が以前の予測を強化する構造 • 初期推定が不正確でも,後続のステップで修正 • 各段階でlossを算出 • 勾配消失問題に対処
  • 11. Single-person, ヒートマップベース ◼Stacked Hourglass Networks for HPE[Newell+, ECCV2016] • Stacked hourglass: 積み重ねられた砂時計 の構造 • EncoderとDecoderの繰り返しで構成されるCNN • 一つ目でざっくり推定 • 二つ目でざっくり推定(一つ目を元に)を元に詳細に • ... • 局所的な情報と全体の情報を有効活用
  • 12. Single-person, ヒートマップベース ◼HRNet [Sun+, CVPR2019] • 高解像度の特徴量を維持 • マルチスケールな特徴量を並列に処理 • メインである高解像度のルート • サブの低解像度化したルート hourglass [Newell+, ECCV2016] High-to-LowおよびLow-to-Highフレームワークに 依存する代表的なネットワーク図 Cascaded pyramid networks [Chen+, CVPR2018] Combination with dilated convolution [Insafutdinov+, ECCV2016] SimpleBaseline [Xiao+, ECCV2018]
  • 13. Single-person, ヒートマップベース, GAN ◼GAN [Goodfellow+, NeurIPS2014]の導入 ◼Adversarial PoseNet[Chen+, ICCV2017] • 体の関節の幾何学的な制約を考慮したconditional adversarial network • Hourglass型のポーズ生成器 • 身体ポーズの妥当さを識別する二つの識別器
  • 14. Single-person, ヒートマップベース, GAN ◼Self Adversarial Training[Chou+, APSIPA ASC2018] • 生成器と識別器で同じ構造のネットワーク • オーソドックスなGANの仕組み
  • 15. Single-person, ヒートマップベース, Body structure information ◼Body structure informationの導入 ◼[Yang+, CVPR2016] • Deformable Mixture of Parts (DPM)モデルとディープラーニングの組み合わせ • DPM • オブジェクトや人体のパーツを個別の要素としてモデリング • 空間的な配置を認識するアプローチ • 各部位間の相対的な位置関係を捉える • Hard negativesを発見 • 空間的・外観的整合性から
  • 16. Single-person, ヒートマップベース, Human pose in video sequence ◼Human pose in video sequence • 時間情報のモデリング ◼MoDeep [Jain+, ACCV2014] • Two-branch CNN • 静止画像からの情報を処理 • 動きの情報(optical flowなど)を処理 • 二つの枝は別々に特徴を学習し,その後で組み合わせて最終的なポーズ推定
  • 17. Single-person, ヒートマップベース, Human pose in video sequence ◼Flowing ConvNets [Pfister+, ICCV2015] • optical flowを活用 • 複数のフレームからの情報を統合し,人体の関節位置を高精度に推定 • 隣接フレームからのヒートマップ予測を揃える • 時間的文脈を取り入れ,ポーズ推定の精度を向上
  • 18. 2D Human Pose Estimation ◼2D HPE • Multi-person • 複数の人物の姿勢推定タスク • Top-down method
  • 19. Multi-person, Top-down ◼Top-down method 1. 人物検出器を用いて入力画像から一人の人物ボックスを取得 2. それぞれのボックスに一人用のpose推定器を適用
  • 20. Multi-person, Top-down ◼[Xiao+, ECCV2018] • シンプルな手法にこだわった • バックボーンネットワークに数層のデコンボリューション層を追加 • 低解像度の特徴マップからヒートマップを推定 • アルゴリズムの分析と比較を容易 • 複雑さを減らしながらも高精度を実現
  • 21. Multi-person, Top-down ◼Graph-PCNN[Wang+, arXiv2020] • 二段階フレームワーク • ヒートマップベースのポーズ推定 • graph pose refinement (GPR) module 1. ガイドポイントを利用して最初に粗いローカライゼーション 2. これらのポイント間の関係をグラフでモデリング
  • 22. Multi-person, Top-down, under occlusion and truncation scenes ◼Estimating poses under occlusion and truncation scenes • Occlusion • 対象が部分的に隠れている状況 • Truncation • 対象が画像の枠によって切り取られている状況 • 多人数では手足の重なりが避けられない • 人物検出で失敗しやすい • [lqbal & Gall, ECCV2016] • [Fang+, ICCV2017] • [Chen+, CVPR2018] • [Rafi+, arXiv2020]
  • 23. Multi-person, Top-down, under occlusion and truncation scenes ◼[lqbal & Gall, ECCV2016] 1. 入力データの取得(a) • Faster R-CNN[Ren+, NeurIPS2015]で人物検出 • 各関節の候補点を検出 2. 関節点のグラフ構築(b) • 関節点から完全連結グラフを作成 • 関節点がどの人物に属するかを推定 3. 関連付けの最適化(c) • 整数線形プログラミングを利用 • 最もらしい関節点の組み合わせを選択
  • 24. Multi-person, Top-down, under occlusion and truncation scenes ◼RMPE [Fang+, ICCV2017] • Symmetric Spatial Transformer Network • 入力された人物のバウンディングボックスを正規化 • 人物がどのような位置や姿勢をしていても効果的に対応 • Parametric Pose Non-Maximum-Suppression • 冗長検出問題を解決 • 複数のポーズ推定結果から最も確信度の高いポーズを選択 • Pose-Guided Proposals Generator • 不正確な人物検出から精度の高いポーズ推定候補を生成
  • 25. Multi-person, Top-down, under occlusion and truncation scenes ◼CPN[Chen+, CVPR2018] • 遮蔽されたり見えにくいキーポイン トの検出に効果的 • GlobalNet • 初期のキーポイントを検出 • RefineNet • 困難なキーポイントの精度を向 上 ◼[Rafi+, arXiv2020] • Self-supervised • 疎なアノテーションのビデオから キーポイントの対応関係を学習
  • 26. Multi-person, Top-down, Transformer ◼Transformer-based methods • 予測されたキーポイントの長距離依存性 • 画像内の離れた位置にあるキーポイント間の関係も効果的に学習 • 大域的な情報の活用 • 全体のコンテキストを理解することが可能 • CNN • 主に局部的な特徴を捉えるのに優れる • 長距離の依存関係やグローバルなコンテキストの捉えるには限界 • [Li+, ICCV2021] • [Yuan+, NeurIPS2021]
  • 27. Multi-person, Top-down, Transformer ◼TokenPose [Li+, ICCV2021] • トークンベースの表現 • 視覚的手がかりと制約関係を学習 • 各キーポイントをトークンとし て埋め込み ◼HRFormer [Yuan+, NeurIPS2021] • HRNetのブロックをtransformer moduleと入れ替え • メモリと計算効率の向上
  • 28. Multi-person, Top-down, Multi-frame ◼Multi-frame pose estimation in video • 時間情報の活用 ◼[Bertasius+, NeurIPS2019] ◼[Liu+, CVPR2021]
  • 29. Multi-person, Top-down, Multi-frame ◼PoseWarper [Bertasius+, NeurIPS2019] • 動画中のフレームにラベル付けするコスト削減 • 疎なアノテーションでの学習に利点 ◼DCpose [Liu+, CVPR2021] • Pose Temporal Merger • 連続するフレーム間でのポーズ情報を統合 • Pose Residual Fusion • 現在フレームのポーズ推定に 前フレームのポーズ情報を組み合わせ • Pose Correction Network • 初期の推定ポーズを修正
  • 30. 2D Human Pose Estimation ◼2D HPE • Multi-person • 複数の人物の姿勢推定タスク • Bottom-up method
  • 31. Multi-person, Bottom-up ◼Bottom-up method 1. 画像内のすべての身体関節の位置を特定 2. 個々の人物にグループ化 • 一般的にtop-down methodより計算速度が速い
  • 32. Multi-person, Bottom-up ◼DeepCut [Pishchulin+, CVPR2016] • 体の各部位を候補として生成 • 整数線形プログラムを用いて最適に分割・ラベル付けする手法 ◼OpenPose [Cao+, CVPR2017] • [Wei+, CVPR2016]を使用 • 2Dベクトルフィールド(Part Affinity Fields) • 個々の体の部位を関連付け • 人数が多くてもリアルタイムのパフォーマンスを維持 • 体の部位の検出と関連付けを同時に行う
  • 33. Multi-person, Bottom-up ◼PifPaf [Kreiss+, CVPR2019] • 低解像度や部分的に遮蔽された環境での人物のポーズ推定を改善する • Part Intensity Field • 個々の体の部位の正確な位置を特定 • 体の各部分の検出が可能 • Part Association Field • 検出された体の部位間の接続を確立 • 分散した体の部位を正確に関連付けて,一つの連続した人間のポーズを形成
  • 34. Multi-person, Bottom-up, Multi-tasks structures ◼PersonLab [Papandreous+, ECCV2018] • 姿勢推定とインスタンスセグメンテーション ◼MultiPoseNet [Kocabas+, ECCV2018] • 姿勢推定,人物検出,セマンティックセグメンテーション • ポーズ残差ネットワーク(PRN)
  • 35. Multi-person, Bottom-up, Multi-tasks structures ◼SAHR [Luo+, CVPR2021] • Scale-adaptive heatmap regression • 関節の標準偏差を適応的に最適化する • 様々な人間のスケールトラベリングの曖昧性に対する耐性
  • 36. 2D HPE Summary ◼2D HPEの課題 • 著しいオクルージョン下での信頼性の高い検出 • 大きく重なった人体の境界を識別できないことがある • 計算効率 • リソースに制約あるデバイスに実装はまだ困難 • レアなポーズのデータが限られている • データ生成や拡張手法の開発は有用であろう
  • 37. 3D Human Pose Estimation ◼ 3D HPE • Monocular RGB images and videos • Single-person • 一人のみでの姿勢推定タスク • Direct estimation • 2D to 3D lifting • Other • Multi-person • 複数の人物の姿勢推定タスク • Top-down method • Bottom-up method • Multi-view • Other sources • Depth and point cloud sensors • Wearable Inertial Measurement Units(IMUs) with monocular image • Radio Frequency device • Other sensors/sources
  • 38. 3D Human Pose Estimation ◼ 3D HPE • Monocular RGB images and videos • Single-person • 一人のみでの姿勢推定タスク • Direct estimation
  • 39. Single-person, Direct estimation ◼[Sun+, ICCV2017] • 骨を用いたポーズ表現 • 長距離の相互作用をエンコードする 合成損失関数を導入 ◼[Pavlakos+, CVPR2017], [Pavlakos+, CVPR2018] • ジョイントの順序深度(ordinal depth)を提案 • 人間のアノテータが容易に提供できる ジョイントの相対的な深さ情報を使用
  • 40. 3D Human Pose Estimation ◼ 3D HPE • Monocular RGB images and videos • Single-person • 一人のみでの姿勢推定タスク • 2D to 3D lifting
  • 41. Single-person, 2D to 3D lifting ◼[Martinez+, ICCV2017] • 完全連結残差ネットワーク • 2Dポーズの依存による曖昧さが残った ◼[Tekin+, ICCV2017] • 二つのストリームを融合して最終的な3Dポーズを推定 • 2Dジョイント位置のヒートマップを生成する「Confidence Map Stream」 • 画像から直接特徴を抽出する「Image Stream」
  • 42. Single-person, 2D to 3D lifting ◼[Jahangiri & Yuille, ICCVW2017] [Sharma+, ICCV2019] [Li & Lee, CVPR2019] • 2Dポーズから複数の3Dポーズを生成 • Ranking networks • 複数の3Dポーズ仮説の中から最も適切なポーズを選択するために使用
  • 43. Single-person, 2D to 3D lifting, GCN ◼Graph Convolutional Networks (GCN) • 関節をノード,骨をエッジとするグラフ表現 ◼Locally Connected Networks(LCN) [Ci+, ICCV2019] • 表現力の限界を克服するために,局所的に接続されたネットワーク • 完全連結ネットワーク • GCN • 少ないデータで高精度な3Dポーズ推定を実現 • 未知の動作やデータセットに対しても高い汎化性能
  • 44. Single-person, 2D to 3D lifting, GCN ◼SemGCN [Zhao+, CVPR2019] • グラフ畳み込みに学習可能な重み行列を導入(SemGConv) • ノード間の意味的な関係を捉える ◼[Zhou+, ICCV2021] • Weight modulation • 各ノードに対して異なるモジュレーションベクトルを学習 • ノード間の特徴変換を分離しつつモデルサイズを小さく保つ • Affinity modulation • 人体骨格の自然な接続を超えた追加のエッジをモデル化
  • 45. Single-person, 2D to 3D lifting, Kinematic model ◼Kinematic model • 運動学的な高速条件を持つ骨と間接によって表現 • 骨格の関節結合情報 • 関節の回転特性 • 骨の長さの固定比率 ◼[Zhou+, ECCV2016] • 運動学モデルをニューラルネットワークに直接埋め込む手法を提案 • 無機とか移転の制約
  • 46. Single-person, 2D to 3D lifting, Kinematic model ◼[Wang+, ICCV2019] • 体の異なる部分に応じて異なる自由度を持つ関節をモデル化 • 高自由度の関節(例: 肘)は低自由度の関節(例: 胴体)の従属変数 • 逆に低自由度の関節も高自由度の関節に制約 • 双方向ネットワークの提案 • 人体骨格の運動学的依存性と幾何学的依存性のモデル化
  • 47. Single-person, 2D to 3D lifting, Kinematic model ◼[Xu+, CVPR2020] • 2Dポーズのノイズが正確な3Dポーズ推定 の重要な障害であることを実証 • 手順 1. 局所キネマティックパラメータの抽出 2. カメラ投影変換 3. 空間マップ変換
  • 48. Single-person, 2D to 3D lifting, unusual pose and occlusions ◼In-the-wild data with unusual pose and occlusions • 通常とは異なるポーズやオクルージョンのある実環境データ ◼[Zhou+, ICCV2017] • Weakly supervised transfer learning • In-the-wild画像の2Dアノテーションを 弱いラベルとして使用 ◼[Habibie+, CVPR2019] • 3Dアノテーションなしでより正確な推定を実現 • Projection loss • 3D関節位置を2D画像平面に投影 • 予測された2D関節位置との誤差を最小化
  • 49. Single-person, 2D to 3D lifting, unusual pose and occlusions ◼[Chen+, CVPR2019] • ClosureとInvarianceリフティング特性に基づくUnsupervised lifting network • Geometric self-consistency loss • 2Dポーズのデータのみを使用 • Closure • 2Dスケルトンが正確に3Dスケルトン推定され,ランダムに回転されて再投 影された場合,得られる2Dスケルトンは有効な2Dポーズの分布内に収まる • Invariance • 異なる視点からの同じ3Dスケルトンの2D投影が,再び3Dに推定された際に, 同じ3D出力を生成するべきである
  • 50. Single-person, 2D to 3D lifting, temporal information ◼Videos can provide temporal information • 時間情報を利用して,精度とロバスト性を向上させる ◼[Hossain & Little, ECCV2018] • LSTMを用いたrecurrent neural networkの提案 • 時間的に一貫性のある3Dポーズ推定 ◼[Pavllo+, CVPR2019] • 拡張時間畳み込み(dilated temporal convolutions)に基づく畳み込みモデル • 予測誤差が時間的に非連続で独立であるという仮定 • オクルージョンの存在下では成立しない可能性あり • 予測誤差が時間的に連続 • 予測の誤差が時間の経過とともに滑らかに変化し,一つのフレームの誤差 が次のフレームにも影響を及ぼす
  • 51. Single-person, 2D to 3D lifting, temporal information ◼SRNet [Zeng+, ECCV2020] • Split and recombine戦略 1. ポーズを局所的な関節のグループに分割 2. それぞれを別々のネットワークブランチで処理 3. 最後に全体のコンテキストを再結合 • 稀で未見なポーズ問題に対処
  • 52. Single-person, 2D to 3D lifting, Transformer ◼Transformer architecture ◼PoseFormer [Zheng+, ICCV2021] • 畳み込みアーキテクチャを使用しない 最初の純粋なtransformerベース手法 ◼PoseFormerV2 [Zhao+, CVPR2023] • 入力シーケンスを周波数領域に変換 • 低周波数成分のみを利用することで, 計算負荷を減らしつつ高精度な推定を実現
  • 53. 3D Human Pose Estimation ◼ 3D HPE • Monocular RGB images and videos • Single-person • 画像中に一人のみでの姿勢推定タスク • other
  • 54. Single-person, other, HMR ◼Human Mesh Recovery (HMR) • Skinned Multi-Person Linear(SMLP) [Loper+, ACM TOG2015] • Stitched Puppet model [Zuffi & Black, CVPR2015] など • パラメトリック人体モデルを人体メッシュの復元に用いる
  • 55. Single-person, other, HMR, Volumetric models ◼Volumetric models are used to recover high-quality human mesh • 高品質の人体メッシュを復元 ◼[Tan & Cipolla, BMVC2017] [Tung+, NeurIPS] [Pavlakos+, CVPR2018] [Omran+, 3DV2018] • 単眼カメラからのモーションキャプチャに対する新しいアプローチを提案 • ニューラルネットワークを用いて3D形状とスケルトン構造を予測
  • 56. Single-person, other, HMR, Volumetric models ◼[Kolotouros+, CVPR2019] • Graph-CNNアーキテクチャ ◼[Zheng+, ACM Multimedia2022] • Pose2Mesh[Choi+, ECCV2020]に匹敵する性能 • 計算量とメモリを大幅に削減
  • 57. Single-person, other, HMR, Transformer ◼Transformer ◼METRO [Lin+, CVPR2021] Mesh Graphormer [Lin+, ICCV2021] • メッシュ頂点と関節間の相互作用を同時にモデル化 • 計算量とメモリは高い ◼FeatER [Zheng+, CVPR2023] POTTER [Zheng+, CVPR2023] • 上記に対し,計算量とメモリの削減をしたモデル
  • 58. Single-person, other, HMR, extended SMLP ◼Extended SMLP-based models • SMLPモデルの限界に対処 • 計算量が多い • 手や顔のランドマークがない ◼SMLPify [Lassner+, CVPR2017] • 再投影誤差を最小化する手法 ◼SMLP-X [Pavlakos+, CVPR2019] • 完全に関節のある手と顔の ランドマークも予測可能
  • 59. Single-person, other, HMR, extended SMLP ◼SPIN [Kolotouros+, ICCV2019] • SMLP oPtimization IN the loop • 3D人間ポーズと形状を再構築するための新しい手法 • ディープラーニングによる回帰とモデルフィッティングを統合 • 自己改善型のトレーニングループを構築
  • 60. Single-person, other, HMR, extended SMLP ◼[Chen+, ICCV2019] • ビデオ内の3D人間ポーズ推定におけるオクルージョンに対処する手法 • 時空間情報を活用し,遮蔽された状態でも精度の高いポーズ推定 • Cylinder Man Modelの導入 • 3D人間ポーズ推定におけるオクルージョンラベルを生成するために使用され るモデリング手法
  • 61. 3D Human Pose Estimation ◼ 3D HPE • Monocular RGB images and videos • Multi-person • 複数の人物の姿勢推定タスク • Top-down method
  • 62. Multi-person, Top-down ◼Top-down 1. 人物検出 2. 個別人物の3Dキーポイント推定 3. 3Dポーズ推定 • 各3Dキーポイントをワールド座標系で配置する工程
  • 63. Multi-person, Top-down ◼LCR-Net [Rogez+, CVPR2017] • 基本的な構図 • 制御された環境でしか性能を 発揮しなかった ◼[Zanfir+, CVPR2018] • セマンティックセグメンテーションの追加 • ハンガリーマッチング法 • ビデオベースのmulti-person 3DHPE用 • 各検出結果をグラウンドトゥルースに対応付けし,評価時の一致率を最大化
  • 64. Multi-person, Top-down ◼PoseNet [Moon+, ICCV2019] • カメラ距離を考慮したアプローチ ◼PandaNet [Benzine+, CVPR2020] • Pose estimation and Detection Anchor-based Network 1. アンカーベースの表現 2. ポーズ認識アンカー選択戦略 3. 損失の自動重み付け
  • 65. 3D Human Pose Estimation ◼ 3D HPE • Monocular RGB images and videos • Multi-person • 複数の人物の姿勢推定タスク • Bottom-up method
  • 66. Multi-person, Bottom-up ◼ Bottom-up 1. 各身体パーツ,深度マップ,ヒートマップを生成 2. 一つのワールドマップにする • 関節点を正確にグループ化することが難しい
  • 67. Multi-person, Bottom-up ◼ [Zanfir+, NeurIPS2018] • 人物グルーピング問題をbinary integer programing (BIP)問題として定式化 • 各段階で解像度を徐々に高めながら特徴を抽出 • 詳細な空間情報を失うことなく精度を向上 ◼ SPM[Nie+, ICCV2019] • シングルステージ手法を提案 • 従来の二段階手法(人物検出とポーズ推定) に比べ,効率的でシンプル
  • 68. Multi-person, Bottom-up ◼ [Kundu+, ECCV2020] • ペアとなる2D画像と3Dポーズアノテーションを不使用 • Frozen network • 二つのモダリティ間で共有 される潜在空間を利用 ◼ [Fabbri+, CVPR2020] • 高解像度のボリュームヒートマップを圧縮 計算効率を向上させながら詳細な3Dポーズを推定 • Distance-based heuristic • 関節点のクラスタリングにおいて使用される手法
  • 69. Multi-person, Bottom-up, occlusionへの対処 ◼OPRM [Metha+, I3D2018] • Occlusion-Robust Pose-Map • オクルージョンに強いポーズマップを使用 ◼Xnet [Metha+, ACM TOG2020] • 一般的なシーンでオクルージョンや人物間の相互作用を扱う • Stage I: 2Dと3Dポーズの特徴を推定 • Stage II: 3Dポーズの完全な推定 • Stage III: 時間的安定性とカメラ 相対位置を提供
  • 70. Multi-person, Bottom-up, occlusionへの対処 ◼ [Zhen+, ECCV2020] • 奥行きを考慮した関節関連付けアルゴリズム • 人物間のオクルージョンと骨の長さの制約を推論
  • 71. 3D Human Pose Estimation ◼ 3D HPE • Multi-view
  • 72. Multi-view ◼Multi-view • 多視点の画像 or 動画を入力 • 一人用,複数任用という使い分けはない ◼[Rhodin+, CVPR2018] • マルチビュー画像を利用した弱教師あり学習手法 • 形状認識3D潜在表現を学習するフレームワークを提案 • 3Dアノテーションのないマルチビュー画像と背景セグメンテーション ◼[Chen+, ECCV2020], [Mitra+, CVPR2020], [Zhang+, CVPR2020], [Huang+, ECCV2020] • 一貫性制約を持つマルチビューマッチングフレームワークを提案
  • 73. Multi-view ◼[Pavlakos+, CVPR2017] AdaFuse [Zhang+, IJCV2020] • マルチビュー画像の2Dヒートマップを3D構造モデルに集約 • マルチビューのカメラ環境が変わるとモデルを再学習する必要がある ◼Domes to Drones[Pirinen+, NeurIPS2019] • 自己教師あり強化学習手法の提案 • Active Triangulation • 遮蔽問題を効果的に解決 • ドローンによる動的なカメラ配置 • 最適な視点からのデータを 取得して三角測量を行う
  • 74. Multi-view ◼ MvP[Wang+, NeurIPS2021] • Multi-view Pose transformer • マルチビュー画像から3Dポーズを直接回帰するtransformerモデル • 複数人の関節のクエリを表現するために設計 • 既存の手法(複雑な多段パイプライン) • (a)再構成ベース • (b)体積表現ベース • 我々の手法 • (c)MvP • パイプラインが大幅に簡素 • 効率を向上させる。
  • 75. Multi-view, lightweight, fast inference time, efficient adaptation ◼lightweight architecture, fast inference time, and efficient adaptation • 軽量アーキテクチャ,高速推論時間,カメラ設定などの効率的な適応 ◼[Chen+, CVPR2020] • 反復処理による学習 • 3Dポーズを反復的に更新しながら各ビューの2Dと3Dポーズをマッチ • 従来手法 • カメラ台数の増加に伴う爆発的な実行時間の増加の可能性 • 提案手法 • 線形な時間複雑性を有する
  • 76. Multi-view, lightweight fast inference time, efficient adaptation ◼[Remelli+, CVPR2020] • カメラ非依存表現 • 3Dポーズをカメラ視点から切り離し 複数の視点からの情報を効率的に統合 • Direct Linear Transform (DLT) • GPUに適した効率的なDLT実装を使用 • リアルタイム性能 • 提案手法はリアルタイムで動作し,従来手法に匹敵する精度 ◼Faster VoxelPose [Ye+, ECCV2022] • VoxelPose [Tu+, ECCV2020]の高速化 • 10倍近く高速化 • 特徴量を3つの2次元座標平面に再投影 • X, Y, Z座標を個別に推定
  • 77. 3D Human Pose Estimation ◼ 3D HPE • Other sources • Depth and point cloud sensors • Wearable Inertial Measurement Units(IMUs) with monocular image • Radio Frequency device • Other sensors/sources
  • 78. Other sources, depth and point cloud sensors ◼DoubleFusion [Yu+, CVPR2018] A2J [Xiong+, ICCV2019] [Kadkhodamohammadi+, WACV2017] TexMesh [Zhi+, ECCV2020] • 深度画像を用いた3D姿勢推定 ◼[Jiang+, ICCV2019] [Wang+, CVPR2020] • PointNet++と3D人体モデルを組み合わせて3Dメッシュを復元
  • 79. Other sources, IMUs with monocular images ◼Wearable Inertial Measurements Units (IMU) • 物体のオクルージョンや衣服の障害物なしにモーションを記録 • 人体の向きと加速度を追跡 ◼[Mascard+, ECCV2018] [Mascard+, Computer Graphics Forum2017] [Huang+, ACM TOG2018] [Huang+, CVPR2020] [Zhang+, IJCV2020] • 時間の経過とともにドリフティングが発生 • 時間の経過とともにセンサーの測定値が正確でなくなること • 加速度計やジャイロスコープが内部的な誤差を積み重ねることによる • 原因に温度変化,センサーのバイアス,不完全なキャリブレーションなど
  • 80. Other sources, Radio frequency device ◼Radio Frequency(無線周波数)ベースのセンシング • WiFiの範囲内で壁を横断し情報を取得できる • カメラ画像に比べ空間分解能低く,粗い姿勢推定になる ◼[Zhao+, SIGCOMM2018] [Zhao+, ICCV2019]
  • 81. Other sources, Other sensors / sources ◼[Isogawa+, CVPR2020] • Non-line-of-sight(NLOS)で撮像された光子の 三次元時空間ヒストグラムから3D姿勢推定 ◼SelfPose [Tome+, arXiv] xR-EgoPose [Tome+, ICCV2019] Mo 2 cap 2 [Xu+, arXiv2018] • 魚眼カメラによる3D姿勢推定
  • 82. Other sources, Other sensors / sources ◼[Saini+, ICCV2019] • 複数の自立型超小型空撮機(MAV) による3D姿勢推定 ◼Bodies at Rest [Clever+, CVPR2020] • 圧力検知マットの圧力画像から ベッド上の安静姿勢推定
  • 83. 3DHPE summary ◼多くは2D to 3D lifting手法 ◼課題 • モデルの汎化 • 既存のデータセットは制約のあるシーンで撮影されたもの • 実世界のデータに適応すると性能が下がる • オクルージョンに対するロバスト性と計算効率
  • 84. Dataset and Evaluation ◼Dataset and Evaluation • 2D • Datasets • Evaluation • Performance Comparison • Single-person • Multi-person • 3D • Datasets • Evaluation • Performance Comparison • Single-view single-person • Single-view multi-person • Multi-view
  • 85. 2DHPE, Datasets ◼Max Planck Institute for Informatics (MPII) Human Pose Dataset [Andriluka+, CVPR2014]
  • 86. 2DHPE, Datasets ◼Microsoft Common Objects in Context (COCO) Dataset [Lin+, arXiv2020] • 33万枚以上の画像と20万人の被写体をキーポイントでラベル付けしている • 17の関節がある • COCO-WholeBody[Jin+, arXiv2020]
  • 87. 2DHPE, Datasets ◼PoseTrack Dataset(PoseTrack2017) [Andriluka+, CVPR2018] • 混雑した環境におけるオクルージョンなどを含む
  • 89. 2DHPE, Evaluation ◼Percentage of Correct Parts(PCP) [Eichner+, IJCV2012] • 推定された関節の位置がどれだけ正確かを測定 • 1人用の姿勢推定の評価 1. 距離の計算 • 各部位に対して,推定された関節点と実際の関節点の距離を計算 2. 閾値の設定 • 距離が許容範囲内(通常は部位の長さの50%以下)なら検出成功 3. 正解率の計算 ◼Percentage of Detected Joints(PDJ) [Toshev & Szegedy, CVPR2014] • 各関節点の推定位置と真の位置の距離を体のサイズで正規化 • 閾値以下の距離にある場合を検出成功
  • 90. 2DHPE, Evaluation ◼Percentage of Correct Keypoints(PCK) [Yang & Ramanan, IEEE TPAMI2012] • 基準長は人物の体の特定の長さ(例:頭から足までの高さ)に対する割合 • 例 • [email protected]は,基準長の50%以内に正しく推定された関節点を評価 • 推定された関節点の位置と真の位置の距離を計算 • その距離が設定した閾値以内であれば検出成功
  • 91. 2DHPE, Evaluation ◼Average Precision (AP) and Average Recall (AR) • Object Keypoint Similarity (OKS) • 検出されたキーポイントの位置がどれだけ正確であるかを測定 • 距離計算 • 検出と真値のキーポイントの正規化された距離を計算 • OKSの閾値でAPとARを求める • AP • 検出されたキーポイントのうち,正しいものの割合 • AR • 正解キーポイントのうち,検出されたものの割合
  • 92. Single-person 2DHPE, Performance Comparison ◼一人用2DHPE性能比較 • MPIIデータセットで検証 • [email protected]で比較 H: Heatmap, R: Regression
  • 93. Multi-person 2DHPE, Performance Comparison ◼多人数2D • COCOデータセットで検証 • Object Keypoint Similarity(OKS) • 0.5の時,AP.5と表されている • Top-down: 性能が良い • Bottom-up: 高速である T: Top-down, B: Bottom-up
  • 94. 3DHPE, Datasets ◼Human3.6M [Ionescu+, IEEE TPAMI2014] • 4台のカメラで被験者を撮影した計約360万フレームの動画 • MoCapシステムによってキャプチャ • 17の動作と11人のアクターしかいない
  • 95. 3DHPE, Datasets ◼MuPoTS-3D [Mehta+, 3DV2018] • 多人数3Dデータセット • 20の実世界シーン • マルチビューマーカーレスMoCapシステム でキャプチャ • 難しいサンプル • オクルージョン • 急激な照明な変化 • レンズフレア
  • 97. 3DHPE, Evaluation ◼Mean Per Joint Position Error(MPJPE, Reconstruction Error) • 関節点の推定座標と正解座標の距離を全ての関節点およびデータで平均 • 位置合わせ方法 • 腰などの基準となる関節点 (Root Joint) の座標を並進移動 • 回転を加えた剛体変換による位置合わせ (Rigid Alignment) • PA-MPJPE(Reconstruction Error)という ◼Normalized Mean Per Joint Position Error (NMPJPE) [Rhodin+, CVPR2018] • 各関節点の推定位置と真の位置の誤差を計算し,その平均を取ったもの 1. 関節点の位置誤差を計算 2. 平均誤差を取る 3. 正規化
  • 98. 3DHPE, Evaluation ◼Mean Per Vertex Error(MPVE) [Pavlakos+, CVPR2018] • 3Dメッシュの精度を評価 • 各頂点(vertex)の推定位置と真の位置の誤差の平均 ◼3DPCK • PCKを3次元に拡張したもの • 関節点の推定座標と正解座標の距離が設定した閾値よりも小さいと検出成功 • 一般的に閾値は150mm
  • 99. 3DHPE, Evaluation ◼Summary • MPJPE • 人体形状や骨格の予測スケールに依存 • 値が低くても,必ずしも正確な姿勢推定であるとは言えない • 3DPCK • 誤った間接に対しては頑健 • 正しい関節の精度を評価することはできない • 連続フレームに渡った評価指標はない • 既存のメトリクスは単一フレームにおける精度の評価 • 時間的一貫性となめらかさを備えた3DHPEの性能評価が必要
  • 100. 3DHPE, Performance Comparison, Single-view single-person ◼単眼一人用3DHPEの性能比較 • Human3.6Mで比較 • より複雑なシーンデータだとすぐに性能低下 • 17の動作と11人のアクターのため
  • 101. 3DHPE, Performance Comparison, Single-view multi-person ◼単眼多人数3DHPEの性能比較 • MuPoTS-3Dで比較 • トップダウン法の方が性能が高い • ボトムアップ法は計算効率が高い
  • 102. 3DHPE, Performance Comparison, Multi-view ◼複数ビューの3DHPE • Human3.6Mで比較 • オクルージョンと奥行きの曖昧さを緩和
  • 103. Application ◼Application • Action recognition, prediction, detection, and tracking • Action correction and online coaching • Clothes parsing • Animation, movie, and gaming • AR and VR • Healthcare
  • 104. Application, Action recognition, prediction, detection, and tracking ◼ActionXPose [Angelini+, arXiv2018] • 人間の姿勢推定を用いたリアルタイムの人間行動認識 • 抽出した姿勢データをLSTMと1D-CNNに入力し,行動を分類 ◼[Markovitz+, CVPR2020] • 人間の姿勢グラフを用いて異常検出を行う新しい手法を提案 • 姿勢データを潜在空間にマッピング・クラスタリングして異常行動を識別
  • 105. Application, Action recognition, prediction, detection, and tracking ◼[Cao+, ECCV2020] • 予測された3Dポーズを長期的な人間の動作予測に利用 1. GoalNet • シーン画像と2Dポーズ履歴から,未来の複数の2Dゴールを予測 2. PathNet • ゴールに向かう3Dパスを計画 3. PoseNet • 予測された3Dパスに沿ってシーケンスを生成 ◼VPN [Das+, ECCV2020] • 人間の行動を監視するために,日常生活の活動を識別する
  • 106. Application, Action correction and online coaching ◼Action correction and online coaching • 人体の正確なコントロール指導の目的 ◼AI Coach [Wang+, ACM MM2019] • パーソナライズされたトレーニング支援 • ポーズ推定モジュールを備えた • AIコーチングシステム
  • 107. Application, Clothes parsing ◼Clothes parsing • Eコマースにおいて衣服の購入を含む様々な面で影響 ◼Simulcap [Yu+, CVPR2019], pose transfer [Li+, CVPR2019] • 特定の服を着ている人の3D外観を推定 ◼TailorNet [Patel+, CVPR2020] • 人間のポーズ,体形,および衣服の スタイルに基づいて3Dの衣服変形を予測 • 衣服のしわのディテールを保持して予測
  • 108. Application, Animation, movie, and gaming ◼Animation, movie, and gaming • 複雑な動きやリアルな身体的インタラクションを持つキャラクターを表現 ◼Pose2Pose[Willett+, IUI2020], PoseTween [Liu+, ACM UIST2020]
  • 109. Application, AR and VR ◼Photo Wake-Up [Weng+, CVPR2019] • 単一の写真から人間の被写体を 3Dアニメーション化する手法を提案 • 歩き出したり,座ったり,ジャンプしたり ◼Vid2Player [Zheng+, arXiv2020] • インタラクティブに操作可能な ビデオスプライトに変換するシステム • プロテニス選手のビデオ • 実際のプレイヤーの動作や戦略を模倣
  • 110. Application, Healthcare ◼Healthcare • 複雑な疾患の診断,リハビリのトレーニング作成,理学療法の実施 ◼[Lu+, arXiv2020] • パーキンソン病の運動重症度を評価 ◼[Gu+, ICCVW2019] • 患者が自宅で助言を受けられるポーズベースの理学療法システム ◼[Chen+, Symmetry2020] • 転倒検出モニタリング ◼[Chen+, JTEHM2018] • 病院環境における患者の信頼性の高い姿勢ラベルを提供 • 自然な行動に対する神経相関の研究を補強
  • 111. Conclusion and Future Direction ◼姿勢推定のためのドメイン適応 • 既存のデータセットでは異なるドメインではうまくいかないことが多い • GANベースの学習アプローチで対応される傾向がある • 人間のポーズ知識を効果的に転送する方法はない ◼人体メッシュ表現モデルの膨大なパラメータ数 • メッシュの品質を保ちパラメータ数をどう減らすか • 人によって体型は様々 • BMIやシルエットなどの情報がより良い汎化につながるかも
  • 112. Conclusion and Future Direction ◼人間と3Dシーンの相互作用の無視 • 人物がシーン内の物体や環境とどのように関わっているかを考慮しないこと • 例 • 無視 • 人物が椅子に座っている場合,椅子に座っているという事実を無視し,人 物が空中に浮いているかのように推定 • 考慮 • 椅子の存在を考慮し,腰や脚が椅子に触れていることを反映し姿勢を推定 ◼適切な評価指標 • 映像からの3D姿勢推定はなめらかで連続的でない • 時間的一貫性と動きの滑らかさに焦点を当てた評価指標が必要
  • 113. Conclusion and Future Direction ◼解像度の不一致に未関心 • 既存の学習データは高解像度の画像や動画 • 低解像度の入力は不正確な姿勢の推定につながる可能性 • コントラスト学習スキームが役立つ可能性 • 原画像と低解像度版を性のペアとする ◼敵対的攻撃に対して脆弱 • 知覚できないノイズは性能に大きく影響する • [Jl+, Virtual Reality & Intelligent Hardware2020] • 敵対的攻撃に考慮した研究
  • 114. Conclusion and Future Direction ◼異なる動きのパターンや形状を持つ可能性 • 単一の共有ネットワークアーキテクチャが最適とは限らない • Neural Architecture Search(NAS) [Elsken+, JMLR2019] • 各関節の推定に最適なアーキテクチャを探索できる • 姿勢推定における多目的なNASを探求する価値がある