33. Multi-person, Bottom-up
◼PifPaf [Kreiss+, CVPR2019]
• 低解像度や部分的に遮蔽された環境での人物のポーズ推定を改善する
• Part Intensity Field
• 個々の体の部位の正確な位置を特定
• 体の各部分の検出が可能
• Part Association Field
• 検出された体の部位間の接続を確立
• 分散した体の部位を正確に関連付けて,一つの連続した人間のポーズを形成
37. 3D Human Pose Estimation
◼ 3D HPE
• Monocular RGB images and videos
• Single-person
• 一人のみでの姿勢推定タスク
• Direct estimation
• 2D to 3D lifting
• Other
• Multi-person
• 複数の人物の姿勢推定タスク
• Top-down method
• Bottom-up method
• Multi-view
• Other sources
• Depth and point cloud sensors
• Wearable Inertial Measurement Units(IMUs) with monocular image
• Radio Frequency device
• Other sensors/sources
38. 3D Human Pose Estimation
◼ 3D HPE
• Monocular RGB images and videos
• Single-person
• 一人のみでの姿勢推定タスク
• Direct estimation
45. Single-person, 2D to 3D lifting, Kinematic model
◼Kinematic model
• 運動学的な高速条件を持つ骨と間接によって表現
• 骨格の関節結合情報
• 関節の回転特性
• 骨の長さの固定比率
◼[Zhou+, ECCV2016]
• 運動学モデルをニューラルネットワークに直接埋め込む手法を提案
• 無機とか移転の制約
46. Single-person, 2D to 3D lifting, Kinematic model
◼[Wang+, ICCV2019]
• 体の異なる部分に応じて異なる自由度を持つ関節をモデル化
• 高自由度の関節(例: 肘)は低自由度の関節(例: 胴体)の従属変数
• 逆に低自由度の関節も高自由度の関節に制約
• 双方向ネットワークの提案
• 人体骨格の運動学的依存性と幾何学的依存性のモデル化
47. Single-person, 2D to 3D lifting, Kinematic model
◼[Xu+, CVPR2020]
• 2Dポーズのノイズが正確な3Dポーズ推定
の重要な障害であることを実証
• 手順
1. 局所キネマティックパラメータの抽出
2. カメラ投影変換
3. 空間マップ変換
48. Single-person, 2D to 3D lifting, unusual pose and occlusions
◼In-the-wild data with unusual pose and occlusions
• 通常とは異なるポーズやオクルージョンのある実環境データ
◼[Zhou+, ICCV2017]
• Weakly supervised transfer learning
• In-the-wild画像の2Dアノテーションを
弱いラベルとして使用
◼[Habibie+, CVPR2019]
• 3Dアノテーションなしでより正確な推定を実現
• Projection loss
• 3D関節位置を2D画像平面に投影
• 予測された2D関節位置との誤差を最小化
49. Single-person, 2D to 3D lifting, unusual pose
and occlusions
◼[Chen+, CVPR2019]
• ClosureとInvarianceリフティング特性に基づくUnsupervised lifting network
• Geometric self-consistency loss
• 2Dポーズのデータのみを使用
• Closure
• 2Dスケルトンが正確に3Dスケルトン推定され,ランダムに回転されて再投
影された場合,得られる2Dスケルトンは有効な2Dポーズの分布内に収まる
• Invariance
• 異なる視点からの同じ3Dスケルトンの2D投影が,再び3Dに推定された際に,
同じ3D出力を生成するべきである
50. Single-person, 2D to 3D lifting, temporal information
◼Videos can provide temporal information
• 時間情報を利用して,精度とロバスト性を向上させる
◼[Hossain & Little, ECCV2018]
• LSTMを用いたrecurrent neural networkの提案
• 時間的に一貫性のある3Dポーズ推定
◼[Pavllo+, CVPR2019]
• 拡張時間畳み込み(dilated temporal convolutions)に基づく畳み込みモデル
• 予測誤差が時間的に非連続で独立であるという仮定
• オクルージョンの存在下では成立しない可能性あり
• 予測誤差が時間的に連続
• 予測の誤差が時間の経過とともに滑らかに変化し,一つのフレームの誤差
が次のフレームにも影響を及ぼす
51. Single-person, 2D to 3D lifting, temporal information
◼SRNet [Zeng+, ECCV2020]
• Split and recombine戦略
1. ポーズを局所的な関節のグループに分割
2. それぞれを別々のネットワークブランチで処理
3. 最後に全体のコンテキストを再結合
• 稀で未見なポーズ問題に対処
75. Multi-view, lightweight, fast inference time, efficient adaptation
◼lightweight architecture, fast inference time, and efficient adaptation
• 軽量アーキテクチャ,高速推論時間,カメラ設定などの効率的な適応
◼[Chen+, CVPR2020]
• 反復処理による学習
• 3Dポーズを反復的に更新しながら各ビューの2Dと3Dポーズをマッチ
• 従来手法
• カメラ台数の増加に伴う爆発的な実行時間の増加の可能性
• 提案手法
• 線形な時間複雑性を有する
76. Multi-view, lightweight fast inference time, efficient adaptation
◼[Remelli+, CVPR2020]
• カメラ非依存表現
• 3Dポーズをカメラ視点から切り離し
複数の視点からの情報を効率的に統合
• Direct Linear Transform (DLT)
• GPUに適した効率的なDLT実装を使用
• リアルタイム性能
• 提案手法はリアルタイムで動作し,従来手法に匹敵する精度
◼Faster VoxelPose [Ye+, ECCV2022]
• VoxelPose [Tu+, ECCV2020]の高速化
• 10倍近く高速化
• 特徴量を3つの2次元座標平面に再投影
• X, Y, Z座標を個別に推定
77. 3D Human Pose Estimation
◼ 3D HPE
• Other sources
• Depth and point cloud sensors
• Wearable Inertial Measurement Units(IMUs) with monocular image
• Radio Frequency device
• Other sensors/sources
78. Other sources, depth and point cloud sensors
◼DoubleFusion [Yu+, CVPR2018]
A2J [Xiong+, ICCV2019]
[Kadkhodamohammadi+, WACV2017]
TexMesh [Zhi+, ECCV2020]
• 深度画像を用いた3D姿勢推定
◼[Jiang+, ICCV2019]
[Wang+, CVPR2020]
• PointNet++と3D人体モデルを組み合わせて3Dメッシュを復元