Unsupervised Learning of Probably
Symmetric Deformable 3D Objects
from Images in the Wild
2020/07/04
第三回 全日本コンピュータビジョン勉強会(前編)
書誌情報
• CVPR2020 Best Paper
• 今年のbest paperは3D系ばかりでしたね!
• OxfordのVisual Geometry Groupによる研究
• 選定理由
• この論文の前身となる論文を読んだはずだがスルーしてしまっていたので、
best paperに選ばれたタイミングで再度読み直そうと思った
• デモが面白いので試してみてください
• http://www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-of-
probably-symmetric-deformable-3d-objects-from-images-in-the-
wild.html?image=037_abstract&type=cat
論文概要
• 単一視点画像のみから教師なしで3Dの非剛体オブジェクトを学習
• 具体的には、画像からデプス、アルベド、カメラ姿勢、照明を推定
• 教師なしで学習するために物体の対称性を利用
• 人間の顔、動物の顔、車など左右対称な物体は非常に多い
• 対称性は特に照明の推定と密接に関わる
Symmetry in 3D Vision
• 本研究では不良設定問題の制約として、物体の対称性を利用
• 物体の対称性は、有用な制約として活用できる
• 例) 対称性を利用したステレオマッチング (François+ 2003)
• 物体の対称性を仮定すると、画像の反転により別視点の画像が作れる
François et al. Mirror Symmetry ⇒ 2-View Stereo Geometry.
Image and Vision Computing, 2003.
Symmetry in 3D Vision
• 前述のように、対称性の活用が鍵
• しかし、非対称性への対処をする必要がある
1. 形状の非対称性 (e.g. 人間の髪型)
2. アルベドの非対称性 (e.g. 猫の模様の違い)
3. 照明条件による非対称性
• 2つのアプローチで対処
1. 照明の明示的なモデリング
• shapeを復元するのにも役立つ
2. 各ピクセルが線対称である確率を推論する
ここまでが、基本的なアイデアの話
次のスライドから詳細を説明します
Deep Learning x 3D
• 既存手法との比較
• この表を精査したわけではな
いですが、画像のみから4つの
パラメータを推定する問題設
定はかなりチャレンジングに
見えます
提案手法: 全体図
• AutoEncoder型のネッ
トワークで、デプス、
アルベド、カメラ姿勢、
照明を推定
• 推定した値から元の画
像を復元
再構成誤差で学習
提案手法: Photo-geometric autoencoders
• 入力画像: (3 x W x H) のテンソル
• 物体がだいたい中央にあるように撮影
• 画像から次の4つの要素を推定
• 𝑑 : デプスマップ
• 𝑎 : アルベド画像
• 𝑙 : 照明の方向 (global light direction)
(2自由度)
• 𝑤 : カメラ姿勢 (6自由度)
DNNで4つの要素を推定
提案手法: Photo-geometric autoencoders
• 4つの要素から以下の関数で画像を復元
• Λ : lighting function
• Π : reprojection
• Λ, Πには以下のような役割がある
• Λは、デプス、照明、アルベドから正面画
像 (canonical view) を復元する
• Πは、デプス、カメラ視点を用いて、正面
画像を目的の視点に再投影する
Λ, Πの詳細は後ほど説明します Λにより正面画像
の復元
Πで正面画像を
元の画像のview
に再投影
提案手法: Probably symmetric objects
• 対称性を活用するためには、対称の軸
をうまく発見する必要がある
• 本研究では、これを暗黙的に解いた
• 入力画像からデプス、アルベドを推定す
る時に左右対称の正面画像として推定
• 推定したデプス、アルベドを反転させて
も同じ画像が復元されるように学習
左右対称を保証するため
デプスとアルベドを左右対称
の正面画像として推定
提案手法: 損失関数
• モデルは以下の損失学習で訓練
• confidence 𝜎 で重み付けしたL1 loss (ラプラス分布のnegative loss
likelihoodと等価)
• confidenceについては次のスライドで説明します
• 反転させたデプスとアルベドから再構成した画像についても同じ損失を計算
• 左右対称なデプス、アルベドの学習を促進
• 反転なし + 反転あり の合計を最終的な損失とする
再構成誤差 反転画像の再構成誤差
提案手法: Probably symmetric objects
• 予測の不確かさ・物体の非対称性のモ
デリング
• confidence map 𝜎, 𝜎′ として出力
• 𝜎, 𝜎′
はそれぞれ損失関数の中で用いら
れる
• 特に𝜎′は非対称性をモデリング
• 右図の𝜎′では髪の毛の領域の不確かさが
大きくなっている
• 髪は左右非対称の可能性が高い
モデルの不確かさを推定
Image formation model
• Π, Λの詳細についての説明
• Πはデプス、カメラ視点を用いて、正
面画像を目的の視点に再投影する
• カメラの内部パラメータK
• R, tは外部パラメータ
ここ
Image formation model
• Λは、デプス、照明、アルベドから正
面画像 (canonical view) を復元する
• 𝑘 𝑠, 𝑘 𝑑 : アンビエント光とデフューズ光
の係数
• 𝑙 : 照明の方向ベクトル
• 𝑛 𝑢𝑣 : デプスから算出した法線ベクトル
• 𝑎 𝑢𝑣 : アルベド光
• 照明と法線の内積によりデフューズ
の強さが決まる
照明による画像の非対称性をモデリング
できる ここ
提案手法: 全体図 (再掲)
• AutoEncoder型のネッ
トワークで、デプス、
アルベド、カメラ姿勢、
照明を推定
• 推定した値から元の画
像を復元
再構成誤差で学習
左右反転させて同じこと
をやる
実験
• Dataset
• CelebA : 人間の顔のデータセット
• 3DFAW: 人間の顔のデータセット (キーポイント付き)
• BFM : 人間の顔のデータセット (3Dモデルあり)
• cat dataset: 猫の顔のデータセット (一部キーポイントあり)
• ShapeNet: 車の3Dモデルのデータを使用
• Metrics
• scale-invariant depth error (SIDE) : デプスの誤差
• mean angle deviation (MAD) : 法線の誤差
実験: (ベースラインとの比較)
• BFM dataset (人間の顔の3Dモデル)を用いてデプスとカメラ姿勢が
正しく推定できているか検証
• 教師ありで学習した結果よりは悪いがデプスの平均値をで予測するよりは良
い
実験: (Ablation)
• 何が効いているのか確認
• アルベドとデプスのflipはよく効いている
• 照明もよく効いている
実験 (Qualitative Results)
• CelebA, 3DFAW, cat
faces, ShapeNetの結果
• いい感じに三次元形状が
復元されている
• 珍しい表情には対応でき
てない? (2列目)
実験 (symmetry and asymmetry detection)
• 対象の軸の可視化 (左図)
• 非対称領域の可視化 (右図)
• 人間の髪の毛や猫の顔の模様
実験 (Limitation)
• 照明条件が極端な場合 (a)
• 鏡面反射や影を仮定していないため
• テクスチャに暗い色がノイズ的に含まれる場合 (b)
• shadingと暗いテクスチャの区別がつかない
• 物体が学習データにあまりないポーズの時 ©
まとめ
• 単一画像から非剛体物体の3Dモデルを学習
• 推定したパラメータから画像を復元し、再構成誤差により学習
• 対称性と照明が、形状復元の重要な手がかりとなった
• Future work
• 複数の正面画像の生成
• デプスの代わりにメッシュやボクセルの使用
より複雑な形状の物体に対応できるように!
• 感想
• 対称性を活用するというアイデアが面白い
• 適用対象が人間の顔画像が中心だったが、さらに複雑なデータに適用できるように
なるのか(CIFAR-10から復元するとか)
参考文献
• S. Wu et al. Unsupervised Learning of Probably Symmetric
Deformable 3D Objects from Images in the Wild. CVPR, 2020.
• D. Shao et al. FineGym: A Hierarchical Video Dataset for Fine-
grained Action Understanding, CVPR, 2020.
• François et al. Mirror Symmetry ⇒ 2-View Stereo Geometry. Image
and Vision Computing, 2003.

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

  • 1.
    Unsupervised Learning ofProbably Symmetric Deformable 3D Objects from Images in the Wild 2020/07/04 第三回 全日本コンピュータビジョン勉強会(前編)
  • 2.
    書誌情報 • CVPR2020 BestPaper • 今年のbest paperは3D系ばかりでしたね! • OxfordのVisual Geometry Groupによる研究 • 選定理由 • この論文の前身となる論文を読んだはずだがスルーしてしまっていたので、 best paperに選ばれたタイミングで再度読み直そうと思った • デモが面白いので試してみてください • http://www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-of- probably-symmetric-deformable-3d-objects-from-images-in-the- wild.html?image=037_abstract&type=cat
  • 3.
    論文概要 • 単一視点画像のみから教師なしで3Dの非剛体オブジェクトを学習 • 具体的には、画像からデプス、アルベド、カメラ姿勢、照明を推定 •教師なしで学習するために物体の対称性を利用 • 人間の顔、動物の顔、車など左右対称な物体は非常に多い • 対称性は特に照明の推定と密接に関わる
  • 4.
    Symmetry in 3DVision • 本研究では不良設定問題の制約として、物体の対称性を利用 • 物体の対称性は、有用な制約として活用できる • 例) 対称性を利用したステレオマッチング (François+ 2003) • 物体の対称性を仮定すると、画像の反転により別視点の画像が作れる François et al. Mirror Symmetry ⇒ 2-View Stereo Geometry. Image and Vision Computing, 2003.
  • 5.
    Symmetry in 3DVision • 前述のように、対称性の活用が鍵 • しかし、非対称性への対処をする必要がある 1. 形状の非対称性 (e.g. 人間の髪型) 2. アルベドの非対称性 (e.g. 猫の模様の違い) 3. 照明条件による非対称性 • 2つのアプローチで対処 1. 照明の明示的なモデリング • shapeを復元するのにも役立つ 2. 各ピクセルが線対称である確率を推論する ここまでが、基本的なアイデアの話 次のスライドから詳細を説明します
  • 6.
    Deep Learning x3D • 既存手法との比較 • この表を精査したわけではな いですが、画像のみから4つの パラメータを推定する問題設 定はかなりチャレンジングに 見えます
  • 7.
  • 8.
    提案手法: Photo-geometric autoencoders •入力画像: (3 x W x H) のテンソル • 物体がだいたい中央にあるように撮影 • 画像から次の4つの要素を推定 • 𝑑 : デプスマップ • 𝑎 : アルベド画像 • 𝑙 : 照明の方向 (global light direction) (2自由度) • 𝑤 : カメラ姿勢 (6自由度) DNNで4つの要素を推定
  • 9.
    提案手法: Photo-geometric autoencoders •4つの要素から以下の関数で画像を復元 • Λ : lighting function • Π : reprojection • Λ, Πには以下のような役割がある • Λは、デプス、照明、アルベドから正面画 像 (canonical view) を復元する • Πは、デプス、カメラ視点を用いて、正面 画像を目的の視点に再投影する Λ, Πの詳細は後ほど説明します Λにより正面画像 の復元 Πで正面画像を 元の画像のview に再投影
  • 10.
    提案手法: Probably symmetricobjects • 対称性を活用するためには、対称の軸 をうまく発見する必要がある • 本研究では、これを暗黙的に解いた • 入力画像からデプス、アルベドを推定す る時に左右対称の正面画像として推定 • 推定したデプス、アルベドを反転させて も同じ画像が復元されるように学習 左右対称を保証するため デプスとアルベドを左右対称 の正面画像として推定
  • 11.
    提案手法: 損失関数 • モデルは以下の損失学習で訓練 •confidence 𝜎 で重み付けしたL1 loss (ラプラス分布のnegative loss likelihoodと等価) • confidenceについては次のスライドで説明します • 反転させたデプスとアルベドから再構成した画像についても同じ損失を計算 • 左右対称なデプス、アルベドの学習を促進 • 反転なし + 反転あり の合計を最終的な損失とする 再構成誤差 反転画像の再構成誤差
  • 12.
    提案手法: Probably symmetricobjects • 予測の不確かさ・物体の非対称性のモ デリング • confidence map 𝜎, 𝜎′ として出力 • 𝜎, 𝜎′ はそれぞれ損失関数の中で用いら れる • 特に𝜎′は非対称性をモデリング • 右図の𝜎′では髪の毛の領域の不確かさが 大きくなっている • 髪は左右非対称の可能性が高い モデルの不確かさを推定
  • 13.
    Image formation model •Π, Λの詳細についての説明 • Πはデプス、カメラ視点を用いて、正 面画像を目的の視点に再投影する • カメラの内部パラメータK • R, tは外部パラメータ ここ
  • 14.
    Image formation model •Λは、デプス、照明、アルベドから正 面画像 (canonical view) を復元する • 𝑘 𝑠, 𝑘 𝑑 : アンビエント光とデフューズ光 の係数 • 𝑙 : 照明の方向ベクトル • 𝑛 𝑢𝑣 : デプスから算出した法線ベクトル • 𝑎 𝑢𝑣 : アルベド光 • 照明と法線の内積によりデフューズ の強さが決まる 照明による画像の非対称性をモデリング できる ここ
  • 15.
    提案手法: 全体図 (再掲) •AutoEncoder型のネッ トワークで、デプス、 アルベド、カメラ姿勢、 照明を推定 • 推定した値から元の画 像を復元 再構成誤差で学習 左右反転させて同じこと をやる
  • 16.
    実験 • Dataset • CelebA: 人間の顔のデータセット • 3DFAW: 人間の顔のデータセット (キーポイント付き) • BFM : 人間の顔のデータセット (3Dモデルあり) • cat dataset: 猫の顔のデータセット (一部キーポイントあり) • ShapeNet: 車の3Dモデルのデータを使用 • Metrics • scale-invariant depth error (SIDE) : デプスの誤差 • mean angle deviation (MAD) : 法線の誤差
  • 17.
    実験: (ベースラインとの比較) • BFMdataset (人間の顔の3Dモデル)を用いてデプスとカメラ姿勢が 正しく推定できているか検証 • 教師ありで学習した結果よりは悪いがデプスの平均値をで予測するよりは良 い
  • 18.
    実験: (Ablation) • 何が効いているのか確認 •アルベドとデプスのflipはよく効いている • 照明もよく効いている
  • 19.
    実験 (Qualitative Results) •CelebA, 3DFAW, cat faces, ShapeNetの結果 • いい感じに三次元形状が 復元されている • 珍しい表情には対応でき てない? (2列目)
  • 20.
    実験 (symmetry andasymmetry detection) • 対象の軸の可視化 (左図) • 非対称領域の可視化 (右図) • 人間の髪の毛や猫の顔の模様
  • 21.
    実験 (Limitation) • 照明条件が極端な場合(a) • 鏡面反射や影を仮定していないため • テクスチャに暗い色がノイズ的に含まれる場合 (b) • shadingと暗いテクスチャの区別がつかない • 物体が学習データにあまりないポーズの時 ©
  • 22.
    まとめ • 単一画像から非剛体物体の3Dモデルを学習 • 推定したパラメータから画像を復元し、再構成誤差により学習 •対称性と照明が、形状復元の重要な手がかりとなった • Future work • 複数の正面画像の生成 • デプスの代わりにメッシュやボクセルの使用 より複雑な形状の物体に対応できるように! • 感想 • 対称性を活用するというアイデアが面白い • 適用対象が人間の顔画像が中心だったが、さらに複雑なデータに適用できるように なるのか(CIFAR-10から復元するとか)
  • 23.
    参考文献 • S. Wuet al. Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild. CVPR, 2020. • D. Shao et al. FineGym: A Hierarchical Video Dataset for Fine- grained Action Understanding, CVPR, 2020. • François et al. Mirror Symmetry ⇒ 2-View Stereo Geometry. Image and Vision Computing, 2003.