QPIC: Query-Based Pairwise Human-Object Interaction
Detection With Image-Wide Contextual Information
Masato Tamura, Hiroki Ohashi, Tomoaki Yoshinaga
CVPR2021
HOTR: End-to-End Human-Object Interaction Detection
With Transformers
Bumsoo Kim, Junhyun Lee, Jaewoo Kang, Eun-Sol Kim, Hyunwoo J. Kim
CVPR2021
Human-Object Interaction Detection
via Disentangled Transformer
Desen Zhou, Zhichao Liu, Jian Wang, Leshan Wang, Tao Hu, Errui Ding, Jingdong Wang
CVPR2022
堀史門(名工大)
2025/6/26
3つの論文の共通事項
◼タスク
• Human-Object Interaction (HOI) 検出
• 画像内の「人間,物体,相互作用」の トリプレットを予測
• 2段階手法 (Sequential手法)
• 物体検出器 + 相互作用検出器
• 時間と計算コストがかかる
• 1段階手法 (Parallel手法)
• 物体検出と相互作用検出を並列に行う
• 推論時間が短い
◼手法
• 物体検出器のDETR [Carion+, ECCV2020]を拡張したHOI検出手法
DETR [Carion+, ECCV2020]
◼概要
• Transformerを用いたEnd-to-Endな物体検出器
• 物体クラスと物体のbounding box (bbox)を予測
• フレーム単位で各検出物体に対応するobject queryを学習
◼アーキテクチャ
• CNN backbone
• Transformer Encoder
• Transformer Decoder
• FFN
アーキテクチャ比較概要
◼紹介するモデル
• (a) QPIC
• 単一のエンコーダと単一のデコーダ
• (b) HOTR
• 単一のエンコーダと並列のデコーダ
• (c) DisTR
• 並列のエンコーダと並列のデコーダ
DETR [Carion+, ECCV2020]
QPIC: Query-Based Pairwise
Human-Object Interaction
Detection With Image-Wide
Contextual Information
Masato Tamura, Hiroki Ohashi, Tomoaki Yoshinaga
CVPR2021
概要
◼従来手法
• 2段階手法
1. 人物と物体をローカライズ
2. ローカライズした領域の特徴を動作クラスの予測に使用
• 2段階手法の問題点の一例
• ローカライズした領域特徴だけで動作クラスの予測が困難 (左図)
• ローカライズによって余計な特徴が抽出される(右図)
◼本手法
• 画像全体の文脈情報を活用して人間と物体をペア単位で検出するクエリベース
の1段階のHOI検出器
アーキテクチャ
◼DETRとの変更点
• Transformer decoderまでは同様
• Headを追加
◼Interaction detection heads
• 以下の四つを予測
• 人物bbox, 物体bbox, 物体クラス, 動作クラス
• 物体クラスは一つ,動作クラスは複数予測
データセット
◼V-COCO:5,400枚の訓練画像と4,946枚のテスト画像.25動詞
• 80 個の物体クラス, 29 個の動作クラス,25 個の HOIカテゴリ
• 評価指標
1. Scenario1(𝐴𝑃𝑟𝑜𝑙𝑒
#1
)
• 人物bboxと動作クラスを正しく予測しつつ遮蔽されたオブジェクトのバウ
ンディングボックスを[0, 0, 0, 0]と正しく予測する必要がある
2. Scenario2(𝐴𝑃𝑟𝑜𝑙𝑒
#2
)
• 遮蔽されたオブジェクトについて予測する必要がない
◼HICO-DET:37,536の訓練画像,9,515テスト画像.600種類のHOIカ
テゴリ
• 80の物体クラス,117の動作クラス,600のHOIトリプレット
• 評価指標:mAP
1. HICOの全600HOIカテゴリ(Full)
2. 訓練サンプル数が10未満の138HOIカテゴリ(Rare)
3. 訓練サンプル数が10以上の462HOIカテゴリ(Non-Rare)
HICO-DETの実験結果
◼すべての設定において最先端の2段階手法と1段階手法の両方を上回る
V-COCOの実験結果
◼全てのベースラインと比較して最先端の性能を達成
◼HICO-DETの結果との違い
• ResNet-101と比較してResNet-50 backboneが高性能
• V-COCOの訓練サンプル数が大規模なネットワークを訓練するのに不十分
HOTR: End-to-End Human-
Object Interaction Detection
With Transformers
Bumsoo Kim, Junhyun Lee, Jaewoo Kang, Eun-Sol Kim, Hyunwoo J. Kim
CVPR2021
概要
◼従来手法
• 人間と物体を検出して後処理で検出したインスタンスのペアを個別に推測
• 1つのクエリのbboxを直接回帰
• 同一の物体のbboxが相互作用ごとに異なってしまう
◼本手法
• Transformer エンコーダ・デコーダアーキテクチャ
• 人間、物体、相互作用の 3 つの要素のセットを後処理なしで直接予測
• ポインタを予測して相互作用間で同一のbboxを使用
同じ人物が椅子に座ってコンピューター
を操作している場合:
2 つの異なるクエリで同じ人物のbbox回
帰を冗長に推測する必要がある
手法:全体アーキテクチャ
◼DETRとの変更点
• Transformer Encoderまで同様
• Decoderとheadを変更
◼Transformer Decoder
• 並列デコーダ
◼HOポインタ
• 並列デコーダの結果を紐づける
手法:Transformer Decoder
◼並列デコーダ
• インスタンスデコーダ
• インスタンスクエリを物体検出用のインスタンス表現に変換
• インタラクションデコーダ
• インタラクションクエリをHOI検出用のインタラクション表現に変換
手法:HOポインタ
◼処理
• 各インタラクション表現に三種類のFFNを通してインスタンス表現と紐づける
• 𝐹𝐹𝑁ℎ :インスタンス表現内の人物のインデックスを予測
• 𝐹𝐹𝑁0 :インスタンス表現内の物体のインデックスを予測
• 𝐹𝐹𝑁𝑎𝑐𝑡:動作クラスをマルチラベルで予測
• 右図の左の画像の検出例
• 𝐹𝐹𝑁ℎの出力:idx=0が人物
• 𝐹𝐹𝑁0の出力:idx=1が人物
• 𝐹𝐹𝑁𝑎𝑐𝑡の出力:[eat, hold]
V-COCOの実験結果
◼𝐴𝑃𝑟𝑜𝑙𝑒
#1
と𝐴𝑃𝑟𝑜𝑙𝑒
#2
の両方で最先端の性能
• 後処理が必要な最先端モデルと比較
• 9%と4.1%向上
HICO-DETの実験結果
◼Full
• Sequential, Parallelの両方で最先端の
性能
◼Rare, Non Rare
• ベースライン手法よりも劣る
• 訓練サンプルが10未満の動作クラス
を扱うため,精度向上が困難
◼計算時間
• 最先端の並列検出器に比べて5倍から
9倍高速
Human-Object Interaction
Detection via Disentangled
Transformer
Desen Zhou, Zhichao Liu, Jian Wang, Leshan Wang, Tao Hu, Errui Ding, Jingdong
Wang
CVPR2022
従来手法
◼処理方法
1. 単一か並列デコーダを使用して物体と相互作用を別々に検出(QPIC,HOTR)
2. マッチングプロセスによってトリプレットを構成(HOTR)
◼並列デコーダの問題点
• 相互作用の予測は人物と物体の検出を誤ると追加の誤りの発生可能性あり
• デコーダが独立していてインスタンスと相互作用の情報交換なし
①
②
提案手法
◼エンコーダとデコーダの両方を分離して学習を容易にする構造
(DisTR)を提案
• ①人物と物体のペアの予測,②相互作用の分類でタスクを分離
• ①と②では,異なる領域に焦点を当てた表現を学習することが必要
◼並列デコーダー間の情報伝達を促進する構造を提案
手法:アーキテクチャ概要
◼以下で構成.CNN backboneまでDETRと同様
1. CNN backbone
2. Transformer Encoder
• Base Encoder
• 並列Encoder
3. Transformer Decoder
• Base Decoder
• 並列Decoder
4. Attentional fusion block
5. FFN
手法:Transformer Encoder
◼Base Encoder (層数:4)
• 並列エンコーダの入力のための統一の特徴量を出力
◼並列Encoder (層数:2)
• Instance Encoder
• 人間と物体のペア検出
• HOI Encoder
• 統一表現の生成
• Interaction Encoder
• 相互作用の分類
手法:Transformer Decoder
◼Base Decoder (層数:2)
• 並列デコーダの入力のための統一の特徴量を出力
手法:Transformer Decoder
◼並列Decoder (層数:4)
• Base Decoderの出力をMLP を使用して埋め込み,各デコーダの入力に使用
• Instance decoder
• 人物と物体のペア予測のためのクエリを出力
• Interaction decoder
• 相互作用予測のためのクエリを出力
手法:Attentional fusion block
◼Attentional fusion block
• 並列デコーダー間の情報伝達を促進
• 並列デコーダーの各層の出力において、同じクエリインデックスの情報を融合
• 処理
• インスタンス表現と相互作用表現間のチャネルアテンションを計算
• インスタンス特徴を加算
V-COCOの実験結果
◼最先端の1段階手法であるQPIC と比較
• 顕著な差で上回る
◼最先端の2段階手法SCG [Frederic+, ICCV2021]
と比較
• 12.0%の性能差
◼Scenario #1
• 並列デコーダ手法HOTR, ASNetとの比較
• 11.0% および 12.3%の差で上回る
HICO-DETの実験結果
◼最先端の1段階手法と比較
• R50バックボーンを使用した場合
• Default FullでQPICを2.68%, AS-Net
[Chen+, CVPR2021]を2.88%上回る
• Rare設定
• 27.45%を達成
• QPICよりも大幅に優れている
• 分離戦略の有効性を提示
◼最新の2 段階手法SCGと比較
• 0.42%上回る
計算時間
◼従来手法とのパラメータ数とFLOPsで比較
◼結果
• 従来手法と同等のパラメータ数とFLOPs
• R50 backboneを使用した単一デコーダのQPICと比較して7%のみ追加FLOPS
まとめ
◼HOI検出における物体検出器DETRを拡張したモデルを紹介
• QPIC:単一のエンコーダと単一のデコーダ
• HOTR:単一のエンコーダと並列のデコーダ
• DisTR:並列のエンコーダと並列のデコーダ

論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, Human-Object Interaction Detection​ via Disentangled Transformer, QPIC