人物交互(human object interaction)论文汇总-2020年

1. Learning Human-Object Interaction Detection using Interaction Points

1.1 总述

大多数现有的HOI检测方法都是以实例为中心的,其中基于外观特征和粗糙的空间信息来预测所有可能的人-物体之间的交互。作者认为,仅外观特征不足以捕获复杂的人与物体的相互作用。因此,在本文中,作者提出了一种新颖的全卷积方法,该方法直接检测人与物体之间的相互作用。 网络会预测交互点,这些交互点可以直接对交互进行定位和分类。与密集预测的交互向量配对,这些交互与人类和物体检测相关联以获得最终预测。

1.2 网络结构

在这里插入图片描述
网络主要分为3个部分,特征提取部分、交互生成部分(生成交互点、交互向量)、交互分组部分(根据目标检测预测框,交互点,交互向量得到最终结果)。

Backbone网络使用的是Hourglass网络。使用Faster RCNN + ResNet50-FPN获得目标检测预测框。交互点(px=(hx+ox)/2,py=(hy+oy)/2)(p_x=(h_x+o_x)/2,p_y=(h_y+o_y)/2)px=(hx+ox)/2,py=(hy+oy)/2由真实值的人和物中心点连线的中点的高斯热图监督。交互向量(v:p+v=handp−v=o)(v: p+v=h and p-v=o)v:p+v=handpv=o分支预测指向人类中心点的交互向量,特征包括两个通道,分别是水平方向和垂直方向,推理时根据(xhi,yhi)=(px±∣vx∣,py±∣vy∣),i=1,2,3,4(x_h^i,y_h^i )=(p_x±|v_x |,p_y±|v_y |),i=1,2,3,4xhi,yhi=(px±vx,py±vy),i=1,2,3,4生成4个人类中心的可能位置。

1.3 交互分组

在这里插入图片描述
总体来说,满足h≈p+vando≈p−vh≈p+v and o≈p-vhp+vandopv的分为一组。具体来说,图中4个绿色点–人类中心的可能位置由交互向量的公式生成;紫色的4个点由人/物检测框确定;然后基于这8个点计算4个黑色向量长度dtl,dtr,dbl,dbrd_{tl},d_{tr},d_{bl},d_{br}dtl,dtr,dbl,dbr,满足下式的为正例:
在这里插入图片描述
其中,dTd_TdT为过滤时的阈值。

1.4 实验

在HICO-DET数据集上mAP为19.56;在VCOCO数据集上mAP为51.0。

2. Parallel Point Detection and Matching for Real-time Human-Object Interaction Detection

2.1 总述

传统的HOI检测方法分为两个阶段,即人体目标proposal生成和proposal分类。它们的有效性和效率受到了体系结构的限制。本文提出了一种并行点检测与点匹配(PPDM)的HOI检测框架。在PPDM中,HOI被定义为一个点三元组<人的点,交互点,物体点>。人与物体点是检测box的中心,交互点是人与物体点的连线的中心点。PPDM包含两个并行分支,即点检测分支和点匹配分支。点检测分支预测三个点。同时,点匹配分支预测从交互点到对应的人和物体点的两个位移。将来自同一交互点的人体点和物体点视为匹配对。在并行体系结构中,交互点隐含地为人体和物体检测提供上下文和正则化,抑制了无意义的HOI三个的孤立的检测框,提高了HOI检测的精度。
此外,人与物体检测框之间的匹配只适用于有限数量的过滤候选交互点,这样节省了大量的计算成本。

2.2 网络结构

在这里插入图片描述
首先应用关键点热图预测网络,例如 Hourglass-104或DLA-34,以从图像中提取外观特征。

a)点检测分支:基于提取的视觉特征,利用三个卷积模块来预测交互点,人体中心点和物体中心点的热图。另外,要生成最终框,所以对二维尺寸w,h和局部偏移量offset进行回归。

b)点匹配分支:该分支分预测两个部分,一个是交互点到人的中心距离,一个是交互点到物的中心的距离。每个部分的特征图都是2通道的,分别表示x和y坐标。

得到预测结果进行匹配,根据检测的交互点,预测的两个距离加上交互点的坐标得到人/物中心点的坐标c1,再与检测到的人/物中心点坐标c2比较,距离c1最近且置信度较高的c2则分为一组,以生成一组交互三元组。

2.3 实验

在HICO-DET数据集上mAP为21.1。

4. PaStaNet: Toward Human Activity Knowledge Engine

4.1 总述

image到activity之间的巨大gap会导致人物交互任务的表现不是很好。作者发现:人类动作是由细粒度的身体部位的状态组成的,大多数情况下,只有少数关键的某些人体部位与行为有关,而其他部分没有多少有用的信息,另外,有的身体部位相关的活动较多(手),有的较少(头)。即动作与人体的部位状态密切相关,因此,如果能很好地利用这个信息会对交互识别提供很大帮助。

基于此,本文提出首先推断人类的身体部位的状态,然后根据此部件级别语义推断出activity。为此,本文提出了一个模块—Pasta(Human Body Part States)。为了训练这个部分,还建立了一个大型知识库PastaNet以提取Pasta特征。

4.2 PastaNet

PastaNet的结构和字母与单词的结构类似,可以用较少的Pasta来描述和区分大量活动。它将人体分为10个部分(头、两个上臂、臀部、两只手、两个大腿 、两个脚),并为每个部位分配PastaState(例如:手->握住某物;头->看/吃)。因为一个人会同时执行多个动作,因此每个部位也可具有多个Pasta。

最后构建一个活动解析树,活动(动作)是根节点,Pasta是子节点,边是共识。PastaNet包括118K+张图片,285K+个人,250K+个交互物体,724K+个动作实例以及7M+个Pasta。

4.3 人物交互任务的网络结构

在这里插入图片描述
首先Faster R-CNN提取的人体部件特征fpf_pfp和物体特征fof_o

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值