Spoken Attributes: Mixing Binary and Relative Attributes to Say the Right Thing 论文笔记

论文解读:混合二元与相对属性在描述图像中的应用
本文介绍了ICCV2013论文《Spoken Attributes: Mixing Binary and Relative Attributes to Say the Right Thing》,探讨了在描述图像时使用二元和相对属性的情况。研究通过构建人脸数据库,对不同属性进行标注,以理解何时使用相对或二元属性。作者通过构建分类器模型,分析标注数据,发现二元属性常用于明确存在或不存在的特征,而相对属性适用于比较。文章提供了一种新的理解和处理图像描述的方法。

今天读的是ICCV2013 的Spoken Attributes: Mixing Binary and Relative Attributes toSay the Right Thing. Attribute最近几年都比较火,而有关attribute的文章几乎都与Devi Parikh大美女有关。今天读的这篇Spoken Attribute的话就比较偏灌水和挖坑的类型。文章的大意为:人在描述东西时,有时候会用binary attribute,有时候会用relative attribute,如图1所示.对于(a),我们可能会说2比1笑得更灿烂(relative),而对于(b)来说,说谁比谁笑得更灿烂就不合适了,因为她们俩都没有在笑。另外一方面,像“戴眼镜”这样的attribute我们通常不会用relative的attribute(比如我比你更“戴眼镜”,这完全不合理逻辑),而往往会选择binary attribute。


图1

所以本篇文章要做的就是这样一个问题:什么时候我们会用relative(或binary)去描述一幅图像。当有了这个问题以后,想想如果是我们自己来解这个问题的话,那最直接的想法就是我们还是对每一个attribute训练一个分类器,用分类器的输出分数来衡量一幅图像每个主体有这个attribute的概率,然后两个概率一比大小,就有relative的关系了。那什么时候用relative什么时候用binary呢?看看两个分数的高低,如果都高于一个阈值,那么就可以说用relative,因为两个属性都很明显,否则就可以用binary。这个阈值的取值呢,就根据样本中relative和binary的分布来调整选取,想来这样就OK啦。

但要发文章肯定不能这样写,得会包装(建模)。作者首先建了一个人脸数据库,数据库中的每张图片都包含了两个人(记为a,b),并用AMT人工对6个attribute(bald, beard, glass, male, smiling, teeth visible)进行标注。每次标注都要回到以下三个问题:

1.      图中的某人是否存在某个属性?

2.      3选1:a人比b人更具有某属性;b人比a人更具有某属性;两人具有相同程度的某属性

3.      6选1:两人都有某属性;两人都不具备某属性;a有b没;b有a没,a比b更具有;b比a更具有

我们看下这三个问题,第一个是判断binary,第二个是判断relative;而第三个作者说是用来做groundtruth,就是人在描述这幅图像时究竟会用binary还是relative(也就是我们要求解的问题)。标记完以后就可以得到图2的分布:


图2

不同的颜色就代表了不同的groundtruth,比如带眼镜这个attribute,黄色对应的是relative,可以看到无论是在binary或者relative中,都没有人用“谁比谁更戴眼镜”这个说法,也验证了我们上面所说的问题。

作者的对这个问题的解法就是把第三个6选1的问题当作一个分类问题来做(分成6类)。其实骨子里和我们的naïve的想法是一致。不过作者是训练了一个两层的分类器:第一层的分类器分两种,一个是binary的分类器,一个是relative的模型,然后分别对a,b两个人求具有某个属性的概率,在把a,b两个人的特征投影到relative的模型里,得到对应的排序分数,并计算两个排序分数的差,这样每张图就可以表示为一个5维的向量(a具有某种属性的概率;b具有的概率;a的排序分数;b的排序分数,a的排序分数-b的排序分数)。然后把训练集又扔进一个分类器中训练输出即可。

全文大概就如此了,比较interesting,但理论创新方面就不是很多了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值