今天读的是ICCV2013 的Spoken Attributes: Mixing Binary and Relative Attributes toSay the Right Thing. Attribute最近几年都比较火,而有关attribute的文章几乎都与Devi Parikh大美女有关。今天读的这篇Spoken Attribute的话就比较偏灌水和挖坑的类型。文章的大意为:人在描述东西时,有时候会用binary attribute,有时候会用relative attribute,如图1所示.对于(a),我们可能会说2比1笑得更灿烂(relative),而对于(b)来说,说谁比谁笑得更灿烂就不合适了,因为她们俩都没有在笑。另外一方面,像“戴眼镜”这样的attribute我们通常不会用relative的attribute(比如我比你更“戴眼镜”,这完全不合理逻辑),而往往会选择binary attribute。
图1
所以本篇文章要做的就是这样一个问题:什么时候我们会用relative(或binary)去描述一幅图像。当有了这个问题以后,想想如果是我们自己来解这个问题的话,那最直接的想法就是我们还是对每一个attribute训练一个分类器,用分类器的输出分数来衡量一幅图像每个主体有这个attribute的概率,然后两个概率一比大小,就有relative的关系了。那什么时候用relative什么时候用binary呢?看看两个分数的高低,如果都高于一个阈值,那么就可以说用relative,因为两个属性都很明显,否则就可以用binary。这个阈值的取值呢,就根据样本中relative和binary的分布来调整选取,想来这样就OK啦。
但要发文章肯定不能这样写,得会包装(建模)。作者首先建了一个人脸数据库,数据库中的每张图片都包含了两个人(记为a,b),并用AMT人工对6个attribute(bald, beard, glass, male, smiling, teeth visible)进行标注。每次标注都要回到以下三个问题:
1. 图中的某人是否存在某个属性?
2. 3选1:a人比b人更具有某属性;b人比a人更具有某属性;两人具有相同程度的某属性
3. 6选1:两人都有某属性;两人都不具备某属性;a有b没;b有a没,a比b更具有;b比a更具有
我们看下这三个问题,第一个是判断binary,第二个是判断relative;而第三个作者说是用来做groundtruth,就是人在描述这幅图像时究竟会用binary还是relative(也就是我们要求解的问题)。标记完以后就可以得到图2的分布:
图2
不同的颜色就代表了不同的groundtruth,比如带眼镜这个attribute,黄色对应的是relative,可以看到无论是在binary或者relative中,都没有人用“谁比谁更戴眼镜”这个说法,也验证了我们上面所说的问题。
作者的对这个问题的解法就是把第三个6选1的问题当作一个分类问题来做(分成6类)。其实骨子里和我们的naïve的想法是一致。不过作者是训练了一个两层的分类器:第一层的分类器分两种,一个是binary的分类器,一个是relative的模型,然后分别对a,b两个人求具有某个属性的概率,在把a,b两个人的特征投影到relative的模型里,得到对应的排序分数,并计算两个排序分数的差,这样每张图就可以表示为一个5维的向量(a具有某种属性的概率;b具有的概率;a的排序分数;b的排序分数,a的排序分数-b的排序分数)。然后把训练集又扔进一个分类器中训练输出即可。
全文大概就如此了,比较interesting,但理论创新方面就不是很多了。