Spoken Attributes: Mixing Binary and Relative Attributes to Say the Right Thing 论文笔记-CSDN博客

本文链接：https://blog.csdn.net/k123han123/article/details/26623915

本文介绍了ICCV2013论文《Spoken Attributes: Mixing Binary and Relative Attributes to Say the Right Thing》，探讨了在描述图像时使用二元和相对属性的情况。研究通过构建人脸数据库，对不同属性进行标注，以理解何时使用相对或二元属性。作者通过构建分类器模型，分析标注数据，发现二元属性常用于明确存在或不存在的特征，而相对属性适用于比较。文章提供了一种新的理解和处理图像描述的方法。

今天读的是ICCV2013 的Spoken Attributes: Mixing Binary and Relative Attributes toSay the Right Thing. Attribute最近几年都比较火，而有关attribute的文章几乎都与Devi Parikh大美女有关。今天读的这篇Spoken Attribute的话就比较偏灌水和挖坑的类型。文章的大意为：人在描述东西时，有时候会用binary attribute，有时候会用relative attribute，如图1所示.对于（a），我们可能会说2比1笑得更灿烂（relative），而对于（b）来说，说谁比谁笑得更灿烂就不合适了，因为她们俩都没有在笑。另外一方面，像“戴眼镜”这样的attribute我们通常不会用relative的attribute（比如我比你更“戴眼镜”，这完全不合理逻辑），而往往会选择binary attribute。

图1

所以本篇文章要做的就是这样一个问题：什么时候我们会用relative（或binary）去描述一幅图像。当有了这个问题以后，想想如果是我们自己来解这个问题的话，那最直接的想法就是我们还是对每一个attribute训练一个分类器，用分类器的输出分数来衡量一幅图像每个主体有这个attribute的概率，然后两个概率一比大小，就有relative的关系了。那什么时候用relative什么时候用binary呢？看看两个分数的高低，如果都高于一个阈值，那么就可以说用relative，因为两个属性都很明显，否则就可以用binary。这个阈值的取值呢，就根据样本中relative和binary的分布来调整选取，想来这样就OK啦。

但要发文章肯定不能这样写，得会包装（建模）。作者首先建了一个人脸数据库，数据库中的每张图片都包含了两个人（记为a,b），并用AMT人工对6个attribute（bald, beard, glass, male, smiling, teeth visible）进行标注。每次标注都要回到以下三个问题：

1. 图中的某人是否存在某个属性？

2. 3选1：a人比b人更具有某属性；b人比a人更具有某属性；两人具有相同程度的某属性

3. 6选1：两人都有某属性；两人都不具备某属性；a有b没；b有a没，a比b更具有；b比a更具有

我们看下这三个问题，第一个是判断binary，第二个是判断relative；而第三个作者说是用来做groundtruth，就是人在描述这幅图像时究竟会用binary还是relative(也就是我们要求解的问题)。标记完以后就可以得到图2的分布：

图2

不同的颜色就代表了不同的groundtruth，比如带眼镜这个attribute，黄色对应的是relative，可以看到无论是在binary或者relative中，都没有人用“谁比谁更戴眼镜”这个说法，也验证了我们上面所说的问题。

作者的对这个问题的解法就是把第三个6选1的问题当作一个分类问题来做（分成6类）。其实骨子里和我们的naïve的想法是一致。不过作者是训练了一个两层的分类器：第一层的分类器分两种，一个是binary的分类器，一个是relative的模型，然后分别对a,b两个人求具有某个属性的概率，在把a,b两个人的特征投影到relative的模型里，得到对应的排序分数，并计算两个排序分数的差，这样每张图就可以表示为一个5维的向量（a具有某种属性的概率；b具有的概率；a的排序分数；b的排序分数，a的排序分数-b的排序分数）。然后把训练集又扔进一个分类器中训练输出即可。

全文大概就如此了，比较interesting，但理论创新方面就不是很多了。