paper:Multicolumn Networks for Face Recognition
论文链接:https://arxiv.org/pdf/1807.09192.pdf
这是一篇set-to-set的paper,作者提出了一个Multicolumn Networks,想要同时学习视觉信息和内容信息。 在原来的网络上加了“visual” quality 和 “content” quality 两个模块。
Approach
文章的整体结构如图所示。非常清晰明白:
输入一个base的多张图片,每张分别进backbone,得到feature。
对于visual模块,每张图片由FC层出来,学到一个质量系数alpha。然后将各个feature加权表示得到Vm。这个就是我们平时看到的每张图片的质量信息。
对于content模块,每个feature都和Vm做一个concat。也是通过一个FC层,学到一个beta,表示relative contribution。这个能够表示每个feature和平均feature的差异。
最后通过加权,得到Vd。也就是融合之后的feature。