XFeat (Accelerated Features)重新审视了卷积神经网络中用于检测、提取和匹配局部特征的基本设计选择。该模型满足了对适用于资源有限设备的快速和鲁棒算法的迫切需求。由于准确的图像匹配需要足够大的图像分辨率,算法在限制网络中通道数量的同时保持尽可能大的分辨率。
该模型提供稀疏或半密集级别的匹配选择,每种匹配可能更适合不同的下游应用,例如视觉导航和增强现实。并且是第一个提供有效半稠密匹配的模型,它利用了一个依赖于粗略局部描述符(coarse local descriptors)的新型匹配细化模块。
XFeat是全面的并且不依赖于硬件,在速度上超越了当前基于深度学习的局部特征模型(速度提高了 5 倍),具有相当或更好的准确性,在姿势估计和视觉定位方面得到了验证。
1.Introduction
图像特征提取在移动机器人、增强现实等领域起着至关重要的作用,而在计算资源受限的平台上提取特征点需要对现有架构进行硬件级优化。而本工作致力于通过设计高效特征提取的架构,实现在资源有限的设备中快速和鲁棒的特征匹配算法。本文提出XFeat,被设计为与硬件无关,使用精心设计的策略执行关键点检测和局部特征提取,以尽可能减少计算占用空间,同时保持鲁棒性和准确性。
本文的主要贡献如下:
1、一种新颖的轻量级 CNN 架构,可以部署在资源受限的平台和需要高吞吐量或计算效率的下游任务上,而无需耗时的硬件特定优化
2、设计了一种极简、可学习的关键点检测分支,该分支速度快,适用于小型特征提取骨干网络,展示了其在视觉定位、相机姿态估计和单调配准方面的有效性
3、提出了一种用于从粗半稠密匹配中获得像素级偏移的匹配细化模块。与现有技术相比,该新策略除了局部描述子本身外,不需要高分辨率特征,大大减少了计算量
匹配效果如下:
2.XFeat: Accelerated Features
局部特征提取精度很大程度上取决于输入图像分辨率。例如,在相机姿势、视觉定位和 SfM 任务中,对应关系应该足够细粒度,以允许像素级匹配。然而,将高分辨率图像输入网络主干网会将计算要求提高到不希望的水平,即使对于简单的小型网络主干,如类似SuperPoint VGG-like的架构。在本节中,介绍如何使用最小化计算预算的策略来显着降低计算成本,同时减轻由于更小的 CNN backbone而导致的鲁棒性损失。
2.1. Featherweight Network Backbone
用表示一张灰度图,其中
是高度,
是宽度(以像素为单位),
表示通道数。为了降低CNN的处理成本,一种常见的方法是从浅层卷积开始,逐渐将空间维度(H,W)减半,同时将第
个卷积