这几天学习了一下经典的CenterNet目标检测方法,它是一种anchor-free的方法,故名思义就是用目标的中心(center)来检测物体。后面在【TPAMI 2024】上又看到了一个也叫CernterNet的方法,不过这应该是CenterNet的一个plus版。下面将一一进行介绍。
一、CenterNet
1.模型结构(这里借助了一位b站up主的图)
结构很简单,输入图像经过一个backbone,然后在连上三个检测头得到预测结果。
3.1 backbone
原文中提到用了ResNet、Hourglass Network、Deep Layer Aggregation(DLA),据说对关键点检测比较好。
3.2 heatmap
得到一张W*H*C的图,C是类别数。在物体的中心相应越强,背景部分接近为0。
3.3 wh
得到一张W*H*2的图,2代表每个位置像素点对应检测框的宽和高
3.4 offset
得到一张W*H*2的图。由于heatmap和原图的大小不同,因此需要对预测像素(其实是heatmap的中心点)的位置进行修正。
2.数据集准备
需要将GT标签转换为heatmap、wh和offset。
对于heatmap而言,如果物体中心为1,其余地方为0,就太苛刻了。实际上是以物体中心建立高斯分布。高斯分布的半径可以先设置一个可接收的IoU,来反解半径r,如下。其余两个很好计算。
3.预测流程
在经过整个模型后,得到了heatmap、wh和offset三个输出,但是我们需要将他们转为bbox
(1) 我们对HeatMap的通道做Argmax和max处理,得出分类