Faster RCNN源码解读(3)RoI Pooling

本文深入探讨了Faster R-CNN中的RoIPooling层,解释了如何解决不同大小的proposals输入问题,通过归一化处理实现固定长度输出,以适应RCNN网络的分类和坐标回归。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

今天讲最后几部分,首先我们一起学习RoI Pooling部分,先让我们看一下原理:
先来看一个问题:对于传统的CNN(如AlexNet和VGG),当网络训练好后输入的图像尺寸必须是固定值,同时网络输出也是固定大小的vector or matrix。如果输入图像大小不定,这个问题就变得比较麻烦。有2种解决办法:

从图像中crop一部分传入网络
将图像warp成需要的大小后传入网络
在这里插入图片描述
可以看到无论采取那种办法都不好,要么crop后破坏了图像的完整结构,要么warp破坏了图像原始形状信息。

回忆RPN网络生成的proposals的方法:对positive anchors进行bounding box regression,那么这样获得的proposals也是大小形状各不相同,即也存在上述问题。所以Faster R-CNN中提出了RoI Pooling解决这个问题。不过RoI Pooling确实是从Spatial Pyramid Pooling发展而来,但是限于篇幅这里略去不讲,有兴趣的读者可以自行查阅相关论文。
分析之前先来看看RoI Pooling Layer的caffe prototxt的定义:

layer {
name: “roi_pool5”
type: “ROIPooling”
bottom: “conv5_3”
bottom: “rois”
top: “pool5”
roi_pooling_param {
pooled_w: 7
pooled_h: 7
spatial_scale: 0.0625 # 1/16
}
}
其中有新参数pooled_w和pooled_h,另外一个参数spatial_scale认真阅读的读者肯定已经知道知道用途。RoI Pooling layer forward过程:

由于proposal是对应MXN尺度的,所以首先使用spatial_scale参数将其映射回(M/16)X(N/16)大小的feature map尺度;
再将每个proposal对应的feature map区域水平分为
[公式]
的网格;
对网格的每一份都进行max pooling处理。
这样处理后,即使大小不同的proposal输出结果都是
在这里插入图片描述
固定大小,实现了固定长度输出。
在这里插入图片描述
然后我们看代码:

crop_pool_layer()

这里我们看一下业余狙击手19前辈的注解:

  '''
  _crop_pool_layer用于将256个archors从特征图中裁剪出来缩放到14*14,
  并进一步max pool到7*7的固定大小,得到特征,方便rcnn网络分类及回归坐标。
  该函数先得到特征图对应的原始图像的宽高,而后将原始图像对应的rois进行归一化,
  并使用tf.image.crop_and_resize(该函数需要归一化的坐标信息)缩放到[cfg.POOLING_SIZE * 2,
  cfg.POOLING_SIZE * 2],最后通过slim.max_pool2d进行pooling,输出大小依旧一样(25677*512)。
  tf.slice(rois, [0, 0], [-1, 1])是对输入进行切片。其中第二个参数为起始的坐标,第三个参数为切
  片的尺寸。注意,对于二维输入,后两个参数均为y,x的顺序;对于三维输入,后两个均为z,y,x的顺序。
  当第三个参数为-1时,代表取整个该维度。上面那句是将roi的从0,0开始第一列的数据(y为-1,代表所有行
  ,x为1,代表第一列)
  '''
  def _crop_pool_layer(self, bottom, rois, name):
    with tf.variable_scope(name) as scope:
      batch_ids = tf.squeeze(tf.slice(rois, [0, 0], [-1, 1], name="batch_id"), [1]) #得到第一列,为类别
      # Get the normalized coordinates of bounding boxes
      bottom_shape = tf.shape(bottom)
      height = (tf.to_float(bottom_shape[1]) - 1.) * np.float32(self._feat_stride[0])
      width = (tf.to_float(bottom_shape[2]) - 1.) * np.float32(self._feat_stride[0])
      x1 = tf.slice(rois, [0, 1], [-1, 1], name="x1") / width  #由于crop_and_resize的bboxes范围为0-1,得到归一化的坐标
      y1 = tf.slice(rois, [0, 2], [-1, 1], name="y1") / height
      x2 = tf.slice(rois, [0, 3], [-1, 1], name="x2") / width
      y2 = tf.slice(rois, [0, 4], [-1, 1], name="y2") / height
      # Won't be back-propagated to rois anyway, but to save time
      bboxes = tf.stop_gradient(tf.concat([y1, x1, y2, x2], axis=1))
      pre_pool_size = cfg.POOLING_SIZE * 2
      # 根据bboxes裁减出256个特征,并缩放到14*14(channels和bottem的channels一样)batchsize为256
      crops = tf.image.crop_and_resize(bottom, bboxes, tf.to_int32(batch_ids), [pre_pool_size, pre_pool_size], name="crops")
 
    return slim.max_pool2d(crops, [2, 2], padding='SAME') #max pool后得到7*7的特征

前辈的注解很到位,这里我们对切片函数做一下注解:
假设:shape
t = [A, B, C] #这是第一维度

然后每一个里面有两个东西,可以写成:

A = [i, j], B = [k, l], C = [m, n] #这是第二维度

最后,这i, j, k, l, m, n里面分别是:

i = [1, 1, 1], j = [2, 2, 2], k = [3, 3 ,3], l = [4, 4, 4], m = [5, 5, 5], n = [6, 6, 6] # 这是第三维度

所以shape就是中括号 [ ] 的层级里单位的数量。

对于t来说,最外面括号里有3个东西,分别是A, B, C。这三个东西每个里面有两个玩意儿, i和j, k和l, m和n。

他们里面每一个又有3个数字。所以t的shape是[3,2,3]。这是我的理解方式。

Slice:
在解释slice之前,有一点要知道的是python的数组index是从0开始的。

有了这个基础,我们再来看例子:

tf.slice(t, [1, 0, 0], [1, 1, 3]) # begin = [1, 0, 0]

这里根据顺序我们知道,begin是[1, 0, 0], size是[1, 1, 3]. 他们两个数组的意义是从左至右,每一个数字代表一个维度。上面说了begin的意思是起始位置,那么[1, 0, 0]的意思是在3个维度中,每个维度从哪里算起。

第一维度是[A, B, C]。 begin里[1, 0, 0]是1,也就是从B算起。其次第二维度里B = [k, l](注意啊,我这里只写了B = [k, l],可不代表只有B有用,如果size里第一个数字是2的话,B和C都会被取的),begin里第二个数是0,也就是从k算起。第三维度k = [3, 3 ,3],begin里第三个数是0,就是从第一个3算起。

到现在都能看懂吧?知道了这三个起始点之后,再来看size。

size的意思是每个维度的大小,也就是每个维度取几个元素。size的应该是最后输出的tensor的shape。

例子里面:

tf.slice(t, [1, 0, 0], [1, 1, 3]) # size = [1, 1, 3]

size里第一个是1,意思是在第一个维度取1个元素。t = [A, B, C] begin是起算是B,取一个那就是B了呗。那么第一维度结果就是[B]

size第二个也是1,第二维度B = [k, l], begin里起算是k,取一个是k。那么第二维度结果是[[k]]。

size第三个是3,第三维度k = [3, 3 ,3],begin里起算是第一个3。三个3取3个数,那就要把三个3都取了,所以是

[[[3, 3, 3]]]

看懂了吗?是不是有点像代数?[B]里把B换成[k], 再把k换成[3, 3 ,3]。最后注意中括号的数量,和size一样是[1, 1, 3].

例2:

t = tf.constant([[[1, 1, 1], [2, 2, 2]], [[3, 3, 3], [4, 4, 4]], [[5, 5, 5], [6, 6, 6]]])

tf.slice(t, [1, 0, 0], [1, 2, 3])

看懂了第一个,再看第二个就简单了。这里begin还是一样[1, 0 ,0]。 size第一个维度取一个,还是[B]。然后这里不是1了,是2,意思是取两个。还记得B = [k, l]吗?现在不是只要k了,是k和l都要。第三维度取3个,也就是说不光是k = [3, 3 ,3],l = [4, 4, 4]也要slice走。

总结一下,第一维度取[B]。第二维度里把B换成[k, l],就变成了[[k, l]]. 第三维度里把k换成[3, 3 ,3],把l 换成 [4, 4, 4],替换后是最终结果

[[[3, 3, 3], [4, 4, 4]]]

最后

这里就完成了RoI过程,其实就是一个归一化处理思想,下一篇是最后的部分,谢谢大家。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值