Faster RCNN源码解读（3）RoI Pooling

最新推荐文章于 2021-06-09 07:25:33 发布

原创最新推荐文章于 2021-06-09 07:25:33 发布 · 633 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#网络 #pytorch #tensorflow

本文深入探讨了Faster R-CNN中的RoIPooling层，解释了如何解决不同大小的proposals输入问题，通过归一化处理实现固定长度输出，以适应RCNN网络的分类和坐标回归。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

今天讲最后几部分，首先我们一起学习RoI Pooling部分，先让我们看一下原理：
先来看一个问题：对于传统的CNN（如AlexNet和VGG），当网络训练好后输入的图像尺寸必须是固定值，同时网络输出也是固定大小的vector or matrix。如果输入图像大小不定，这个问题就变得比较麻烦。有2种解决办法：

从图像中crop一部分传入网络
将图像warp成需要的大小后传入网络
在这里插入图片描述
可以看到无论采取那种办法都不好，要么crop后破坏了图像的完整结构，要么warp破坏了图像原始形状信息。

回忆RPN网络生成的proposals的方法：对positive anchors进行bounding box regression，那么这样获得的proposals也是大小形状各不相同，即也存在上述问题。所以Faster R-CNN中提出了RoI Pooling解决这个问题。不过RoI Pooling确实是从Spatial Pyramid Pooling发展而来，但是限于篇幅这里略去不讲，有兴趣的读者可以自行查阅相关论文。
分析之前先来看看RoI Pooling Layer的caffe prototxt的定义：

layer {
name: “roi_pool5”
type: “ROIPooling”
bottom: “conv5_3”
bottom: “rois”
top: “pool5”
roi_pooling_param {
pooled_w: 7
pooled_h: 7
spatial_scale: 0.0625 # 1/16
}
}
其中有新参数pooled_w和pooled_h，另外一个参数spatial_scale认真阅读的读者肯定已经知道知道用途。RoI Pooling layer forward过程：

由于proposal是对应MXN尺度的，所以首先使用spatial_scale参数将其映射回(M/16)X(N/16)大小的feature map尺度；
再将每个proposal对应的feature map区域水平分为
[公式]
的网格；
对网格的每一份都进行max pooling处理。
这样处理后，即使大小不同的proposal输出结果都是
在这里插入图片描述
固定大小，实现了固定长度输出。

然后我们看代码：

crop_pool_layer()

这里我们看一下业余狙击手19前辈的注解：

  '''
  _crop_pool_layer用于将256个archors从特征图中裁剪出来缩放到14*14，
  并进一步max pool到7*7的固定大小，得到特征，方便rcnn网络分类及回归坐标。
  该函数先得到特征图对应的原始图像的宽高，而后将原始图像对应的rois进行归一化，
  并使用tf.image.crop_and_resize（该函数需要归一化的坐标信息）缩放到[cfg.POOLING_SIZE * 2,
  cfg.POOLING_SIZE * 2]，最后通过slim.max_pool2d进行pooling，输出大小依旧一样（25677*512）。
  tf.slice(rois, [0, 0], [-1, 1])是对输入进行切片。其中第二个参数为起始的坐标，第三个参数为切
  片的尺寸。注意，对于二维输入，后两个参数均为y，x的顺序；对于三维输入，后两个均为z，y，x的顺序。
  当第三个参数为-1时，代表取整个该维度。上面那句是将roi的从0,0开始第一列的数据（y为-1，代表所有行
  ，x为1，代表第一列）
  '''
  def _crop_pool_layer(self, bottom, rois, name):
    with tf.variable_scope(name) as scope:
      batch_ids = tf.squeeze(tf.slice(rois, [0, 0], [-1, 1], name="batch_id"), [1]) #得到第一列，为类别
      # Get the normalized coordinates of bounding boxes
      bottom_shape = tf.shape(bottom)
      height = (tf.to_float(bottom_shape[1]) - 1.) * np.float32(self._feat_stride[0])
      width = (tf.to_float(bottom_shape[2]) - 1.) * np.float32(self._feat_stride[0])
      x1 = tf.slice(rois, [0, 1], [-1, 1], name="x1") / width  #由于crop_and_resize的bboxes范围为0-1，得到归一化的坐标
      y1 = tf.slice(rois, [0, 2], [-1, 1], name="y1") / height
      x2 = tf.slice(rois, [0, 3], [-1, 1], name="x2") / width
      y2 = tf.slice(rois, [0, 4], [-1, 1], name="y2") / height
      # Won't be back-propagated to rois anyway, but to save time
      bboxes = tf.stop_gradient(tf.concat([y1, x1, y2, x2], axis=1))
      pre_pool_size = cfg.POOLING_SIZE * 2
      # 根据bboxes裁减出256个特征，并缩放到14*14（channels和bottem的channels一样）batchsize为256
      crops = tf.image.crop_and_resize(bottom, bboxes, tf.to_int32(batch_ids), [pre_pool_size, pre_pool_size], name="crops")
 
    return slim.max_pool2d(crops, [2, 2], padding='SAME') #max pool后得到7*7的特征

前辈的注解很到位，这里我们对切片函数做一下注解：
假设：shape
t = [A, B, C] #这是第一维度

然后每一个里面有两个东西，可以写成：

A = [i, j]， B = [k, l]， C = [m, n] #这是第二维度

最后，这i, j, k, l, m, n里面分别是：

i = [1, 1, 1], j = [2, 2, 2], k = [3, 3 ,3], l = [4, 4, 4], m = [5, 5, 5], n = [6, 6, 6] # 这是第三维度

所以shape就是中括号 [ ] 的层级里单位的数量。

对于t来说，最外面括号里有3个东西，分别是A, B, C。这三个东西每个里面有两个玩意儿, i和j, k和l, m和n。

他们里面每一个又有3个数字。所以t的shape是[3,2,3]。这是我的理解方式。

Slice:
在解释slice之前，有一点要知道的是python的数组index是从0开始的。

有了这个基础，我们再来看例子：

tf.slice(t, [1, 0, 0], [1, 1, 3]) # begin = [1, 0, 0]

这里根据顺序我们知道，begin是[1, 0, 0], size是[1, 1, 3]. 他们两个数组的意义是从左至右，每一个数字代表一个维度。上面说了begin的意思是起始位置，那么[1, 0, 0]的意思是在3个维度中，每个维度从哪里算起。

第一维度是[A, B, C]。 begin里[1, 0, 0]是1，也就是从B算起。其次第二维度里B = [k, l]（注意啊，我这里只写了B = [k, l]，可不代表只有B有用，如果size里第一个数字是2的话，B和C都会被取的），begin里第二个数是0，也就是从k算起。第三维度k = [3, 3 ,3]，begin里第三个数是0，就是从第一个3算起。

到现在都能看懂吧？知道了这三个起始点之后，再来看size。

size的意思是每个维度的大小，也就是每个维度取几个元素。size的应该是最后输出的tensor的shape。

例子里面：

tf.slice(t, [1, 0, 0], [1, 1, 3]) # size = [1, 1, 3]

size里第一个是1，意思是在第一个维度取1个元素。t = [A, B, C] begin是起算是B，取一个那就是B了呗。那么第一维度结果就是[B]

size第二个也是1，第二维度B = [k, l]， begin里起算是k，取一个是k。那么第二维度结果是[[k]]。

size第三个是3,第三维度k = [3, 3 ,3]，begin里起算是第一个3。三个3取3个数，那就要把三个3都取了，所以是

[[[3, 3, 3]]]

看懂了吗？是不是有点像代数？[B]里把B换成[k]，再把k换成[3, 3 ,3]。最后注意中括号的数量，和size一样是[1, 1, 3].

例2：

t = tf.constant([[[1, 1, 1], [2, 2, 2]], [[3, 3, 3], [4, 4, 4]], [[5, 5, 5], [6, 6, 6]]])

tf.slice(t, [1, 0, 0], [1, 2, 3])

看懂了第一个，再看第二个就简单了。这里begin还是一样[1, 0 ,0]。 size第一个维度取一个，还是[B]。然后这里不是1了，是2，意思是取两个。还记得B = [k, l]吗？现在不是只要k了，是k和l都要。第三维度取3个，也就是说不光是k = [3, 3 ,3]，l = [4, 4, 4]也要slice走。

总结一下，第一维度取[B]。第二维度里把B换成[k, l],就变成了[[k, l]]. 第三维度里把k换成[3, 3 ,3]，把l 换成 [4, 4, 4]，替换后是最终结果

[[[3, 3, 3], [4, 4, 4]]]