tf.nn.max_pool 理解

最新推荐文章于 2022-01-09 21:49:55 发布

yleavesw

最新推荐文章于 2022-01-09 21:49:55 发布

阅读量841

点赞数

CC 4.0 BY-SA版权

分类专栏： # Tensorflow

本文链接：https://blog.csdn.net/qq_38701868/article/details/103565945

Tensorflow 专栏收录该内容

12 篇文章

订阅专栏

本文详细介绍了tf.nn.max_pool函数的参数及工作原理，通过示例解释了如何在TensorFlow中进行最大池化操作。内容包括输入张量的形状、池化窗口大小、步长和填充方式，并给出了不同参数设置下的池化结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

tf.nn.max_pool(value, ksize, strides, padding, name=None)

参数是四个，和卷积很类似：

参数value：需要池化的输入，一般池化层接在卷积层后面，所以输入通常是 feature map ，是[batch, height, width, channels] 这样的 shape
参数 ksize：池化窗口的大小，取一个四维向量，一般是 [1, height, width, 1]，因为我们不想在 batch和 channels 上做池化，所以这两个维度设为了1
参数 strides：和卷积类似，窗口在每一个维度上滑动的步长，一般也是 [1, stride,stride, 1]
参数 padding：和卷积类似，可以取 'VALID' 或者 'SAME'

返回一个 Tensor，类型不变，shape 仍然是 [batch, height, width, channels] 这种形式

示例：

假设有这样一张图，双通道：

通道1：
在这里插入图片描述
通道2：

可以想象把这两个通道叠在一起，数字 1 后跟的数字是 2，然后是 3 然后是 4…
这样的图片在数组中的表示就是：

[
        [[1.0,2.0,3.0,4.0],
        [5.0,6.0,7.0,8.0],
        [8.0,7.0,6.0,5.0],
        [4.0,3.0,2.0,1.0]],
        
        [[4.0,3.0,2.0,1.0],
         [8.0,7.0,6.0,5.0],
         [1.0,2.0,3.0,4.0],
         [5.0,6.0,7.0,8.0]]
    ]

因为 max_pool 中输入的 value 是 4 维的，因此将这样一个 shape 为 2x2x4 的数组 reshape 为 1x4x4x2：

[[[[1. 2.]
   [3. 4.]
   [5. 6.]
   [7. 8.]]

  [[8. 7.]
   [6. 5.]
   [4. 3.]
   [2. 1.]]

  [[4. 3.]
   [2. 1.]
   [8. 7.]
   [6. 5.]]

  [[1. 2.]
   [3. 4.]
   [5. 6.]
   [7. 8.]]]]

经过 max_pool，池化大小为 2x2，步长为 1，方式是 Valid :

pooling = tf.nn.max_pool(a,[1,2,2,1],[1,1,1,1],padding='VALID')

得到池化结果：

[[[[8. 7.]
   [6. 6.]
   [7. 8.]]

  [[8. 7.]
   [8. 7.]
   [8. 7.]]

  [[4. 4.]
   [8. 7.]
   [8. 8.]]]]

因此池化后的图就是：
在这里插入图片描述

也可改变 max_pool 中的步长和池化方法：

pooling = tf.nn.max_pool(a,[1,2,2,1],[1,2,1,1],padding='SAME')

得出结果：

[[[[8. 7.]
   [6. 6.]
   [7. 8.]
   [7. 8.]]

  [[4. 4.]
   [8. 7.]
   [8. 8.]
   [7. 8.]]]]

完整代码：

import tensorflow as tf
import numpy as np

a=tf.constant([  
        [[1.0,2.0,3.0,4.0],  
        [5.0,6.0,7.0,8.0],  
        [8.0,7.0,6.0,5.0],  
        [4.0,3.0,2.0,1.0]],  

        [[4.0,3.0,2.0,1.0],  
         [8.0,7.0,6.0,5.0],  
         [1.0,2.0,3.0,4.0],  
         [5.0,6.0,7.0,8.0]]  
    ])

a=tf.reshape(a,[1,4,4,2])

pooling = tf.nn.max_pool(a,[1,2,2,1],[1,2,1,1],padding='SAME')

with tf.Session() as sess:  
    print("image:")  
    image=sess.run(a)  
    print (image)  
    print("reslut:")  
    result=sess.run(pooling)  
    print (result)