【池化选择】全局最大池化和全局平均池化的实验分析

本文通过实验对比分析了全局平均池化(GAP)与全局最大池化(GMP)在深度学习,特别是计算机视觉任务中的表现。研究表明,GAP在定位任务上优于GMP,因为它能更全面地考虑特征图中的所有目标区域,而GMP则可能过于关注最高得分区域,忽略了其他潜在信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

根据MIT的 Learning Deep Features for Discriminative Localization论文中的描述,在使用类响应图class activation mapping (CAM) 对比全局平均池化Global average pooling (GAP) vs 全局最大池化global max pooling (GMP):

类响应图示例:
在这里插入图片描述
图中高亮区域就是根据label的注意图高响应区域

具体得到的这个相应区的方法是

在这里插入图片描述
1) 训练主干网络得到特征图
2) 进行全局池化(图中用的GAP,也可以使用GMP)
3) 对全局池化的结果做全连接得到全连接参数 w
4) 把全连接参数作为权重对特征图进行加权求和 上图最下方的公式

根据对图像的研究发现,不同的类别的特征图相应区域不一样,原始的卷积网络具有一定的定位能力。而且如下图所示,不同类别的注意力区域也大不相同也呈现出非常准确的特征区域。

模型可以预测出不同类别概率,根据类注意图发现。即使是错误预测的类别,比如上图预测狗狗预测成了人,但是人也在图中特征区域也是定位在了人的身上。

说了这么多就是论证GAP和GMP具有定位能力。那么具体那个好呢

先看一组实验
在这里插入图片描述

我们发现相比GAP,GMP在同一个类别上的top1 和top5 的损失都有所升高。

原因分析:
GAP 是对全局求平均,GAP LOSS 促使网络区分辨每个类别的程度,找到所有的目标可区分区域进行预测。
GMP 是对全局求最大,只去找分数最高的那个区域。而去忽略其他分数低的区域

因此在定位方面,GAP 比GMP要好

GAP outperforms GMP for localization.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值