读论文——ResNet

最新推荐文章于 2024-09-26 22:39:52 发布

前行follow

最新推荐文章于 2024-09-26 22:39:52 发布

阅读量2.7k

点赞数

CC 4.0 BY-SA版权

分类专栏： # 计算机视觉文章标签：神经网络深度学习计算机视觉

本文链接：https://blog.csdn.net/y1040468929/article/details/121341866

计算机视觉专栏收录该内容

5 篇文章

订阅专栏

本文详细介绍了ResNet残差网络的设计理念，通过对比普通网络和残差网络在ImageNet上的表现，展示了残差网络如何解决深度学习中的梯度消失问题，从而在图像识别、目标检测等多个任务上取得优异效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一遍

标题：Deep Residual Learning for Image Recognition
作者：何恺明
摘要：
- We explicitly reformulate the layers as learning residual functions with reference to the layer inputs, instead of learning unreferenced functions 残差网络学习输入的残差函数
- 在ImageNet上152层，网络更深，计算复杂度更低
- 在目标分类、检测和语义分割上都取得不错的效果

第二遍

重要的图和表
Fig1.

在这里插入图片描述

更深的网络具有更大的训练误差和测试误差（在CIFAR-10和ImageNet上的测试）

Fig2.

残差学习的构建模块
Fig 3.

在这里插入图片描述

对比VGG-19、普通神经网络、带残差神经网络的结构图。

残差网络：虚线表示将x维度增加到y的维度

Fig 4.

上图是网络训练在ImageNet上的训练误差变化，可以发现普通网络34层的训练误差大于18层，但是对于残差网络，网络层数变多后，训练误差变小了，而且对于验证集上的误差（粗线）也变得更小。可以认为，残差网络在增加网络深度后，对于训练集可以更好地拟合并且具有更好的泛化性。
Fig 5.

在这里插入图片描述

可用更深的残差模块

Fig 6.

注解：虚线表示训练误差、实线表示测试误差

左图表示普通神经网络，中间图表示残差网络，右图残差网络110和1202
Fig 7.

不知道
table 1.

网络框架图
table 2.

普通网络和残差网络，在ImageNet上的Top-1错误率
table 3.

不同模型在ImageNet验证集上的top-1和top-5错误率
table 4.

单模型能力
table 5.

集成模型能力
table 6.

CIFAR-10上的分类错误率
table 7.

在PASCAL VOC 2007/2012测试集上使用Faster R-CNN基线的目标检测mAP
table 8.

在COCO验证集上使用Faster R-CNN基线的目标检测mAP
table 9.

MS COCO上使用Faster R-CNN ResNet-101
table 10.
table 11.

在这里插入图片描述

table 12.
table 13.
table 14.

第三遍

1.导言
- 背景：随着网络的加深，简单的堆叠（恒等映射），训练误差开始下降。（网络退化）
- 提出公式： $H (x) = F (x) + x$
- 优点：通过叠加非线性层优化原始的 $F (x)$ ，没有通过优化 $H (x) - x$ 简单
- 实现方法：通过调层连接实现(Fig. 2.)，而且既没有增加额外参数也没有增加计算复杂度。
- 结果：在很多比赛上取得第一，在不同数据集上表现很好，网络深度做到最深
2.相关工作
- 残差表示
  - 简化优化
- 跳层连接
  - 相较于带有门控的跳层连接，没有参数
3.深度残差学习
- 残差学习
  - 残差学习具有更小的标准差
- Identity Mapping by Shortcuts
  - 公式： $y = F(x,\{ W_i \})+x$ ，x，y分别表示输入和输出，F表示残差映射（x,y维度相同）
  - 公式： $y=F(x,\{ W_i\})+W_sx$ ,针对于x,y维度不同的时候
- 网络框架
  - 平凡模型：VGG，1.特征图尺寸相同，卷积核个数相同，2.如果特征图尺寸减半，卷积核个数翻倍
  - 残差网络：1.对于输入输出维度不等的情况，填充0 2. 使用投影（卷积网络中使用1x1卷积核）
- 实现
  1. 先从最短的边，开始随机采样[256,480]
  2. 224*224的裁剪，水平翻转
  3. 标准颜色增强
  4. 在卷积后，激活函数前，采用BN
  5. batch_size:256，优化方法：SGD，学习率从0.1开始除以10（遇到错误平原），权重衰减0.0001，动量为0.9
  6. 在测试阶段，原始图片中截出10张图片，然后预测投票
4.实验
1. 分类
2. 目标检测