第一遍
-
标题:Deep Residual Learning for Image Recognition
-
作者:何恺明
-
摘要:
We explicitly reformulate the layers as learning residual functions with reference to the layer inputs, instead of learning unreferenced functions
残差网络学习输入的残差函数- 在ImageNet上152层,网络更深,计算复杂度更低
- 在目标分类、检测和语义分割上都取得不错的效果
第二遍
-
重要的图和表
-
Fig1.
更深的网络具有更大的训练误差和测试误差(在CIFAR-10和ImageNet上的测试)
-
Fig2.
残差学习的构建模块
-
Fig 3.
对比VGG-19、普通神经网络、带残差神经网络的结构图。
残差网络:虚线表示将x维度增加到y的维度
-
Fig 4.
上图是网络训练在ImageNet上的训练误差变化,可以发现普通网络34层的训练误差大于18层,但是对于残差网络,网络层数变多后,训练误差变小了,而且对于验证集上的误差(粗线)也变得更小。可以认为,残差网络在增加网络深度后,对于训练集可以更好地拟合并且具有更好的泛化性。
-
Fig 5.
可用更深的残差模块
-
Fig 6.
注解:虚线表示训练误差、实线表示测试误差
左图表示普通神经网络,中间图表示残差网络,右图残差网络110和1202
-
Fig 7.
不知道
-
table 1.
网络框架图
-
table 2.
普通网络和残差网络,在ImageNet上的Top-1错误率
-
table 3.
不同模型在ImageNet验证集上的top-1和top-5错误率
-
table 4.
单模型能力
-
table 5.
集成模型能力
-
table 6.
CIFAR-10上的分类错误率
-
table 7.
在PASCAL VOC 2007/2012测试集上使用Faster R-CNN基线的目标检测mAP
-
table 8.
在COCO验证集上使用Faster R-CNN基线的目标检测mAP
-
table 9.
MS COCO上使用Faster R-CNN ResNet-101
-
table 10.
-
table 11.
-
table 12.
-
table 13.
-
table 14.
第三遍
-
1.导言
- 背景:随着网络的加深,简单的堆叠(恒等映射),训练误差开始下降。(网络退化)
- 提出公式:H(x)=F(x)+xH(x)=F(x)+xH(x)=F(x)+x
- 优点:通过叠加非线性层优化原始的F(x)F(x)F(x),没有通过优化H(x)−xH(x)-xH(x)−x简单
- 实现方法:通过调层连接实现(Fig. 2.),而且既没有增加额外参数也没有增加计算复杂度。
- 结果:在很多比赛上取得第一,在不同数据集上表现很好,网络深度做到最深
-
2.相关工作
- 残差表示
- 简化优化
- 跳层连接
- 相较于带有门控的跳层连接,没有参数
- 残差表示
-
3.深度残差学习
- 残差学习
- 残差学习具有更小的标准差
- Identity Mapping by Shortcuts
- 公式:y=F(x,{Wi})+xy = F(x,\{ W_i \})+xy=F(x,{Wi})+x,x,y分别表示输入和输出,F表示残差映射(x,y维度相同)
- 公式:y=F(x,{Wi})+Wsxy=F(x,\{ W_i\})+W_sxy=F(x,{Wi})+Wsx,针对于x,y维度不同的时候
- 网络框架
- 平凡模型:VGG,1.特征图尺寸相同,卷积核个数相同,2.如果特征图尺寸减半,卷积核个数翻倍
- 残差网络:1.对于输入输出维度不等的情况,填充0 2. 使用投影(卷积网络中使用1x1卷积核)
- 实现
- 先从最短的边,开始随机采样[256,480]
- 224*224的裁剪,水平翻转
- 标准颜色增强
- 在卷积后,激活函数前,采用BN
- batch_size:256,优化方法:SGD,学习率从0.1开始除以10(遇到错误平原),权重衰减0.0001,动量为0.9
- 在测试阶段,原始图片中截出10张图片,然后预测投票
- 残差学习
-
4.实验
- 分类
- 目标检测