第一遍
-
标题:ImageNet Classification with Deep Convolutional Neural Networks
-
摘要:
- 问题(数据集):ImageNet,1.2百万图片,1000类
- 方法:大的深度卷积模型,6千万参数,65万神经元
- 模型:5个卷积层、最大池化层、3层全连接和softmax层、dropout层
- 结果:top-1和top-5错误率为37.5%37.5 \%37.5%和17.0%17.0 \%17.0%
-
结论/讨论:
- 深层卷积神经网络,通过监督学习,可以完成很复杂的建模
- 网络的深度对最后的top-1精度影响很大
- 展望:
- 希望在视频序列中使用深度卷积神经网络,时间结构提供了非常有用的信息
-
关注图表
-
ReLU(Fig 1)
-
这是一个比tanh快约6倍的激活函数
-
网络结构图(Fig 2)
- 双GPU训练
- 前两层卷积层用到了(归一化和池化),最后一层卷积层也用到了池化
-
第一层卷积后的特征图(Fig 3)
-
结果对比
-
比较ILSVRC-2010上的结果
-
比较在ILSVRC-2012验证集和测试集上的错误率(表2)
-
-
结果量化
- 左图显示top-5预测结果,图片下方表示正确结果,下面柱状图表示预测结果
- 右图的第一列是五张训练集图片,剩余的六列是在测试集中的六张图片。它们通过卷积神经网络输出的特征向量在欧几里得空间中是最近的。
-
值不值得读?
- 深度卷积神经网络开山之作
- ReLU
- Dropout
-
第二遍
- 精读每个图
- ReLU非线性
- 饱和非线性和非饱和非线性区别:
- 饱和相较于非饱和会将输入值压缩
- ReLU:max(0,x)max(0,x)max(0,x)
- sigmoid:11+e−x\frac{1}{1+e^{-x}}1+e−x1
- tanh:ex−e−xex+e−x\frac{e^x-e^{-x}}{e^x+e^{-x}}ex+e−xex−e−x
- 饱和非线性和非饱和非线性区别:
- 网络结构图
- 卷积特征图
- 结果量化图
- ReLU非线性
- 精读每个表
- 结果比较表
- 圈出相关文献
- Rectified linear units improve restricted boltzmann machines
- High-performance neural networks for visual object classification
第三遍
-
什么问题?
- 目标识别需要大的数据集
- 需要好的模型cover大的数据集
- CNN更少的参数、更快的训练速度、稳定的统计性、像素依赖
-
什么方法?
-
多层卷积神经网络
-
重要公式:
-
ReLU=max(0,x)ReLU = max(0,x)ReLU=max(0,x)
-
Local Response Normalization :
bx,yi=ax,yi/(k+α∑j=max(0,i−n/2)min(N−1,i+n/2)(ax,yj)2)β b_{x,y}^i = a_{x,y}^i / (k + \alpha\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}(a_{x,y}^j)^2)^\beta bx,yi=ax,yi/(k+αj=max(0,i−n/2)∑min(N−1,i+n/2)(ax,yj)2)β
-
-
-
怎么实验?
-
数据增强1
- resize 256x256
- 水平翻转
- 分别在中心以及四周取5个样
-
数据增强2
- 改变RGB通道的强度
-
dropout
- 前两个全连接层使用dropout
-
优化器
- 优化公式:
vi+1:=0.9vi−0.0005ϵwi−ϵ⟨∂L∂w∣wi⟩Diwi+1:=wi+vi+1 v_{i+1} := 0.9v_i - 0.0005\epsilon w_i - \epsilon {\langle \frac{\partial L}{\partial w} |w_i \rangle }_{D_i} \\ w_{i+1} := w_i + v_{i+1} vi+1:=0.9vi−0.0005ϵwi−ϵ⟨∂w∂L∣wi⟩Diwi+1:=wi+vi+1
- 优化公式:
-
-
为什么?
- 卷积核的使用
- 网络层数增加
- 数据增强方法
有问题欢迎留言讨论。