读论文——AlexNet

最新推荐文章于 2025-07-31 17:06:18 发布

原创最新推荐文章于 2025-07-31 17:06:18 发布 · 2.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #神经网络 #计算机视觉

计算机视觉专栏收录该内容

5 篇文章

订阅专栏

第一遍

标题：ImageNet Classification with Deep Convolutional Neural Networks
摘要：
- 问题（数据集）：ImageNet，1.2百万图片，1000类
- 方法：大的深度卷积模型,6千万参数，65万神经元
- 模型：5个卷积层、最大池化层、3层全连接和softmax层、dropout层
- 结果：top-1和top-5错误率为 $\%$ 和 $\%$
结论/讨论：
- 深层卷积神经网络，通过监督学习，可以完成很复杂的建模
- 网络的深度对最后的top-1精度影响很大
- 展望：
  - 希望在视频序列中使用深度卷积神经网络，时间结构提供了非常有用的信息
关注图表
- ReLU（Fig 1）
- 这是一个比tanh快约6倍的激活函数
- 网络结构图（Fig 2）
  - 双GPU训练
  - 前两层卷积层用到了（归一化和池化），最后一层卷积层也用到了池化
- 第一层卷积后的特征图（Fig 3）
- 结果对比
  - 比较ILSVRC-2010上的结果
  - 比较在ILSVRC-2012验证集和测试集上的错误率（表2）
- 结果量化
  - 左图显示top-5预测结果，图片下方表示正确结果，下面柱状图表示预测结果
  - 右图的第一列是五张训练集图片，剩余的六列是在测试集中的六张图片。它们通过卷积神经网络输出的特征向量在欧几里得空间中是最近的。
- 值不值得读？
  - 深度卷积神经网络开山之作
  - ReLU
  - Dropout

第二遍

精读每个图
- ReLU非线性
  - 饱和非线性和非饱和非线性区别：
    - 饱和相较于非饱和会将输入值压缩
  - ReLU： $m a x (0, x)$
  - sigmoid： $11+e−x\frac{1}{1+e^{-x}}$
  - tanh: $ex−e−xex+e−x\frac{e^x-e^{-x}}{e^x+e^{-x}}$
- 网络结构图
- 卷积特征图
- 结果量化图
精读每个表
- 结果比较表
圈出相关文献
1. Rectified linear units improve restricted boltzmann machines
2. High-performance neural networks for visual object classification

第三遍

什么问题？
- 目标识别需要大的数据集
- 需要好的模型cover大的数据集
- CNN更少的参数、更快的训练速度、稳定的统计性、像素依赖
什么方法？
- 多层卷积神经网络
- 重要公式：
  - $R e L U = m a x (0, x)$
  - Local Response Normalization :
    $b_{x,y}^i = a_{x,y}^i / (k + \alpha\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}(a_{x,y}^j)^2)^\beta$
怎么实验？
- 数据增强1
  - resize 256x256
  - 水平翻转
  - 分别在中心以及四周取5个样
- 数据增强2
  - 改变RGB通道的强度
- dropout
  - 前两个全连接层使用dropout
- 优化器
  - 优化公式：
    $v_{i+1} := 0.9v_i - 0.0005\epsilon w_i - \epsilon {\langle \frac{\partial L}{\partial w} |w_i \rangle }_{D_i} \\ w_{i+1} := w_i + v_{i+1}$
为什么？
- 卷积核的使用
- 网络层数增加
- 数据增强方法

有问题欢迎留言讨论。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。