读论文——AlexNet

第一遍

  • 标题:ImageNet Classification with Deep Convolutional Neural Networks

  • 摘要

    • 问题(数据集):ImageNet,1.2百万图片,1000类
    • 方法:大的深度卷积模型,6千万参数,65万神经元
    • 模型:5个卷积层、最大池化层、3层全连接和softmax层、dropout层
    • 结果:top-1和top-5错误率为37.5%37.5 \%37.5%17.0%17.0 \%17.0%
  • 结论/讨论

    • 深层卷积神经网络,通过监督学习,可以完成很复杂的建模
    • 网络的深度对最后的top-1精度影响很大
    • 展望:
      • 希望在视频序列中使用深度卷积神经网络,时间结构提供了非常有用的信息
  • 关注图表

    • ReLU(Fig 1)

    • 这是一个比tanh快约6倍的激活函数
      ReLU

    • 网络结构图(Fig 2)

      模型结构

      • 双GPU训练
      • 前两层卷积层用到了(归一化和池化),最后一层卷积层也用到了池化
    • 第一层卷积后的特征图(Fig 3)

      在这里插入图片描述

    • 结果对比

      • 比较ILSVRC-2010上的结果

        在这里插入图片描述

      • 比较在ILSVRC-2012验证集和测试集上的错误率(表2)

        在这里插入图片描述

    • 结果量化

      在这里插入图片描述

      • 左图显示top-5预测结果,图片下方表示正确结果,下面柱状图表示预测结果
      • 右图的第一列是五张训练集图片,剩余的六列是在测试集中的六张图片。它们通过卷积神经网络输出的特征向量在欧几里得空间中是最近的。
    • 值不值得读?

      • 深度卷积神经网络开山之作
      • ReLU
      • Dropout

第二遍

  • 精读每个图
    • ReLU非线性
      • 饱和非线性和非饱和非线性区别:
        • 饱和相较于非饱和会将输入值压缩
      • ReLU:max(0,x)max(0,x)max(0,x)
      • sigmoid:11+e−x\frac{1}{1+e^{-x}}1+ex1
      • tanh:ex−e−xex+e−x\frac{e^x-e^{-x}}{e^x+e^{-x}}ex+exexex
    • 网络结构图
    • 卷积特征图
    • 结果量化图
  • 精读每个表
    • 结果比较表
  • 圈出相关文献
    1. Rectified linear units improve restricted boltzmann machines
    2. High-performance neural networks for visual object classification

第三遍

  • 什么问题?

    • 目标识别需要大的数据集
    • 需要好的模型cover大的数据集
    • CNN更少的参数、更快的训练速度、稳定的统计性、像素依赖
  • 什么方法?

    • 多层卷积神经网络

    • 重要公式:

      • ReLU=max(0,x)ReLU = max(0,x)ReLU=max(0,x)

      • Local Response Normalization :
        bx,yi=ax,yi/(k+α∑j=max(0,i−n/2)min(N−1,i+n/2)(ax,yj)2)β b_{x,y}^i = a_{x,y}^i / (k + \alpha\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}(a_{x,y}^j)^2)^\beta bx,yi=ax,yi/(k+αj=max(0,in/2)min(N1,i+n/2)(ax,yj)2)β

  • 怎么实验?

    • 数据增强1

      • resize 256x256
      • 水平翻转
      • 分别在中心以及四周取5个样
    • 数据增强2

      • 改变RGB通道的强度
    • dropout

      • 前两个全连接层使用dropout
    • 优化器

      • 优化公式:
        vi+1:=0.9vi−0.0005ϵwi−ϵ⟨∂L∂w∣wi⟩Diwi+1:=wi+vi+1 v_{i+1} := 0.9v_i - 0.0005\epsilon w_i - \epsilon {\langle \frac{\partial L}{\partial w} |w_i \rangle }_{D_i} \\ w_{i+1} := w_i + v_{i+1} vi+1:=0.9vi0.0005ϵwiϵwLwiDiwi+1:=wi+vi+1
  • 为什么?

    • 卷积核的使用
    • 网络层数增加
    • 数据增强方法

有问题欢迎留言讨论。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值