经典论文解读——AlexNet(附tensorflow2实现)

本文详细解读经典论文AlexNet,它在2012年ImageNet竞赛中夺冠,引领深度学习的潮流。内容涵盖ReLU激活函数、局部响应归一化、重叠池化、数据增强、dropout策略以及网络结构详解。同时,提供了TensorFlow2的实现方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

经典论文解读:AlexNet

AlexNet是ImageNet LSVRC-2012夺冠模型,可以说是深度卷积神经网络的开篇。
AlexNet出自:ImageNet Classification with Deep Convolutional Neural Networks

论文总结:
1、该论文提出了AlexNet模型,对计算机视觉产生了非常大的影响。
2、提出RELU非线性激活函数,在imageNet数据集上比tanh,sigmiod等激活函数收敛快
3、由于当时GPU算力不够,在两个GPU上进行训练。
4、提出了 Local Response Normalization(局部响应归一化),即经卷积层输出后,各像素点在同方向的前面n/2个通道(最小为第0个通道)和后n/2个通道进行归一化。公式如下:
在这里插入图片描述
5、重叠池化,即池化核步长小于池化核大小,能够抑制过拟合。
6、数据增强:图像平移和水平反转;利用PCA改变图片的RGB值。
7、dropout:训练时以0.5的概率随机丢弃神经元的输出。在测试时使用全部神经元,并将神经元的输出乘以0.5。
8、.训练细节:
batch size=128,momentum=0.9,L2:0.0005;
W:均值为0方差为0.01的高斯分布随机初始化,
b:第二、四、五卷积层和全连接层初始化为1,使RELU有一个正向的输入,其余全为0;
学习率:初始为0.01,在训练过程中手动调节,一般是当错误率不下降时,学习率缩小10倍。

AlexNet网络结构详解
在这里插入图片描述
图片输入:论文中这里感觉有点问题,网上查了下,输入应该为(227,227,3)
conv1:
96个(11,11,3)的卷积核,stride=4。输出(55,55,96)
LRN:输出尺寸不变。
maxpooling:(3,3),stride=2,输出(27,27,96)

conv2
256个(5,5,96)的卷积核,stride=1,pading=2,输出(27,27,256)
LRN:输出尺寸不变。
maxpooling:(3,3),stride=2,输出(13,13,256)

conv3
384个(3,3,256)的卷积核,stride=1,pading=1,输出(13,13,384)

conv4
192个(3,3,384)的卷积核,stride=1,pading=1,输出(13,13,192)

conv5
256个(3,3,192)的卷积核,stride=1,pading=2,输出(13,13,256)
LRN:输出尺寸不变。
maxpooling:(3,3),stride=2,输出(6,6,256)

fc1
输出4096
fc2
输出4096
fc3
经softmax函数输出1000

:除了最后一层,其余层全用的ReLu激活函数

tensorflow2实现

import tensorflow as tf
from tensorflow 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值