斯坦福cs231n学习笔记（9）------神经网络训练细节（Batch Normalization）

本文深入探讨了Batch Normalization在神经网络训练中的作用，旨在解决Internal Covariate Shift问题，加速网络收敛。通过标准化每层神经网络的输入，BN使激活值集中在非线性函数的敏感区域，提高梯度更新效率，从而提高训练速度并增强模型的表达能力。同时，BN还引入可学习的scale和shift参数以保持网络的非线性特性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

神经网络训练细节系列笔记：

这一篇介绍很NB的BN（Batch Normalization）：

Batch Normalization是由Loffe和Szegedy在2015年提出的概念，主旨是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布。Batch Normalization概念的提出来源于深度神经网络随着网络深度加深，训练起来越困难，收敛越来越慢。从而引入了“Internal Covariate Shift”问题。

“Internal Covariate Shift”问题是指：在训练过程中，因为各层参数老在变，所以每个隐层都会面临covariate shift的问题，也就是在训练过程中，隐层的输入分布老是变来变去，这就是所谓的“Internal Covariate Shift”，Internal指的是深层网络的隐层，是发生在网络内部的事情，而不是covariate shift问题只发生在输入层。

因此，就有了Batch Normalization的基本思想：能不能让每个隐层节点的激活输入分布固定下来呢？这样就避免了“Internal Covariate Shift”问题了。

那么，详细解释Batch Normalization的基本思想：对于每个隐层神经元，把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布，使得非线性变换函数的输入值落入对输入比较敏感的区域，以此避免梯度消失问题。因为梯度一直都能保持比较大的状态