吴恩达深度学习笔记(51)-归一化网络的激活函数（重要！）

原创

于 2019-01-18 21:55:12 发布 · 1.4k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

批量归一化(Batch Normalization)是深度学习中的一种重要技术，由Sergey Loffe和Christian Szegedy提出。该技术通过在神经网络中对激活值进行归一化，加速训练过程，提高模型的稳定性和性能。归一化不仅适用于输入特征，也可应用于隐藏层的激活值，通过调整γ和β参数，可以控制输出的均值和方差，以优化非线性激活函数的效果。批量归一化常在激活函数前进行，使得神经网络的训练更加高效。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

归一化网络的激活函数（Normalizing activations in a network）

在深度学习兴起后，最重要的一个思想是它的一种算法，叫做Batch归一化，由Sergey loffe和Christian Szegedy两位研究者创造。

Batch归一化会使你的参数搜索问题变得很容易，使神经网络对超参数的选择更加稳定，超参数的范围会更加庞大，工作效果也很好，也会使你的训练更加容易，甚至是深层网络。

让我们来看看Batch归一化是怎么起作用的吧。

在这里插入图片描述
当训练一个模型，比如logistic回归时，你也许会记得，归一化输入特征可以加快学习过程。你计算了平均值，从训练集中减去平均值，计算了方差，接着根据方差归一化你的数据集，在之前的笔记中我们看到，这是如何把学习问题的轮廓，从很长的东西，变成更圆的东西，更易于算法优化。所以这是有效的，对logistic回归和神经网络的归一化输入特征值而言。
在这里插入图片描述

那么更深的模型呢？

你不仅输入了特征值x，而且这层有激活值a^{([1])，这层有激活值a}([2])等等。

如果你想训练这些参数，比如w^([3])，b([3])，那归一化a^([2])的平均值和方差岂不是很好？

以便使w^([3])，b([3])的训练更有效率。

在logistic回归的例子中，我们看到了如何归一化x_1，x_2，x_3，会帮助你更有效的训练w和b。

所以问题来了，对任何一个隐藏层而言，我们能否归一化a值，在此例中，比如说a^{([2])的值，但可以是任何隐藏层的，以更快的速度训练w}([3])，b

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。