训练时第二个step loss特别大_浅析深度学习中Batch Size大小对训练过程的影响

weixin_39624606

于 2020-11-21 11:04:12 发布

阅读量1.3k

点赞数 4

文章标签：训练时第二个step loss特别大

本文分析了深度学习中Batch Size大小对训练过程的影响，包括训练速度、梯度平滑程度和收敛速度。大BatchSize能减少训练时间，但可能导致梯度震荡小，易陷入局部最小值。超大Batch训练时，可以尝试一次正向传播后分批反向传播以平衡训练速度和模型质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

之前面试过程中被问到过两个问题：

（1）深度学习中batch size的大小对训练过程的影响是什么样的？

（2）有些时候不可避免地要用超大batch，比如人脸识别，可能每个batch要有几万甚至几十万张人脸图像，训练过程中超大batch有什么优缺点，如何尽可能地避免超大batch带来的负面影响？

-------------------------------面试版回答-------------------------------

在不考虑Batch Normalization的情况下（这种情况我们之后会在bn的文章里专门探讨），先给个自己当时回答的答案吧（相对来说学究一点）：

(1) 不考虑bn的情况下，batch size的大小决定了深度学习训练过程中的完成每个epoch所需的时间和每次迭代(iteration)之间梯度的平滑程度。（感谢评论区的韩飞同学提醒，batchsize只能说影响完成每个epoch所需要的时间，决定也算不上吧。根本原因还是CPU，GPU算力吧。瓶颈如果在CPU，例如随机数据增强，batch size越大有时候计算的越慢。）

对于一个大小为N的训练集，如果每个epoch中mini-batch的采样方法采用最常规的N个样本每个都采样一次，设mini-batch大小为b，那么每个epoch所需的迭代次数(正向+反向)为

,

因此完成每个epoch所需的时间大致也随着迭代次数的增加而增加。

由于目

最低0.47元/天解锁文章

新学期VIP享超值加赠

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。