神经网络模型不收敛原因、解决办法

本文分析了神经网络模型不收敛的多种可能原因,包括数据问题、预处理、激活函数选择、学习率设置等,并提供了相应的解决策略,如数据归一化、调整学习率、更改激活函数、正则化等。通过这些优化,可以有效提高模型的训练效果和收敛速度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


理论上,只要训练样本足够多,神经网络可以拟合原始数据分布。

0.可能原因汇总

  • 没有对数据进行归一化
  • 忘记检查输入和输出
  • 没有对数据进行预处理
  • 没有对数据正则化
  • 使用过大的样本
  • 使用不正确的学习率
  • 在输出层使用错误的激活函数
  • 网络中包含坏梯度
  • 初始化权重错误
  • 过深的网络
  • 隐藏单元数量错误

1.检查

1.1.确保:数据干净、标注正确

如:检查lable是否有错,有的时候图像类别的label设置成1,2,3正确设置应该为0,1,2。

1.2.样本的信息量太大

  • 数据越多越好。
  • 数据库太小一般不会带来不收敛的问题。样本少只可能带来过拟合的问题。训练误差收敛、验证误差不收敛,就是过拟合了。进行anti-overfit的方法:Dropout,增加minibatch数量,减少Fully-connect层的节点数,SGD,momentum,finetune等。
  • 样本的信息量太大,导致网络不足以拟合整个样本空间,会导致不收敛。使用太大的训练样本可能会对网络在训练过程中的准确性造成负面影响,这是由于大样本会破坏梯度下降的随机性
  • 文章说,改变图片大小可以解决收敛问题。

1.3.数据预处理

这个有点没懂。https://zhuanlan.zhihu.com/p/36369878

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值