nn loss 不收敛或失败问题

最新推荐文章于 2025-03-25 21:34:43 发布

转载最新推荐文章于 2025-03-25 21:34:43 发布 · 380 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?src=11&timestamp=1658304038&ver=3931&signature=XsYFZGEgXjdegVBeKa6zYbfgTL-Qwb226BAGvcMQihdrdoK106BP*BF2DgzD*Ha7lwZwieoOOhGpcRQNzjEcI9nZbLI15qixTj1vtCAfvBGFL-6YnHQ07PsbHSvx9ExK&new=1

文章标签：

#深度学习 #python #机器学习

算法专栏收录该内容

1 篇文章

订阅专栏

本文探讨了神经网络训练中常见的问题，包括不收敛、过拟合、数据集问题以及学习瓶颈等，并提供了相应的解决策略，如调整学习率、优化批量大小以及检查网络结构和超参数设置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

神经网络训练过程中不收敛或者训练失败的原因

train loss 不断下降，test loss不断下降，说明网络仍在学习;

train loss 不断下降，test loss趋于不变，说明网络过拟合;

train loss 趋于不变，test loss不断下降，说明数据集100%有问题;

train loss 趋于不变，test loss趋于不变，说明学习遇到瓶颈，需要减小学习率或批量数目;

train loss 不断上升，test loss不断上升，说明网络结构设计不当，训练超参数设置不当，数据集经过清洗等问题

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lnnyy

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

深度学习loss总结：nn.CrossEntropyLoss,nn.MSELoss,Focal_Loss,nn.KLDivLoss等

@bangbang的博客

11-19

1143

交叉熵主要是用来判定实际的输出与期望的输出的接近程度，也就是交叉熵的值越小，两个概率分布就越接近。假设概率分布p为期望输出(target)，概率分布q为实际输出(pred),HpqH(p,q)HpqPytorch中的CrossEntropyLoss()函数而是交叉熵的另外一种方式计算得到的：Pytorch中函数的主要是将和NLLLoss最小化负对数似然函数）合并到一块得到的结果(1)首先对预测值pred进行softmax计算：其中softmax。

关于#transformer#的问题：transformer架构人机对话，输出结果基本一样，感觉没收敛，如何解决？

最新发布

**My Coding Family**

06-05

982

🏆 本文收录于《全栈Bug调优(实战版)》专栏，致力于分享我在项目实战过程中遇到的各类Bug及其原因，并提供切实有效的解决方案。无论你是初学者还是经验丰富的开发者，本文将为你指引出一条更高效的Bug修复之路，助你早日登顶，迈向财富自由的梦想🚀！同时，欢迎大家关注、收藏、订阅本专栏，更多精彩内容正在持续更新中。让我们一起进步，Up！Up！Up！备注：部分问题/难题源自互联网，经过精心筛选和整理，结合数位十多年大厂实战经验资深大佬经验总结所得，数条可行方案供所需之人参考。

参与评论您还未登录，请先登录后发表或查看评论

nn.损失函数

weixin_44741829的博客

11-24

2617

nn.L1Loss https://pytorch.org/docs/stable/generated/torch.nn.L1Loss.html#torch.nn.L1Loss 例子： input=[1,3,4] target=[2,3,7] 则loss=（|2-1|+|3-3|+|7-4|)/3=4/3=1.333 import torch from torch import nn input = torch.tensor([1, 3, 4],dtype=torch.float) target = to

【深度学习填坑笔记2】用nn.Transformer训练时出现loss不收敛现象

m0_58815430的博客

07-04

4624

本文介绍了用transformer进行序列预测时遇到了训练过程中loss不收敛的问题

torch.nn损失函数总结

yf416的博客

10-16

1159

loss

小土堆pytorch教程学习笔记P21

快乐卷心菜的博客

04-02

313

P21.神经网络-线性层及其他层介绍 Pytorch官网 -> Docs -> Pytorch -> torch.nn -> Linear Layers class torch.nn.Linear(in_features, out_features, bias=True, device=None, dtype=None) Parameters in_features – size of each input sample out_features –

sam模型迁移昇腾训练loss不收敛问题的解决办法

cnzzs的博客

01-17

548

一、问题描述1.在进行sam模型迁移到昇腾的时候存在精度问题，模型链接：https://github.com/facebookresearch/segment-anything2 .两台机器上训练loss图对比，发现从一开始训练的时候就出现了差别，从图中对比看出来npu第一步就开始没有向下收敛，而gpu是向下收敛。二、问...

为什么你的神经网络不收敛？90%新手踩了这3个坑

Conan_0728的博客

03-25

1446

根据多年实战经验，90%的神经网络不收敛问题可归结为以下3个关键点，逐一排查，少走弯路！

【损失函数】Contrastive Loss, Triplet Loss and Center Loss

weixin_43882112的博客

11-05

4797

文章目录1. Contrastive Loss vs Triplet Loss:Contrastive Loss [1]：Triplet Loss [2]：2. 问题引入：3. Contrastive Loss：对比损失定义：含义：4. Triplet Loss：三元组损失定义：目标：公式：进阶：FaceNet 1. Contrastive Loss vs Triplet Loss: Contrastive Loss [1]：来源：Yann LeCun论文：Dimensionality Reduction

Pytorch中torch.nn的损失函数

foolishpeng的博客

04-22

3064

前言最近使用Pytorch做多标签分类任务，遇到了一些损失函数的问题，因为经常会忘记（好记性不如烂笔头囧rz），都是现学现用，所以自己写了一些代码探究一下，并在此记录一下，如果以后还遇到其他损失函数，继续在此补充。一、torch.nn.BCELoss() ...

关于训练深度学习模型deepNN时，训练精度维持固定值，模型不收敛的解决办法（tensorflow实现）

QQ704630835的博客

10-11

1万+

一、背景最近一直在做人脸表情的识别，用到的程序是之间的一篇文章中的程序：深度学习（一）——deepNN模型实现摄像头实时识别人脸表情（C++和python3.6混合编程）。这里我只进行了简单的程序修改。由于该程序是利用fer2013数据集做的，效果不是很好，人脸表情的识别精度仅有70%左右，因此我想自己制作数据集，自己训练模型，关于如何制作数据集，可参考文章：从零开始制作人脸表情的数据集。...

Debug Pytorch: BCE无法收敛无法学习

yuetan的博客

03-19

450

最近在使用pytorch训练模型时，发现无法收敛。模型无法学到任何有效知识。经过几天的debug，能够解决无法学习和无法收敛的问题，但还是没有从根本上理解原因，因此通过本文进行一个记录。

神经网络不收敛的 11 个原因及其解决办法

AI 算法笔记

05-04

1万+

原文：http://theorangeduck.com/page/neural-network-not-working 原文标题：My Neural Network isn’t working! What should I do? 译文作者：kbsc13 联系方式： Github：https://github.com/ccc013 知乎专栏：机器学习与计算机视觉，AI 论文笔记微信公众号：AI 算法笔记前言如果你的神经网络不收敛，应该怎么办呢？一般来说，神经网络不收敛的原因有以下 11 种原因：

pytorch损失函数（nn.L1Loss、nn.SmoothL1Loss、nn.MSELoss 、nn.CrossEntropyLoss、nn.NLLLoss）

silentkunden的博客

12-02

1万+

损失函数，是编译一个神经网络模型必须的两个参数之一，另一个是优化器。损失函数是指用于计算标签值和预测值之间差异的函数，常见的有多种损失函数可供选择，典型的有距离向量，绝对值向量等。 nn.L1Loss L1Loss 计算方法比较简单，原理就是取预测值和真实值的绝对误差的平均数。计算公式如下 ...

pytorch的nn.MSELoss损失函数

热门推荐

Haward

07-13

24万+

1、均方损失函数： loss(xi,yi)=(xi−yi)2loss(xi,yi)=(xi−yi)2\text{loss}(\mathbf{x}_i, \mathbf{y}_i) = (\mathbf{x}_i - \mathbf{y}_i)^2 这里 loss, x, y 的维度是一样的，可以是向量或者矩阵，i 是下标。很多的 loss 函数都有 size_average 和 reduc...

CNN loss无法收敛的一种原因

m0_37920951的博客

04-22

3747

在一次实验中，发现loss计算出为nan 型【原因】后来发现，输入数据的标签，没有从下标0开始(几个标签分别是0,10,20,30,40)。【解决】将标签除以10，done 【注】https://blog.csdn.net/u014381600/article/details/54319030这篇博客说到，tensorflow中只要输入标签为Onehot就可以任意标注标签，但是避免出错，...

python中模型训练不收敛问题

AI_girl的博客

01-24

4421

近期在做人脸表情识别时，遇到了一个问题，就是模型写好进行训练时，出现了不收敛的现象。情况如下：出现这种问题，很难无从下手，一步一步的排查各个环节，首先检查模型，发现模型并木有问题。部分模型代码： def train_model(): # 构建模型---------------------------------------------------------- x = ...

PyTorch 的 nn.NLLLoss：负对数似然损失全解析

阿正的梦工坊

02-28

2116

在统计学中，似然表示“给定模型参数时，观察到数据的概率”。对数似然（Log Likelihood）是它的对数形式，常用于简化计算。计算正确类别对数概率的负值，最小化它等价于最大化似然

torch.nn 包中常用的损失函数

niexinyu0026的博客

11-23

2503

torch.nn 包中常用的损失函数1、torch.nn.MSELoss：均方误差2、torch.nn.L1Loss：平均绝对误差3、torch.nn.CrossEntropyLoss ：计算交叉熵 1、torch.nn.MSELoss：均方误差 import torch from torch.autograd import Variable loss_f = torch.nn.MSELoss() #不用传入任何参数 '''随机生成两个维度都是（100,100）的参数''' x = Variable(t

torch.nn

05-09

### Torch.nn 使用指南与常见问题解决方案 #### 1. 理解 `torch.nn` 模块的核心概念 PyTorch 提供了灵活的神经网络构建工具，核心模块之一便是 `torch.nn`。此模块封装了一系列常用的层（Layer）、损失函数（Loss Function）以及其他辅助功能，旨在简化模型的设计和训练过程。 - **常用组件**： - 层（Layers）：如线性变换层 `nn.Linear`、卷积层 `nn.Conv2d` 等。 - 非线性激活函数：如 `nn.ReLU`, `nn.Sigmoid` 等。 - 归一化操作：如批量归一化 `nn.BatchNorm2d`。 - 池化操作：如最大池化 `nn.MaxPool2d`。 - 损失函数：如交叉熵损失 `nn.CrossEntropyLoss` [^1]。这些组件可以通过组合来创建复杂模型，并且支持动态计算图的特点使得调试更加直观便捷。 --- #### 2. 构建简单的全连接神经网络示例以下是使用 `torch.nn` 创建一个两层全连接网络的例子： ```python import torch import torch.nn as nn class SimpleNN(nn.Module): def __init__(self, input_size, hidden_size, output_size): super(SimpleNN, self).__init__() self.fc1 = nn.Linear(input_size, hidden_size) # 输入到隐藏层 self.relu = nn.ReLU() # ReLU 激活函数 self.fc2 = nn.Linear(hidden_size, output_size) # 隐藏层到输出层 def forward(self, x): out = self.fc1(x) out = self.relu(out) out = self.fc2(out) return out # 初始化模型 model = SimpleNN(input_size=784, hidden_size=500, output_size=10) # 打印模型结构 print(model) ``` 上述代码展示了如何定义一个具有单隐含层的前馈神经网络，并通过继承 `nn.Module` 实现自定义模型的功能 [^1]。 --- #### 3. 常见问题及解决方案 ##### （1）梯度消失或爆炸问题在深层网络中可能会遇到梯度消失或爆炸的情况。为缓解这一现象，可以采取以下措施： - 使用合适的激活函数（如 ReLU 替代 Sigmoid/Tanh）。 - 应用权重初始化策略（如 Xavier Initialization 或 He Initialization）。 - 添加正则化项（如 Dropout 或 L2 正则化）。例如，在模型中加入 Dropout 层： ```python self.dropout = nn.Dropout(p=0.5) # 设置丢弃概率为 0.5 out = self.dropout(out) ``` ##### （2）GPU 加速失败如果尝试将张量移动至 GPU 上运行却报错，可能是设备分配不当所致。确保所有输入数据、模型参数均位于同一设备上： ```python device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model.to(device) inputs = inputs.to(device) labels = labels.to(device) ``` ##### （3）优化器收敛缓慢学习率过高可能导致振荡甚至发散；过低又会使训练时间延长。建议引入学习率调度器逐步调整速率： ```python optimizer = torch.optim.Adam(model.parameters(), lr=0.001) scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.1) for epoch in range(num_epochs): scheduler.step() ... ``` --- #### 4. 关于多头注意力机制的应用对于涉及序列建模的任务（如自然语言处理），`torch.nn.MultiheadAttention` 是一个重要组成部分。它允许模型关注不同位置的信息加权求和，从而捕捉全局上下文特征 [^1]。典型应用包括 Transformer 编码器/解码器架构。示例代码如下所示： ```python multihead_attn = nn.MultiheadAttention(embed_dim=128, num_heads=8) query = key = value = torch.randn(10, 32, 128) # (seq_len, batch_size, embed_dim) attn_output, attn_weights = multihead_attn(query, key, value) print(attn_output.shape) # 输出形状应为 (10, 32, 128) ``` 此处需要注意维度匹配规则以及掩码设置以屏蔽不必要的干扰信号 [^1]。 --- #### 5. 将 PyTorch 模型转换为 TensorRT 格式为了提升推理性能，有时需借助第三方库如 `torch2trt` 进行加速部署。然而在此过程中难免遭遇兼容性障碍等问题 [^2]。针对这些问题官方文档提供了详尽解答可供查阅参考。例如当遇到某些算子不受支持时可尝试替换近似实现方式或者升级底层驱动版本直至满足需求为止。 ---