论文信息 标题:ReLU的替代梯度学习(SUGAR) 论文链接 :https://arxiv.org/pdf/2505.22074 核心创新:提出一种即插即用正则化方法,在保留ReLU正向传播特性的同时,通过替代梯度解决“ReLU死亡”问题。 NeLU角色:作为SUGAR框架中两种新型替代梯度函数之一(另一为B-SiLU),专为反向传播设计。 创新点 梯度重塑: 正向不变:保留ReLU的简单性(y=max(0,x)y=\max(0,x)y