softmax层_Day154:softmax,cross entropy和softmax loss的讲解

本文详细介绍了softmax层的作用,它将神经网络的输出转换为概率分布。接着阐述了交叉熵的概念及其作为损失函数在衡量分类算法性能中的重要性。最后解释了softmax损失函数的计算,并通过例子说明了预测错误的损失程度与预测正确相比更大,从而揭示了优化模型的目标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

softmax

softmax是一个全连接层,功能是将卷积神经网络计算后的多个神经元输出,映射到(0,1)区间,给出每种分类的概率情况。下面主要记录全连接层到损失层是如何计算的。

fbf67a7cd28b316fc27eb71e27238ef1.png
  • 图的等号左边为全连接,w为权值,x是全连接层的输入(卷积运算激活池化后的特征向量,不一定为N*1,可以为S*P,这里只不过为了便于理解计算,把向量拉直为SP*1,即N*1,N=SP)。假设全连接层前面连接的是一个卷积层,这个卷积层的输出是100个特征(也就是我们常说的feature map的channel为100),每个特征的大小是4*4,那么在将这些特征输入给全连接层之前会将这些特征flat成N*1的向量(这个时候N就是100*4*4=1600。
  • 再看W,W是T*N的矩阵,其中N是由输入决定的,T是由网络输出的类别决定的,比如输出为10个类,则T=10。
  • W和x运算后得到一个T*1的向量,向量大小没有限制。
  • 下一步就是softmax,softmax作用是将T个输入映射为概率,刚才打比方说有10个类别,则每个输出值就是每种类别的概率,显然概率之和为1。分母为所有情况之和,分子为各种单一情况运算。
  • 终于转化为概率了,那接下来为了衡量好坏,当然是选择误差函数了,因为是概率输入,当然理所当然使用交叉熵了,

Cross entropy

首先理一下熵的概念,现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值