softmax层_Day154:softmax，cross entropy和softmax loss的讲解

weixin_39540426

于 2020-11-26 09:49:34 发布

阅读量984

点赞数 1

文章标签： softmax层

本文详细介绍了softmax层的作用，它将神经网络的输出转换为概率分布。接着阐述了交叉熵的概念及其作为损失函数在衡量分类算法性能中的重要性。最后解释了softmax损失函数的计算，并通过例子说明了预测错误的损失程度与预测正确相比更大，从而揭示了优化模型的目标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

softmax

softmax是一个全连接层，功能是将卷积神经网络计算后的多个神经元输出，映射到(0，1)区间，给出每种分类的概率情况。下面主要记录全连接层到损失层是如何计算的。

图的等号左边为全连接，w为权值，x是全连接层的输入(卷积运算激活池化后的特征向量，不一定为N*1,可以为S*P，这里只不过为了便于理解计算，把向量拉直为SP*1，即N*1，N=SP)。假设全连接层前面连接的是一个卷积层，这个卷积层的输出是100个特征(也就是我们常说的feature map的channel为100)，每个特征的大小是4*4，那么在将这些特征输入给全连接层之前会将这些特征flat成N*1的向量(这个时候N就是100*4*4=1600。
再看W，W是T*N的矩阵，其中N是由输入决定的，T是由网络输出的类别决定的，比如输出为10个类，则T=10。
W和x运算后得到一个T*1的向量，向量大小没有限制。
下一步就是softmax，softmax作用是将T个输入映射为概率，刚才打比方说有10个类别，则每个输出值就是每种类别的概率，显然概率之和为1。分母为所有情况之和，分子为各种单一情况运算。

终于转化为概率了，那接下来为了衡量好坏，当然是选择误差函数了，因为是概率输入，当然理所当然使用交叉熵了，

Cross entropy

首先理一下熵的概念，现有关于样本集的2个概率分布p和q，其中p为真实分布，q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。