李沐Softmax回归从零开始实现代码中的关于y和y_hat

nor1take

已于 2024-11-05 21:51:01 修改

阅读量352

点赞数 5

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：人工智能

于 2024-11-05 21:33:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60641871/article/details/143518458

机器学习专栏收录该内容

4 篇文章

订阅专栏

原视频：李沐Softmax回归从零开始实现

其中，这段代码令人迷惑。

y = torch.tensor([0, 2])
y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])

y_hat[[0, 1], y]

视频文字上的注释是：

创建一个数据 y_hat，其中包含2个样本在3个类别上的预测概率，使用 y 作为 y_hat 中概率的索引。

为什么介绍这段代码？因为为了介绍交叉熵。

在之前的课程中提到，对真实 y 进行独热编码。

比如，共有 3 类，则真实输出 $\bold y = [0, 0, 1]$ ，即表示：真实的类别是第3类。

最后发现，交叉熵损失等于 $-log(\hat{y_y})$ ，就是 i = y 真实类别的预测概率 $\hat{y}$ 。

但是，这里的 y 不表示这个含义。这里的 y 表示 2 个样本的真实类别分别是 0 和 2（类别有 [0, 1, 2]）

而之前的独热编码 y 表示为 1 个样本的真实类别：[0, 0, 1]。第 2 个是1，则表示第 2 个为真实类别。所以独热编码的y要写成上述代码的y，可以写成：y = [2]

当把 y 写成独热编码，是为了方便解释：交叉熵损失的预测概率只需要真实类别的预测概率，并对其求-log。

那么，既然如此，代码中的 y 就表示 index，就告诉你哪一个是真实类别的预测概率，那么要计算交叉熵损失就直接根据 index 在 y_hat 里面取就行。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。