大模型训练内存预估计算方法

junjunzai123

已于 2025-02-05 14:44:26 修改

阅读量3.3k

点赞数 1

CC 4.0 BY-SA版权

文章标签：人工智能深度学习机器学习

于 2025-02-05 14:32:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/junjunzai123/article/details/145454437

方法论

大模型在训练过程中, 需要预估需要多少显存进行参数的存储, 需要进行预估.来方便GPU的购买.

举例

以DeepSeek-V3模型为例, 总共有 671B 个参数.

B = Billion（十亿）, 因此，671B模型指拥有6710亿参数的模型。

基础计算（以训练为例）

假设使用FP16（16位浮点数）存储参数：
每个参数占用 2字节。
- 671B参数总显存 ≈ 6710亿 × 2字节 ≈ 1,342 GB
实际训练时需额外存储梯度、优化器状态和激活值：
- 使用Adam优化器时，每个参数需存储：
  参数（2字节） + 梯度（2字节） + 动量（2字节） + 方差（2字节） = 8字节/参数
- 总显存 ≈ 6710亿 × 8字节 ≈ 5,368 GB

说明:
在计算机存储中，1GB 可以存储102410241024= 1073741824字节。具体换算关系如下：
- 1GB=1024MB（兆字节）
- 1MB=1024KB（千字节）
- 1KB=1024B（字节）
不过，在实际应用中，硬盘等存储设备的制造商通常按照1GB=1000MB，1MB=1000KB，1KB=1000B的进制来计算容量，这就导致在操作系统中查看存储设备容量时，显示的容量会略小于按照1024进制计算的结果

训练时间

2.788M H800 GPU 小时
- 2.788M: 2.7

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。