方法论
- 大模型在训练过程中, 需要预估需要多少显存进行参数的存储, 需要进行预估.来方便GPU的购买.
举例
- 以DeepSeek-V3模型为例, 总共有 671B 个参数.
B = Billion(十亿), 因此,671B模型指拥有6710亿参数的模型。
基础计算(以训练为例)
-
假设使用FP16(16位浮点数)存储参数:
每个参数占用 2字节。- 671B参数总显存 ≈ 6710亿 × 2字节 ≈ 1,342 GB
-
实际训练时需额外存储梯度、优化器状态和激活值:
-
使用Adam优化器时,每个参数需存储:
参数(2字节) + 梯度(2字节) + 动量(2字节) + 方差(2字节) = 8字节/参数 -
总显存 ≈ 6710亿 × 8字节 ≈ 5,368 GB
-
说明:
在计算机存储中,1GB 可以存储102410241024= 1073741824字节。具体换算关系如下:
- 1GB=1024MB(兆字节)
- 1MB=1024KB(千字节)
- 1KB=1024B(字节)
不过,在实际应用中,硬盘等存储设备的制造商通常按照1GB=1000MB,1MB=1000KB,1KB=1000B的进制来计算容量,这就导致在操作系统中查看存储设备容量时,显示的容量会略小于按照1024进制计算的结果
训练时间
- 2.788M H800 GPU 小时
- 2.788M: 2.7