A100 GPU 上的加速 TensorFlow

基于 NVIDIA Ampere GPU 架构 的 NVIDIA A100 提供了一系列令人兴奋的新功能:第三代张量核心、多实例 GPU ( MIG )和第三代 NVLink 。

安培张量核心引入了一种新的用于人工智能训练的数学模式:张量浮点 -32 ( TF32 )。 TF32 旨在加速 FP32 数据类型的处理, FP32 数据类型通常用于 DL 工作负载。在 NVIDIA A100 张量核心上,以 TF32 格式运行的数学运算的吞吐量比上一代 Volta V100 GPU 上运行的 FP32 高出 10 倍,从而使 DL 工作负载的性能提高了 5 . 7 倍。

每个月, NVIDIA 都会在 NVIDIA NGC 上发布 DL 框架的容器,这些容器都针对 NVIDIA GPUs : TensorFlow 1 、 TensorFlow 2 、 PyTorch 和“ NVIDIA 优化的深度学习框架,由 Apache MXNet 提供支持”。从 20 . 06 版开始,我们在所有深度学习框架容器中增加了对新的 NVIDIA A100 特性、新的 CUDA 11 和 cuDNN 8 库的支持。

在这篇文章中,我们将重点介绍基于 TensorFlow 1 . 15 的容器和支持 TensorFlow GPUs 的 pip 轮子,包括 A100 。我们继续每月发布 NVIDIA TensorFlow 1 . 15 ,以支持仍在使用 NVIDIA 1 . x 的大量 NVIDIA 客户。

20 . 06 版本中的 NVIDIA TensorFlow 1 . 15 . 2 基于上游 TensorFlow 版本 1 . 15 . 2 。通过这个版本,我们在 NVIDIA Ampere 架构 GPUs 上提供了对 TF32 的现成支持,同时也增强了对上一代 GPUs 的支持,例如 Volta 和 Turing 。此版本允许您在 NVIDIA Ampere architecture GPUs 上实现 TF32 的速度优势,而不会对 DL 工作负载进行代码更改。此版本还包括对自动混合精度( AMP )、 XLA 和 TensorFlow – TensorRT 集成的重要更新。

NVIDIA A100 支持的数值精度

深度神经网络( DNNs )通常可以采用混合精度策略进行训练,主要采用 FP16 ,但必要时也可以采用 FP32 精度。这种策略可以显著减少计算、内存和内存带宽需求,同时通常收敛到类似的最终精度。有关更多信息,请参阅 NVIDIA Research 的 混合精度训练 白皮书。

NVIDIA 张量核是 NVIDIA Volta 和新一代 GPUs 上的专用算术单元。它们可以在一个时钟周期内执行一个完整的矩阵乘法和累加运算( MMA )。在 Volta 和 Turing 上,输入是两个尺寸为 4 × 4 的 FP16 格式矩阵,而累加器为 FP32 。

Ampere 上的第三代张量核支持一种新的数学模式: TF32 。 TF32 是一种混合格式,用于以更高的效率处理 FP32 的工作。具体来说,由于使用了 8 位指数, TF32 使用了与 FP16 相同的 10 位尾数,以确保精度,同时与 FP32 具有相同的范围。

当使用 TF32 时,更广泛的可表示范围匹配 FP32 消除了损耗缩放操作的需要,从而简化了混

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值