A100 GPU 上的加速 TensorFlow

原创

于 2024-09-21 10:11:31 发布 · 957 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#tensorflow #人工智能 #python

基于 NVIDIA Ampere GPU 架构的 NVIDIA A100 提供了一系列令人兴奋的新功能：第三代张量核心、多实例 GPU （ MIG ）和第三代 NVLink 。

安培张量核心引入了一种新的用于人工智能训练的数学模式：张量浮点 -32 （ TF32 ）。 TF32 旨在加速 FP32 数据类型的处理， FP32 数据类型通常用于 DL 工作负载。在 NVIDIA A100 张量核心上，以 TF32 格式运行的数学运算的吞吐量比上一代 Volta V100 GPU 上运行的 FP32 高出 10 倍，从而使 DL 工作负载的性能提高了 5 . 7 倍。

每个月， NVIDIA 都会在 NVIDIA NGC 上发布 DL 框架的容器，这些容器都针对 NVIDIA GPUs ： TensorFlow 1 、 TensorFlow 2 、 PyTorch 和“ NVIDIA 优化的深度学习框架，由 Apache MXNet 提供支持”。从 20 . 06 版开始，我们在所有深度学习框架容器中增加了对新的 NVIDIA A100 特性、新的 CUDA 11 和 cuDNN 8 库的支持。

在这篇文章中，我们将重点介绍基于 TensorFlow 1 . 15 的容器和支持 TensorFlow GPUs 的 pip 轮子，包括 A100 。我们继续每月发布 NVIDIA TensorFlow 1 . 15 ，以支持仍在使用 NVIDIA 1 . x 的大量 NVIDIA 客户。

20 . 06 版本中的 NVIDIA TensorFlow 1 . 15 . 2 基于上游 TensorFlow 版本 1 . 15 . 2 。通过这个版本，我们在 NVIDIA Ampere 架构 GPUs 上提供了对 TF32 的现成支持，同时也增强了对上一代 GPUs 的支持，例如 Volta 和 Turing 。此版本允许您在 NVIDIA Ampere architecture GPUs 上实现 TF32 的速度优势，而不会对 DL 工作负载进行代码更改。此版本还包括对自动混合精度（ AMP ）、 XLA 和 TensorFlow – TensorRT 集成的重要更新。