TPU v5p

本文說明 Cloud TPU v5p 的架構和支援的設定。

系統架構

本節說明 v5p 版本的專屬系統架構。每個 TensorCore 都有四個矩陣乘法單元 (MXU)、一個向量單元和一個純量單元。

單一 v5p 切片有 8960 個晶片。可排程的最大工作為 96 立方體 (6144 個晶片) 工作。

下表列出 v5p 的主要規格。

主要規格 v5p 值
每個晶片的尖峰運算效能 (bf16) 459 TFLOPS
HBM2e 容量和頻寬 95 GB,2765 GBps
TPU Pod 大小 8960 個晶片
互連網路拓撲 3D 環面 *
晶片間互連 BW 4800 Gbps

設定

TPU v5p Pod 由 8960 個晶片組成,這些晶片透過可重新設定的高速連結互連。TPU v5p 的彈性網路功能可讓您以多種方式連結相同大小配量中的晶片。使用 gcloud compute tpus tpu-vm create 指令建立 TPU 配量時,您可以使用 AcceleratorType 參數指定配量的類型和形狀。

下表列出 v5p 支援的最常見單一切片形狀,以及大於 1 個立方體的大部分 (但不是全部) 立方體形狀。v5p 形狀上限為 16x16x24 (6144 個晶片,96 個立方體)。

拓撲 核心數 方塊 主持人 Cubes 是否支援 Twisted?
2x2x1 8 4 1 不適用 不適用
2x2x2 16 8 2 不適用 不適用
2x4x4 64 32 8 不適用 不適用
4x4x4 128 64 16 1 不適用
4x4x8 256 128 32 2
4x8x8 512 256 64 4
8x8x8 1024 512 128 8 不適用
8x8x16 2048 1024 256 16
8x16x16 4096 2048 512 32
16x16x16 8192 4096 1024 64 不適用
16x16x24 12288 6144 1536 96 不適用

最多可使用 6144 個晶片進行單一切片訓練。您可以使用 Multislice 擴充最多 18432 個晶片。如要進一步瞭解 Multislice,請參閱 Cloud TPU Multislice 總覽

使用 AcceleratorType 參數

分配 TPU 資源時,您可以使用 --accelerator-type 引數指定配量中的 TensorCore 數量。--accelerator-type 是格式化字串「v$VERSION_NUMBERp-$CORES_COUNT」。舉例來說,v5p-32 會指定具有 32 個 TensorCore (16 個晶片) 的 v5p TPU 配量。

如要為 v5p 訓練工作佈建 TPU,請在 CLI 或 TPU API 建立要求中使用下列其中一種加速器類型:

  • v5p-8
  • v5p-16
  • v5p-32
  • v5p-64
  • v5p-128 (一個完整機櫃/機架)
  • v5p-256 (2 個立體)
  • v5p-512
  • v5p-1024 ... v5p-12288

下列指令會建立含有 256 個 v5p TensorCore (128 個晶片) 的 v5p TPU 節點,用於訓練:

  $ gcloud compute tpus tpu-vm create your-tpu-name \
    --zone=us-east5-a \
    --accelerator-type=v5p-256 \
    --version=v2-alpha-tpuv5

如要進一步瞭解如何管理 TPU,請參閱「管理 TPU」。 如要進一步瞭解 Cloud TPU 的系統架構,請參閱「系統架構」。

Cloud TPU ICI 復原能力

ICI 韌性有助於提升光纖連結和光纖電路交換器 (OCS) 的容錯能力,這些連結和交換器會連接立方體之間的 TPU。(立體結構內的 ICI 連線使用不受影響的銅線連結)。ICI 韌性可讓 ICI 連線繞過 OCS 和光學 ICI 故障路徑。因此,這項功能可提升 TPU 節點的排程可用性,但 ICI 效能會暫時下降。

與 Cloud TPU v4 類似,對於一個或多個立方體的 v5p 配量,系統預設會啟用 ICI 復原功能:

  • 指定加速器類型時為 v5p-128
  • 指定加速器設定時為 4x4x4

VM、主機和切片屬性

屬性 TPU 的價值
v5p 晶片數量 4
vCPU 數量 208 (如果使用 NUMA 繫結來避免跨 NUMA 的效能損失,則只有一半可用)
RAM (GB) 448 (如果使用 NUMA 繫結來避免跨 NUMA 的效能懲罰,則只有一半可用)
NUMA 節點數量 2
NIC Throughput (Gbps) 200

Pod 中 TensorCore、晶片、主機/VM 和立方的數量關係:

核心 晶片 主機/VM 方塊
主機 8 4 1
Cube (又稱機架) 128 64 16 1
支援的最大切片 12288 6144 1536 96
v5p 完整 Pod 17920 8960 2240 140