TPU v5p
本文說明 Cloud TPU v5p 的架構和支援的設定。
系統架構
本節說明 v5p 版本的專屬系統架構。每個 TensorCore 都有四個矩陣乘法單元 (MXU)、一個向量單元和一個純量單元。
單一 v5p 切片有 8960 個晶片。可排程的最大工作為 96 立方體 (6144 個晶片) 工作。
下表列出 v5p 的主要規格。
主要規格 | v5p 值 |
---|---|
每個晶片的尖峰運算效能 (bf16) | 459 TFLOPS |
HBM2e 容量和頻寬 | 95 GB,2765 GBps |
TPU Pod 大小 | 8960 個晶片 |
互連網路拓撲 | 3D 環面 * |
晶片間互連 BW | 4800 Gbps |
設定
TPU v5p Pod 由 8960 個晶片組成,這些晶片透過可重新設定的高速連結互連。TPU v5p 的彈性網路功能可讓您以多種方式連結相同大小配量中的晶片。使用 gcloud compute tpus tpu-vm create
指令建立 TPU 配量時,您可以使用 AcceleratorType
參數指定配量的類型和形狀。
下表列出 v5p 支援的最常見單一切片形狀,以及大於 1 個立方體的大部分 (但不是全部) 立方體形狀。v5p 形狀上限為 16x16x24 (6144 個晶片,96 個立方體)。
拓撲 | 核心數 | 方塊 | 主持人 | Cubes | 是否支援 Twisted? |
2x2x1 | 8 | 4 | 1 | 不適用 | 不適用 |
2x2x2 | 16 | 8 | 2 | 不適用 | 不適用 |
2x4x4 | 64 | 32 | 8 | 不適用 | 不適用 |
4x4x4 | 128 | 64 | 16 | 1 | 不適用 |
4x4x8 | 256 | 128 | 32 | 2 | 是 |
4x8x8 | 512 | 256 | 64 | 4 | 是 |
8x8x8 | 1024 | 512 | 128 | 8 | 不適用 |
8x8x16 | 2048 | 1024 | 256 | 16 | 是 |
8x16x16 | 4096 | 2048 | 512 | 32 | 是 |
16x16x16 | 8192 | 4096 | 1024 | 64 | 不適用 |
16x16x24 | 12288 | 6144 | 1536 | 96 | 不適用 |
最多可使用 6144 個晶片進行單一切片訓練。您可以使用 Multislice 擴充最多 18432 個晶片。如要進一步瞭解 Multislice,請參閱 Cloud TPU Multislice 總覽。
使用 AcceleratorType 參數
分配 TPU 資源時,您可以使用 --accelerator-type
引數指定配量中的 TensorCore 數量。--accelerator-type
是格式化字串「v$VERSION_NUMBER
p-$CORES_COUNT
」。舉例來說,v5p-32
會指定具有 32 個 TensorCore (16 個晶片) 的 v5p TPU 配量。
如要為 v5p 訓練工作佈建 TPU,請在 CLI 或 TPU API 建立要求中使用下列其中一種加速器類型:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (一個完整機櫃/機架)
- v5p-256 (2 個立體)
- v5p-512
- v5p-1024 ... v5p-12288
下列指令會建立含有 256 個 v5p TensorCore (128 個晶片) 的 v5p TPU 節點,用於訓練:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5p-256 \ --version=v2-alpha-tpuv5
如要進一步瞭解如何管理 TPU,請參閱「管理 TPU」。 如要進一步瞭解 Cloud TPU 的系統架構,請參閱「系統架構」。
Cloud TPU ICI 復原能力
ICI 韌性有助於提升光纖連結和光纖電路交換器 (OCS) 的容錯能力,這些連結和交換器會連接立方體之間的 TPU。(立體結構內的 ICI 連線使用不受影響的銅線連結)。ICI 韌性可讓 ICI 連線繞過 OCS 和光學 ICI 故障路徑。因此,這項功能可提升 TPU 節點的排程可用性,但 ICI 效能會暫時下降。
與 Cloud TPU v4 類似,對於一個或多個立方體的 v5p 配量,系統預設會啟用 ICI 復原功能:
- 指定加速器類型時為 v5p-128
- 指定加速器設定時為 4x4x4
VM、主機和切片屬性
屬性 | TPU 的價值 |
v5p 晶片數量 | 4 |
vCPU 數量 | 208 (如果使用 NUMA 繫結來避免跨 NUMA 的效能損失,則只有一半可用) |
RAM (GB) | 448 (如果使用 NUMA 繫結來避免跨 NUMA 的效能懲罰,則只有一半可用) |
NUMA 節點數量 | 2 |
NIC Throughput (Gbps) | 200 |
Pod 中 TensorCore、晶片、主機/VM 和立方的數量關係:
核心 | 晶片 | 主機/VM | 方塊 | |
---|---|---|---|---|
主機 | 8 | 4 | 1 | |
Cube (又稱機架) | 128 | 64 | 16 | 1 |
支援的最大切片 | 12288 | 6144 | 1536 | 96 |
v5p 完整 Pod | 17920 | 8960 | 2240 | 140 |