Compute Engine 提供圖形處理器 (GPU),您可以將這些 GPU 加入到您的虛擬機器 (VM)。您可以使用這些 GPU 來加速處理 VM 上的特定工作負載,例如機器學習和資料處理。
您也可以在 AI Hypercomputer 上使用部分 GPU 機器類型。AI Hypercomputer 是一套超級運算系統,經過最佳化處理,可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。建議您使用這個選項建立密集分配的基礎架構,並整合 Google Kubernetes Engine (GKE) 和 Slurm 排程器,以達到最佳效能。
本文概要說明建立附加 GPU 的 VM 時,需要執行的步驟。
如要進一步瞭解 Compute Engine 上的 GPU,請參閱「關於 GPU」一文。
選取 GPU 型號
如需可用 GPU 型號的清單,請參閱 GPU 平台。此外,請記下所選 GPU 型號支援的機器類型。
此外,您也可以查看下列各項資訊:
限制
除了所有搭載 GPU 的 VM 限制外,每個附加 GPU 的機器系列都有下列限制:
A4 VM
A3 Ultra VM
- 您只能使用 A3 Ultra 機型支援的佈建選項要求容量。
- 使用 A3 Ultra 機器類型的 VM 不適用續用折扣和彈性承諾使用折扣。
- 您只能在特定區域和可用區使用 A3 Ultra 機型。
- 您無法在採用 A3 Ultra 機器類型的 VM 上使用 永久磁碟 (區域或可用區)。
- A3 Ultra 機器類型僅適用於 Emerald Rapids CPU 平台。
- 您無法將現有 VM 的機器類型變更為 A3 Ultra 機器類型。您只能建立新的 A3-ultra VM。使用 A3 Ultra 機器類型建立 VM 後,就無法變更機器類型。
- A3 Ultra 機型不支援單一租戶。
- 您無法在 A3 Ultra 機型上執行 Windows 作業系統。
A3 Mega VM
- 您只能使用 A3 Mega 機型支援的佈建選項要求容量。
- 使用 A3 Mega 機器類型的 VM 不適用續用折扣和彈性承諾使用折扣。
- 您只能在特定區域和可用區使用 A3 Mega 機器類型。
- 您無法在採用 A3 Mega 機器類型的 VM 上使用區域性永久磁碟。
- A3 Mega 機器類型僅適用於 Sapphire Rapids CPU 平台。
- 您無法將現有 VM 的機器類型變更為 A3 Mega 機器類型。您只能建立新的 A3-mega VM。使用 A3 Mega 機器類型建立 VM 後,就無法變更機器類型。
- A3 Mega 機型不支援單一租戶。
- 您無法在 A3 Mega 機器類型上執行 Windows 作業系統。
A3 High VM
- 您只能使用 A3 High 機型的支援佈建選項要求容量。
- 使用 A3 High 機型的 VM 不適用續用折扣和彈性承諾使用折扣。
- 您只能在特定區域和可用區使用 A3 High 機型。
- 您無法在採用 A3 High 機型的 VM 上使用地區永久磁碟。
- A3 High 機型僅適用於 Sapphire Rapids CPU 平台。
- 您無法將現有 VM 的機器類型變更為 A3 High 機器類型。您只能建立新的 A3 高 VM。使用 A3 High 機器類型建立 VM 後,就無法變更機器類型。
- A3 High 機型不支援單一用戶群。
- 您無法在 A3 High 機型上執行 Windows 作業系統。
a3-highgpu-1g
、a3-highgpu-2g
和a3-highgpu-4g
機器類型有以下限制:-
如要使用這些機器類型,您必須透過 Spot VM 或動態工作負載排程器 (DWS) 建立 VM,例如 MIG 中的調整大小要求。如需這兩種方式的詳細操作說明,請參閱下列文章:
- 如要建立 Spot VM,請在建立加速器最佳化 VM 時,將佈建模式設為
SPOT
。 - 如要在使用 DWS 的 MIG 中建立規模調整要求,請參閱建立含 GPU VM 的 MIG。
- 如要建立 Spot VM,請在建立加速器最佳化 VM 時,將佈建模式設為
- 您無法搭配使用 Hyperdisk Balanced 與這些機器類型。
- 無法建立預訂。
-
如要使用這些機器類型,您必須透過 Spot VM 或動態工作負載排程器 (DWS) 建立 VM,例如 MIG 中的調整大小要求。如需這兩種方式的詳細操作說明,請參閱下列文章:
A3 Edge VM
- 您只能使用 A3 Edge 機型支援的佈建選項要求容量。
- 使用 A3 Edge 機型的 VM 不適用續用折扣和彈性承諾使用折扣。
- 您只能在特定區域和可用區使用 A3 Edge 機器類型。
- 您無法在採用 A3 Edge 機型的 VM 上使用區域永久磁碟。
- A3 Edge 機器類型僅適用於 Sapphire Rapids CPU 平台。
- 您無法將現有 VM 的機器類型變更為 A3 Edge 機器類型。您只能建立新的 A3-edge VM。使用 A3 Edge 機器類型建立 VM 後,就無法變更機器類型。
- A3 Edge 機器類型不支援單一租戶。
- 您無法在 A3 Edge 機器類型上執行 Windows 作業系統。
A2 Standard VM
- 您只能使用 A2 Standard 機器類型的支援佈建選項要求容量。
- 使用 A2 Standard 機器類型的 VM 不適用續用折扣和彈性承諾使用折扣。
- 您只能在特定區域和可用區使用 A2 Standard 機器類型。
- A2 Standard 機器類型僅適用於 Cascade Lake 平台。
- 如果 VM 使用 A2 Standard 機器類型,您只能從一個 A2 Standard 機器類型切換至另一個 A2 Standard 機器類型。您無法變更為任何其他機器類型。 詳情請參閱「修改加速器最佳化 VM」。
- 您無法在 <codea2-megagpu-16g< code="" dir="ltr" translate="no"> A2 Standard 機器類型上使用 Windows 作業系統。使用 Windows 作業系統時,請選擇其他 A2 Standard 機器類型。</codea2-megagpu-16g<>
- 如果 Windows VM 使用 A2 Standard 機器類型,您就無法快速格式化所連線的本機 SSD。如要格式化這些本機 SSD,請使用 diskpart 公用程式並指定
format fs=ntfs label=tmpfs
,執行完整格式化。 - A2 Standard 機型不支援單一租戶。
A2 Ultra VM
- 您只能使用 A2 Ultra 機器類型的支援佈建選項要求容量。
- 使用 A2 Ultra 機型時,VM 不會享有續用折扣和彈性承諾使用折扣。
- 您只能在特定區域和可用區使用 A2 Ultra 機型。
- A2 Ultra 機型僅適用於 Cascade Lake 平台。
- 如果 VM 使用 A2 Ultra 機器類型,就無法變更機器類型。如要使用其他 A2 Ultra 機器類型或任何其他機器類型,請建立新的 VM。
- 您無法將任何其他機器類型變更為 A2 Ultra 機器類型。如需使用 A2 Ultra 機器類型的 VM,請建立新的 VM。
- 如果 Windows VM 使用 A2 Ultra 機型,您就無法快速格式化所連線的本機 SSD。如要格式化這些本機 SSD,請使用 diskpart 公用程式並指定
format fs=ntfs label=tmpfs
,執行完整格式化。
G2 VM
- 您只能使用 G2 機器類型的支援佈建選項,要求容量。
- 使用 G2 機器類型的 VM 不適用續用折扣和彈性承諾使用折扣。
- G2 機器類型僅適用於特定區域和可用區。
- G2 機器類型僅適用於 Cascade Lake 平台。
- 使用 G2 標準機器類型的 VM 不支援標準永久磁碟 (
pd-standard
)。如要瞭解支援的磁碟類型,請參閱「G2 支援的磁碟類型」。 - 您無法在 G2 機器類型上建立多重執行個體 GPU。
- 如要變更 G2 VM 的機器類型,請參閱「修改加速器最佳化 VM」。
- 您無法將深度學習 VM 映像檔做為使用 G2 機器類型的 VM 開機磁碟。
- Container-Optimized OS 目前的預設驅動程式不支援在 G2 機型上執行的 L4 GPU。Container-Optimized OS 也只支援特定驅動程式。如要在 G2 機器類型上使用 Container-Optimized OS,請參閱下列注意事項:
- 使用支援最低建議 NVIDIA 驅動程式版本
525.60.13
以上的 Container-Optimized OS 版本。詳情請參閱 Container-Optimized OS 版本資訊。 - 安裝驅動程式時,請指定適用於 L4 GPU 的最新版本。例如:
sudo cos-extensions install gpu -- -version=525.60.13
。
- 使用支援最低建議 NVIDIA 驅動程式版本
- 您必須使用 Google Cloud CLI 或 REST,才能在下列情境中建立 G2 VM:
- 您想指定自訂記憶體值。
- 您想自訂可見的 CPU 核心數量。
N1+GPU VM
如要瞭解搭載 GPU 的 N1 執行個體限制,請參閱 N1 機器系列的功能和 N1 機器系列的 GPU。
選擇作業系統
如果您要使用 GPU 進行機器學習,請使用下列其中一種作業系統:
- 經過最佳化處理,可執行 AI 工作負載的映像檔。您可以使用 Ubuntu 和 Rocky 映像檔,這些映像檔提供經過加速器最佳化的版本,且預先安裝了驅動程式和 CUDA 工具包。請參閱 AI 超級電腦說明文件中的「OS 映像檔」。
- 深度學習 VM 映像檔。每個深度學習 VM 都具備 GPU 驅動程式安裝工具,並包含 TensorFlow 和 PyTorch 等套件。您也可以將深度學習 VM 用於一般 GPU 工作負載。如要進一步瞭解可用的映像檔,以及映像檔上安裝的套件,請參閱「選擇映像檔」。
或者,您也可以使用任何公開映像檔或自訂映像檔。請注意,部分映像檔可能需要特別的驅動程式,或安裝程序超出 Compute Engine 說明文件的範圍。如要瞭解哪些驅動程式適用於您的 OS 映像檔,請參閱安裝 GPU 驅動程式一節。
查看 GPU 配額
為保護 Compute Engine 系統和使用者,新專案有全域 GPU 配額,這會限制您可在任何支援區域中建立的 GPU 總數。如要查看 GPU 配額,請參閱「GPU 配額」一文。
如果需要更多 GPU 配額,請參閱申請提高配額的相關說明。要求 GPU 配額時,您必須為要在各個地區建立的 GPU 類型要求配額,並依據所有區域中各類 GPU 的總數要求額外的全域配額。
如果您的專案已建立帳單記錄,那麼當您提交要求之後,專案就會自動獲得配額。
GPU VM 和先占分配配額
使用標準佈建模式的 VM 通常無法使用先占分配配額。先占配額適用於臨時工作負載,通常較容易取得。如果專案沒有先占配額,且您從未要求先占配額,則專案中的所有 VM 都會消耗標準分配配額。
如果您要求先佔配置配額,則使用標準佈建模型的 VM 必須符合下列所有條件,才能消耗先佔配置配額:
- VM 已連接 GPU。
- VM 會透過
maxRunDuration
或terminationTime
欄位設定,在預先定義的執行時間過後自動刪除。詳情請參閱下列說明: - VM 無法使用預留項目。詳情請參閱「禁止運算執行個體使用預留項目」。
當您為有時間限制的 GPU 工作負載使用先占分配量時,可以同時享有不間斷的執行時間,以及先占分配量配額的高取得率。詳情請參閱「先佔配額」。
建立連接 GPU 的 VM
如要建立連接 GPU 的 VM,請完成下列步驟:
建立 VM。建立 VM 的方法取決於選取的 GPU 型號。
- 如要建立已連結 NVIDIA B200 或 H200 GPU 的 VM,請參閱「建立 A3 Ultra 或 A4 VM」。
- 如要建立搭載 NVIDIA H100、A100 或 L4 GPU 的 VM,請參閱「建立 A3、A2 或 G2 VM」。
- 如要建立搭載 NVIDIA T4、P4、P100 或 V100 GPU 的 VM,請參閱「建立搭載 GPU 的 N1 VM」。
如要讓 VM 使用 GPU,您需要在 VM 上安裝 GPU 驅動程式。如果您已啟用 NVIDIA RTX 虛擬工作站 (舊稱 NVIDIA GRID),請安裝虛擬工作站的驅動程式。
後續步驟
進一步瞭解 GPU 平台。
進一步瞭解使用 GPU 的功能和限制。
- 瞭解如何查看 GPU 的實際和預測用量。