SageMaker HyperPod 中的 Amazon EKS 支援入門 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 中的 Amazon EKS 支援入門

除了 SageMaker HyperPod 的一般使用 SageMaker HyperPod 的先決條件功能之外,請檢查使用 Amazon EKS 協調 SageMaker HyperPod 叢集的下列需求和考量事項。

需求

注意

在建立 HyperPod 叢集之前,您需要使用 VPC 設定並使用 Helm 安裝的執行中 Amazon EKS 叢集。

佈建 Amazon EKS 叢集時,請考慮下列事項:

  1. Kubernetes 版本支援

    • SageMaker HyperPod 支援 Kubernetes 版本 1.28、1.29、1.30、1.31 和 1.32。

  2. Amazon EKS 叢集身分驗證模式

    • SageMaker HyperPod 支援的 Amazon EKS 叢集身分驗證模式為 APIAPI_AND_CONFIG_MAP

  3. 聯網

  4. IAM 角色

  5. Amazon EKS 叢集附加元件

    • 您可以繼續使用 Amazon EKS 提供的各種附加元件,例如 Kube-proxyCoreDNSAmazon VPC Container Network Interface (CNI) 外掛程式、Amazon EKS Pod 身分、GuardDuty 代理程式、Amazon FSx Container Storage Interface (CSI) 驅動程式、Amazon S3 CSI 驅動程式掛載點、 AWS Ditro for OpenTelemetry 和 CloudWatch 可觀測性代理程式。

使用 Amazon EKS 設定 SageMaker HyperPod 叢集的考量事項

  • 您必須根據節點的類型使用不同的 IAM 角色。針對 HyperPod 節點,請使用以 為基礎的角色SageMaker HyperPod 的 IAM 角色。如需 Amazon EKS 節點,請參閱 Amazon EKS 節點 IAM 角色

  • 您無法將其他 EBS 磁碟區直接掛載到在 HyperPod 叢集節點上執行的 Pod。反之,您需要使用 InstanceStorageConfigs 將其他 EBS 磁碟區佈建和掛載到 HyperPod 節點。請務必注意,建立或更新 HyperPod 叢集時,您只能將額外的 EBS 磁碟區連接至新的執行個體群組。使用這些額外的 EBS 磁碟區設定執行個體群組後,您需要在 Amazon EKS Pod 組態檔案中設定 的本機路徑/opt/sagemaker,才能將磁碟區正確掛載至 Amazon EKS Pod。

  • 您可以在 HyperPod 節點上部署 Amazon EBS CSI (容器儲存介面) 控制器。不過,有助於掛載和卸載 EBS 磁碟區的 Amazon EBS CSI 節點 DaemonSet 只能在非 HyperPod 執行個體上執行。

  • 如果您使用執行個體類型標籤來定義排程限制,請確定您使用字首為 的 SageMaker AI ML 執行個體類型ml.。例如,對於 P5 執行個體,請使用 ml.p5.48xlarge而非 p5.48xlarge

使用 Amazon EKS 設定 SageMaker HyperPod 叢集網路的考量事項

  • 每個 HyperPod 叢集執行個體都支援一個彈性網路界面 (ENI)。如需每個執行個體類型的 Pod 數量上限,請參閱下表。

    執行個體類型 Pod 數量上限
    ml.p4d.24xlarge 49
    mlp4d.24xlarge 49
    ml.p5.48xlarge 49
    ml.trn1.32xlarge 49
    ml.trn1n.32xlarge 49
    ml.g5.xlarge 14
    ml.g5.2xlarge 14
    ml.g5.4xlarge 29
    ml.g5.8xlarge 29
    ml.g5.12xlarge 49
    ml.g5.16xlarge 29
    ml.g5.24xlarge 49
    ml.g5.48xlarge 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xlarge 29
    ml.c5.18xlarge 49
    ml.c5.24xlarge 49
    ml.c5n.large 9
    ml.c5n.2xlarge 14
    ml.c5n.4xlarge 29
    ml.c5n.9xlarge 29
    ml.c5n.18xlarge 49
    ml.m5.large 9
    ml.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    ml.t3.medium 5
    ml.t3.large 11
    ml.t3.xlarge 14
    ml.t3.2xlarge 14
    ml.g6.xlarge 14
    ml.g6.2xlarge 14
    ml.g6.4xlarge 29
    ml.g6.8xlarge 29
    ml.g6.12xlarge 29
    ml.g6.16xlarge 49
    ml.g6.24xlarge 49
    ml.g6.48xlarge 49
    ml.gr6.4xlarge 29
    ml.gr6.8xlarge 29
    ml.g6e.xlarge 14
    ml.g6e.2xlarge 14
    ml.g6e.4xlarge 29
    ml.g6e.8xlarge 29
    ml.g6e.12xlarge 29
    ml.g6e.16xlarge 49
    ml.g6e.24xlarge 49
    ml.g6e.48xlarge 49
    ml.p5e.48xlarge 49
  • 根據預設,只有具有 的 Pod hostNetwork = true可以存取 Amazon EC2 執行個體中繼資料服務 (IMDS)。使用 Amazon EKS Pod 身分或服務帳戶 (IRSA) 的 IAM 角色來管理對 Pod AWS 登入資料的存取。

  • EKS 協調的 HyperPod 叢集支援雙 IP 定址模式,允許在啟用 IPv6 的 VPC 和子網路環境中使用 IPv4 或 IPv6 for IPv6 Amazon EKS 叢集進行組態。 IPv6-enabled 如需詳細資訊,請參閱使用自訂 Amazon VPC 設定 SageMaker HyperPod

使用 HyperPod 叢集彈性功能的考量事項

  • CPU 執行個體不支援節點自動取代。

  • 需要安裝 HyperPod 運作狀態監控代理程式,節點自動復原才能運作。您可以使用 Helm 安裝代理程式。如需詳細資訊,請參閱使用 Helm 在 Amazon EKS 叢集上安裝套件

  • HyperPod 深度運作狀態檢查和運作狀態監控代理程式支援 GPU 和 Trn 執行個體。

  • SageMaker AI 會在節點進行深層運作狀態檢查時套用下列污點:

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    注意

    您無法在DeepHealthChecks開啟 的情況下,將自訂污點新增至執行個體群組中的節點。

Amazon EKS 叢集執行後,請先依照 中的說明使用 Helm 套件管理員設定叢集,使用 Helm 在 Amazon EKS 叢集上安裝套件再建立 HyperPod 叢集。