Amazon SageMaker HyperPod 現在支援 Slurm 叢集的 AMI 型節點生命週期組態

張貼日期: 2026年5月7日

Amazon SageMaker HyperPod 現在支援 AMI 型組態,能夠在 Slurm 叢集節點上佈建生產就緒環境所需的軟體和組態,以執行 AI/ML 訓練工作負載。這使您無需下載、設定生命週期組態指令碼,或將其上傳至 Amazon S3。因為用於準備叢集的作業步驟減少,而且在節點佈建期間無須執行生命週期組態指令碼,叢集建立時間會顯著縮短,因此您可以更快地開始執行工作。

AMI 型組態包括必要的軟體,例如 Docker、Enroot 和 Pyxis,以及 Slurm 會計、SSH 金鑰產生、Slurm 日誌輪替和使用者主目錄設定等組態。若要啟用 AMI 型組態,請在使用 CreateCluster API 建立叢集時,從執行個體群組組態中忽略 LifeCycleConfig 區塊,或於使用 SageMaker AI 主控台時,在自訂設定中的生命週期指令碼下選取「無」。若要在 AMI 型組態基準之上進一步自訂,您能夠提供擴充指令碼,使您只需專注於要新增的功能和軟體,例如使用者組態、可觀測性或 LDAP 整合。

透過 API 和 SageMaker AI 主控台建立叢集時,您能夠設定擴充指令碼。使用 CreateCluster API 時,請在 LifeCycleConfig 區塊中指定新的 OnInitComplete 參數和 SourceS3Uri。若是使用主控台,請在自訂設定中的「S3 中的擴充指令碼檔案」欄位中,提供擴充指令碼的 S3 URI。對於需要完全控制佈建作業的進階使用案例,API 和 SageMaker AI 主控台仍然完全支援自訂生命週期組態指令碼。

此功能適用於提供 Amazon SageMaker HyperPod 的所有 AWS 區域。若要著手建立具有 AMI 型節點生命週期組態的 HyperPod Slurm 叢集,請參閱 SageMaker AI 開發人員指南中的透過 AWS CLI 著手使用 SageMaker HyperPod透過 SageMaker AI 主控台著手使用 SageMaker HyperPod