Amazon SageMaker HyperPod で Slurm クラスター向けに AMI ベースのノードライフサイクル設定のサポートを開始

投稿日: 2026年5月7日

Amazon SageMaker HyperPod では、AMI ベースの設定がサポートされるようになりました。これにより、AI/ML トレーニングワークロードを実行する本番対応環境に必要なソフトウェアと設定を Slurm クラスターノードにプロビジョニングできます。これにより、ライフサイクル設定スクリプトを Amazon S3 にダウンロード、設定、またはアップロードする必要がなくなります。クラスターを準備するための運用手順が少なく、ノードのプロビジョニング中にライフサイクル設定スクリプトが実行されないため、クラスターの作成時間が大幅に短縮され、ジョブの実行をより早く開始できます。

AMI ベースの設定には、Docker、Enroot、Pyxis などの必要なソフトウェアと、Slurm アカウンティング、SSH キー生成、Slurm ログローテーション、ユーザーホームディレクトリ設定などの設定が含まれます。AMI ベースの設定を有効にするには、CreateCluster API を使用してクラスターを作成するときにインスタンスグループ設定から LifecycleConfig ブロックを省略するか、SageMaker AI コンソールを使用する場合は [カスタム設定] の [ライフサイクルスクリプト] で [なし] を選択します。AMI ベースの設定ベースラインに加えてさらにカスタマイズする場合は、拡張スクリプトを用意することで、ユーザー設定、オブザーバビリティ、LDAP 統合など、追加する機能やソフトウェアにのみ集中できます。

拡張スクリプトは、API と SageMaker AI コンソールの両方を使用してクラスターを作成するときに設定できます。CreateCluster API を使用する場合は、新しい OnInitComplete パラメーターと SourceS3Uri を LifeCycleConfig ブロックに指定します。コンソールから、カスタムセットアップの [Extension script file in S3] フィールドで拡張スクリプトの S3 URI を指定します。プロビジョニングを完全に制御する必要がある高度なユースケースでは、API と SageMaker AI コンソールの両方でカスタムライフサイクル設定スクリプトが引き続き完全にサポートされます。

この機能は、SageMaker HyperPod が利用可能なすべての AWS リージョンで利用できます。AMI ベースのノードライフサイクル設定で HyperPod Slurm クラスターの作成を開始するには、SageMaker AI デベロッパーガイドの Getting started with SageMaker HyperPod using the AWS CLI または Getting started with SageMaker HyperPod using the SageMaker AI console を参照してください。