Amazon SageMaker HyperPod が Slurm でオーケストレーションされたクラスターでの継続的プロビジョニングのサポートを開始
Amazon SageMaker HyperPod で、継続的プロビジョニングのサポートが拡張され、Slurm オーケストレーターを使用するクラスターでも利用できるようになりました。これにより、大規模な AI/ML トレーニングワークロードを実行するエンタープライズのお客様の柔軟性と効率が向上しました。Slurm ベースのクラスターを実行している AI/ML のお客様は、トレーニングを迅速に開始し、シームレスにスケールし、運用を中断することなくメンテナンスを実行し、クラスターの運用を詳細に把握する必要があります。以前は、インスタンスグループを完全にプロビジョニングできなかった場合、クラスターの作成またはスケーリングの操作全体が失敗してロールバックされ、遅延が発生し、手動による介入が必要でした。
Slurm での継続的プロビジョニングにより、SageMaker HyperPod はバックグラウンドで残りの容量を自動的にプロビジョニングします。トレーニングジョブは利用可能なインスタンスですぐに開始できます。システムは優先度ベースのプロビジョニングを使用して最初に Slurm コントローラーノードを起動し、次にログインノードとワーカーノードを並行して起動します。これにより、クラスターはできるだけ早く動作状態になります。HyperPod は、障害が発生したノードの起動を非同期で再試行し、利用可能になると自動的に Slurm クラスターにノードを追加します。これにより、手動による介入なしでもクラスターが確実に目的のスケールに達します。複数のインスタンスグループで同時に非ブロッキングのスケーリング操作を実行できるようになりました。1 つのインスタンスグループで容量が不足しても、他のインスタンスグループのスケーリングが妨げられることはありません。これらの機能により、お客様はトレーニングにかかる時間を短縮し、リソースを最大限に活用し、インフラストラクチャ管理ではなくイノベーションに集中できます。
この機能は、Slurm オーケストレーターを使用する新しい SageMaker HyperPod クラスターで使用できます。CreateCluster API を使用して新しい HyperPod クラスターを作成するときに NodeProvisioningMode パラメータを「Continuous」に設定することで、継続的プロビジョニングを有効にできます。継続的プロビジョニングは、AWS CLI と SageMaker AI コンソールを使用して新しいクラスターを作成するときにも有効にできます。
この機能は、Amazon SageMaker HyperPod がサポートされているすべての AWS リージョンで利用できます。Slurm クラスターの継続的プロビジョニングの詳細については、Amazon SageMaker HyperPod のユーザーガイドを参照してください。