Amazon SageMaker HyperPod Slurm クラスターで継続的なプロビジョニングによる最小容量要件の指定のサポートを開始
Amazon SageMaker HyperPod は、継続的なプロビジョニングによる Slurm オーケストレーションを使用するクラスターの最小容量要件 (minCount) をサポートするようになりました。継続的なプロビジョニングでは、HyperPod は利用可能な部分容量でクラスターをプロビジョニングするので、AI/ML ジョブを迅速に開始しながら、残りのインスタンスをバックグラウンドで非同期的にプロビジョニングし続けることができます。これにより柔軟性が得られますが、一部のトレーニングワークロードでは、効果的に開始するために最低限のノード数が保証されている必要があります。MinCount では、インスタンスグループが InService ステータスに移行する前に正常にプロビジョニングする必要があるインスタンスの最小数を指定できるため、クラスターがジョブスケジューリングに使用できるようになるタイミングをより細かく制御できます。
これは、PyTorch FSDP、Megatron-LM、NVIDIA Nemo などのフレームワークを使用する分散型トレーニングワークロードに特に役立ちます。トレーニングジョブは通常、参加ノード数が固定されており、クラスター容量の一部では効率的または正しく開始されない場合があります。また、トレーニングを実施する前に、SLA または費用対効果の目標を達成するためにベースラインの GPU 数を保証する必要があるチームにとってもメリットがあります。
CreateCluster または UpdateCluster API リクエストで MinInstanceCount を指定して、インスタンスグループの最小容量しきい値を設定できます。インスタンスグループは、しきい値が満たされるまで Creating または Updating ステータスのままになり、その後 InService に移行し、ノードが Slurm ジョブスケジューリングに使用できるようになります。HyperPod は、目標数に達するまで、MinCount を超えて追加のインスタンスを起動し続けます。3 時間以内に MinCount が満たされない場合、システムは自動的にインスタンスグループを前回確認された正常な状態にロールバックします。
継続的プロビジョニング機能を備えた Slurm クラスター用の MinCount は、Amazon SageMaker HyperPod がサポートされているすべての AWS リージョンで利用できます。クラスターの最小容量要件の指定を開始するには、Amazon SageMaker AI ドキュメントの「Minimum capacity requirements (MinCount)」を参照してください。