Amazon SageMaker HyperPod Slurm 클러스터에서 이제 지속적인 프로비저닝을 통해 최소 용량 요구 사항 지정하기 지원

게시된 날짜: 2026년 5월 27일

Amazon SageMaker HyperPod는 이제 지속적인 프로비저닝을 사용하는 Slurm 오케스트레이션 기반 클러스터에 대해 최소 용량 요구 사항(MinCount)을 지원합니다. HyperPod는 지속적인 프로비저닝을 통해 사용 가능한 부분 용량으로 클러스터를 프로비저닝하므로 AI 및 ML 작업을 신속하게 시작하는 한편, 나머지 인스턴스는 백그라운드에서 비동기적으로 계속 프로비저닝할 수 있습니다. 그러면 유연성이 제공되지만 일부 훈련 워크로드는 보장된 최소 노드 수가 있어야 효과적으로 시작할 수 있습니다. MinCount를 사용하면 인스턴스 그룹이 InService 상태로 전환되기 전에 성공적으로 프로비저닝되어야 하는 최소 인스턴스 수를 지정할 수 있으므로 클러스터를 작업 예약에 사용할 수 있게 되는 시점을 더욱 잘 제어할 수 있습니다.

PyTorch FSDP, Megatron-LM 또는 NVIDIA NeMo 같은 프레임워크를 사용하는 분산 훈련 워크로드에 특히 유용합니다. 여기에서 훈련 작업은 일반적으로 고정된 개수의 참여 노드로 구성되며 부분 클러스터 용량만 사용될 경우 효율적으로 또는 제대로 시작되지 않을 수 있습니다. 그리고 SLA 또는 비용 효율성 목표를 충족하기 위해 훈련 실행 전에 기준 GPU 수를 확보해야 하는 팀에게도 유용합니다.

CreateCluster 또는 UpdateCluster API 요청에서 MinInstanceCount를 지정하여 한 인스턴스 그룹의 최소 용량 임곗값을 설정할 수도 있습니다. 인스턴스 그룹은 임곗값에 도달할 때까지 Creating 또는 Updating 상태를 유지하다가 임곗값이 충족되면 InService 상태로 전환되고 노드는 Slurm 작업 예약에 사용할 수 있게 됩니다. HyperPod는 목표 수에 도달할 때까지 MinCount 이후에도 계속 추가 인스턴스를 실행합니다. 3시간 이내에 MinCount를 충족하지 못하면 시스템은 자동으로 인스턴스 그룹을 마지막으로 알려진 정상 상태로 롤백합니다.

지속적인 프로비저닝이 가능한 Slurm 클러스터의 MinCount는 Amazon SageMaker HyperPod가 지원되는 모든 AWS 리전에서 사용할 수 있습니다. 클러스터의 최소 용량 요구 사항 지정하기를 시작하려면 Amazon SageMaker AI 설명서의 Minimum capacity requirements (MinCount)(최소 용량 요구 사항(MinCount))를 참조하세요.