Amazon SageMaker HyperPod で制限付きインスタンスグループの包括的なオブザーバビリティの提供を開始
Amazon SageMaker HyperPod で、制限付きインスタンスグループ (RIG) の包括的なオブザーバビリティが提供されるようになりました。これにより、チームは Nova Forge で基盤モデルをトレーニングし、コンピューティングリソースとトレーニングワークロードを詳細に把握できます。この新機能により、インフラストラクチャスタック全体でメトリクスを手動で収集して関連付ける必要がなくなり、Amazon Managed Service for Prometheus に支えられた事前設定済みの Amazon Managed Grafana ダッシュボードを通じて、GPU パフォーマンス、システムの状態、ネットワークスループット、Kubernetes クラスターの状態を一元的に確認できます。
GPU 使用率、NVLink 帯域幅、CPU プレッシャー、FSx for Lustre の使用状況、ポッドのライフサイクルを 1 つの Grafana ダッシュボードでモニタリングできるようになりました。メトリクスは、GPU パフォーマンス、ホストレベルのシステムの状態、ネットワークファブリック、Kubernetes オブジェクトの状態をカバーする 4 つのエクスポーターから収集されます。さらに、エポックの進捗状況、ステップレベルのトレーニングログ、パイプラインエラー、Python トレースバックなど、厳選されたログがこれらのダッシュボードに自動的に表示されるため、トレーニングの失敗をすばやく診断できます。制限付きインスタンスグループの HyperPod オブザーバビリティは、RIG を使用して新しいクラスターを作成すると自動的に有効になります。また、HyperPod クラスター管理コンソールで数回クリックするだけで既存のクラスターに対して有効にすることもできます。
Amazon SageMaker HyperPod RIG オブザーバビリティは、SageMaker HyperPod RIG がサポートされているすべての AWS リージョンで利用できます。詳細については、ドキュメントをご覧ください。