Amazon SageMaker AI が推論エンドポイント向けの新しいオブザーバビリティ機能を発表
Amazon SageMaker AI に新しいオブザーバビリティ機能が追加され、トークンのパフォーマンス、GPU の状態、推論コンポーネントの配置、自動スケーリングの動作を包括的に可視化できるようになりました。これにより、お客様は本番環境の生成 AI 推論ワークロードを安心して運用できます。CloudWatch でエンドポイントごとのメトリクスを検索したり、レイテンシースパイクを GPU の飽和や KV キャッシュの枯渇と関連付けたり、スケーリング操作が遅い理由を診断したりするための手動の作業が不要になります。この機能では、最初のトークンまでの時間、トークン間レイテンシー、キューの深度、1 秒あたりのトークン数などの推論パフォーマンスメトリクスをリアルタイムで追跡し、インフラストラクチャの状態とともに表示するため、お客様は数時間ではなく数分で問題を特定して解決できます。
SageMaker AI の詳細なオブザーバビリティは、お客様が推論フリートをモニタリングし、最適化する方法を変革します。Amazon CloudWatch に組み込まれた新しい SageMaker AI Insights ダッシュボードでは、トークンのレイテンシー、GPU 使用率、推論コンポーネントのコピー数、スケーリングイベント、コールドスタートの内訳を 1 つのビューに表示できます。OpenTelemetry のネイティブメトリクスは自動的に公開され、インストルメンテーションは不要です。これにより、チームは TTFT の劣化を迅速に診断し、アベイラビリティーゾーンのコンプライアンスを検証し、自動スケーリングポリシーを調整できます。Grafana などのオブザーバビリティツールを標準化しているお客様は、リージョンの PromQL エンドポイントを使用して直接接続し、事前設定されたダッシュボードテンプレートをインポートできます。この機能は、お客様が運用上の問題を自身で解決し、AI 投資のパフォーマンスを最大化するのに役立ちます。
SageMaker AI Inference オブザーバビリティを利用可能な AWS リージョンは、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、米国西部 (北カリフォルニア)、カナダ (中部)、南米 (サンパウロ)、欧州 (アイルランド)、欧州 (フランクフルト)、欧州 (ロンドン)、欧州 (ストックホルム)、欧州 (チューリッヒ)、アジアパシフィック (ムンバイ)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、アジアパシフィック (ソウル)、アジアパシフィック (ジャカルタ) です。詳細については、ドキュメントと Amazon SageMaker AI のウェブページを参照してください。