Amazon SageMaker AI 宣布推出推論端點的全新可觀測性功能
Amazon SageMaker AI 全新的可觀測性功能,透過全面掌握字符效能、GPU 健康狀態、推論元件配置和自動擴展行為,讓客戶能夠更有信心地執行正式環境中的生成式 AI 推論工作負載。它免除了手動在 CloudWatch 中搜尋各端點指標、將延遲峰值與 GPU 飽和或 KV 快取耗盡進行關聯,以及診斷為何擴展作業緩慢的工作。這項功能會即時追蹤推論效能指標,包括首個字符時間、字符間延遲、佇列深度,以及每秒字符數,並將這些資訊與基礎設施運作狀態一併呈現,讓客戶能在幾分鐘內而非數小時內找出並解決問題。
SageMaker AI 的詳細可觀測性改變了客戶監控及最佳化其推論機群的方式。Amazon CloudWatch 中全新預先建置的 SageMaker AI Insights 儀表板,會以單一檢視為客戶提供字符延遲、GPU 使用率、推論元件副本數、擴展事件,以及冷啟動明細,並自動發佈 OpenTelemetry 原生指標,無需進行儀表化。這讓團隊能快速診斷 TTFT 降低情況、驗證可用區域合規,並調校自動擴展政策。已將 Grafana 等可觀測性工具標準化的客戶,可以使用區域 PromQL 端點直接連線,並匯入預先設定的儀表板範本。這項功能可協助客戶自行處理營運問題,並將其 AI 投資的效能發揮到極致。
SageMaker AI Inference 可觀測性功能適用於以下 AWS 區域:美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、美國西部 (加利佛尼亞北部)、加拿大 (中部)、南美洲 (聖保羅)、歐洲 (愛爾蘭)、歐洲 (法蘭克福)、歐洲 (倫敦)、歐洲 (斯德哥爾摩)、歐洲 (蘇黎世)、亞太地區 (孟買)、亞太地區 (新加坡)、亞太地區 (雪梨)、亞太地區 (東京)、亞太地區 (首爾) 和亞太區域 (雅加達)。若要了解詳情,請造訪文件和 Amazon SageMaker AI 網頁。