Amazon SageMaker AI 宣布推出推論端點的全新可觀測性功能

張貼日期: 2026年6月18日

Amazon SageMaker AI 全新的可觀測性功能，透過全面掌握字符效能、GPU 健康狀態、推論元件配置和自動擴展行為，讓客戶能夠更有信心地執行正式環境中的生成式 AI 推論工作負載。它免除了手動在 CloudWatch 中搜尋各端點指標、將延遲峰值與 GPU 飽和或 KV 快取耗盡進行關聯，以及診斷為何擴展作業緩慢的工作。這項功能會即時追蹤推論效能指標，包括首個字符時間、字符間延遲、佇列深度，以及每秒字符數，並將這些資訊與基礎設施運作狀態一併呈現，讓客戶能在幾分鐘內而非數小時內找出並解決問題。

SageMaker AI 的詳細可觀測性改變了客戶監控及最佳化其推論機群的方式。Amazon CloudWatch 中全新預先建置的 SageMaker AI Insights 儀表板，會以單一檢視為客戶提供字符延遲、GPU 使用率、推論元件副本數、擴展事件，以及冷啟動明細，並自動發佈 OpenTelemetry 原生指標，無需進行儀表化。這讓團隊能快速診斷 TTFT 降低情況、驗證可用區域合規，並調校自動擴展政策。已將 Grafana 等可觀測性工具標準化的客戶，可以使用區域 PromQL 端點直接連線，並匯入預先設定的儀表板範本。這項功能可協助客戶自行處理營運問題，並將其 AI 投資的效能發揮到極致。

SageMaker AI Inference 可觀測性功能適用於以下 AWS 區域：美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、美國西部 (加利佛尼亞北部)、加拿大 (中部)、南美洲 (聖保羅)、歐洲 (愛爾蘭)、歐洲 (法蘭克福)、歐洲 (倫敦)、歐洲 (斯德哥爾摩)、歐洲 (蘇黎世)、亞太地區 (孟買)、亞太地區 (新加坡)、亞太地區 (雪梨)、亞太地區 (東京)、亞太地區 (首爾) 和亞太區域 (雅加達)。若要了解詳情，請造訪文件和 Amazon SageMaker AI 網頁。

Amazon SageMaker AI 宣布推出推論端點的全新可觀測性功能

了解

資源

開發人員

說明