Amazon SageMaker AI Umumkan Kemampuan Observabilitas Baru untuk Titik Akhir Inferensi

Dikirim di: 18 Jun 2026

Kemampuan observabilitas baru Amazon SageMaker AI memungkinkan pelanggan untuk mengoperasikan beban kerja inferensi AI generatif produksi dengan percaya diri dengan memberikan visibilitas komprehensif ke dalam kinerja token, kesehatan GPU, penempatan komponen inferensi, dan perilaku penskalaan otomatis. Ini menghilangkan pekerjaan manual dalam mencari metrik per-titik akhir di CloudWatch, mengkorelasikan lonjakan latensi dengan saturasi GPU atau kehabisan cache KV, dan mendiagnosis mengapa operasi penskalaan berjalan lambat. Kemampuan ini melacak metrik kinerja inferensi secara real-time, termasuk Waktu ke Token Pertama, latensi antar-token, kedalaman antrean, dan token per detik, serta menampilkannya bersamaan dengan kesehatan infrastruktur sehingga pelanggan dapat mengidentifikasi dan menyelesaikan masalah dalam hitungan menit, bukan jam.

Observabilitas terperinci SageMaker AI mengubah cara pelanggan memantau dan mengoptimalkan armada inferensi mereka. Dasbor SageMaker AI Insights bawaan baru di Amazon CloudWatch memberi pelanggan latensi token, pemanfaatan GPU, jumlah salinan komponen inferensi, peristiwa penskalaan, dan rincian cold start dalam satu tampilan dengan metrik asli OpenTelemetry yang dipublikasikan secara otomatis, tanpa memerlukan instrumentasi. Hal ini memungkinkan tim untuk dengan cepat mendiagnosis penurunan TTFT, memverifikasi kepatuhan zona ketersediaan, dan menyesuaikan kebijakan penskalaan otomatis. Pelanggan yang telah menggunakan tool observabilitas standar seperti Grafana dapat terhubung langsung menggunakan titik akhir PromQL regional dan mengimpor templat dasbor yang telah dikonfigurasi sebelumnya. Kemampuan ini membantu pelanggan mengatasi sendiri masalah operasional dan memaksimalkan kinerja investasi AI mereka.

Observabilitas SageMaker AI Inference tersedia di AWS Region berikut: AS Timur (Virginia Utara), AS Timur (Ohio), AS Barat (Oregon), AS Barat (California Utara), Kanada (Pusat), Amerika Selatan (Sao Paulo), Eropa (Irlandia), Eropa (Frankfurt), Eropa (London), Eropa (Stockholm), Eropa (Zürich), Asia Pasifik (Mumbai), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Tokyo), Asia Pasifik (Seoul), dan Asia Pasifik (Jakarta). Untuk mempelajari lebih lanjut, kunjungi halaman web Dokumentasi dan Amazon SageMaker AI.