Amazon SageMaker AI annuncia una nuova funzionalità di osservabilità per gli endpoint di inferenza

Inserito il: 18 giu 2026

La nuova funzionalità di osservabilità di Amazon SageMaker AI consente ai clienti di gestire carichi di lavoro di inferenza di IA generativa di produzione in totale sicurezza, fornendo una visibilità completa sulle prestazioni dei token, sullo stato delle GPU, sul posizionamento dei componenti di inferenza e sul comportamento del dimensionamento automatico. Elimina il lavoro manuale legato alla ricerca su CloudWatch delle metriche per singolo endpoint, alla correlazione dei picchi di latenza con la saturazione delle GPU o con l'esaurimento della cache KV e alla diagnostica dei motivi per cui le operazioni di dimensionamento risultano lente. Questa funzionalità tiene traccia delle metriche prestazionali di inferenza in tempo reale (tra cui Time to First Token, latenza inter-token, profondità della coda e token al secondo) e le mostra insieme allo stato dell'infrastruttura, consentendo ai clienti di identificare e risolvere i problemi in pochi minuti anziché in ore.

L'osservabilità dettagliata di SageMaker AI trasforma il modo in cui i clienti monitorano e ottimizzano il proprio parco di inferenza. La nuova dashboard preconfigurata SageMaker AI Insights in Amazon CloudWatch offre una vista unica su latenza dei token, utilizzo delle GPU, conteggio delle copie dei componenti di inferenza, eventi di dimensionamento e analisi dei cold start, con metriche native di OpenTelemetry pubblicate automaticamente e senza richiedere alcuna strumentazione aggiuntiva. Ciò consente ai team di diagnosticare rapidamente il degrado del TTFT, verificare la conformità delle zone di disponibilità e ottimizzare le policy di dimensionamento automatico. I clienti che hanno standardizzato i propri processi su strumenti di osservabilità come Grafana possono connettersi direttamente utilizzando l'endpoint PromQL regionale e importare un modello di dashboard preconfigurato. Questa funzionalità aiuta i clienti a gestire in autonomia i problemi operativi e a massimizzare il rendimento dei propri investimenti nell'IA.

L'osservabilità dell'inferenza di SageMaker AI è disponibile nelle seguenti regioni AWS: Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Stati Uniti occidentali (California settentrionale), Canada (Centrale), Sud America (San Paolo), Europa (Irlanda), Europa (Francoforte), Europa (Londra), Europa (Stoccolma), Europa (Zurigo), Asia Pacifico (Mumbai), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Asia Pacifico (Seul) e Asia Pacifico (Giacarta). Per saperne di più, consulta la documentazione e la pagina web di Amazon SageMaker AI.