O Amazon SageMaker AI anuncia novo recurso de observabilidade para endpoints de inferência
O novo recurso de observabilidade do Amazon SageMaker AI permite que os clientes operem workloads de inferência de IA generativa de produção com confiança, fornecendo visibilidade abrangente do desempenho do token, da integridade da GPU, do posicionamento dos componentes de inferência e do comportamento de escalonamento automático. Isso elimina o trabalho manual de pesquisar métricas por endpoint no CloudWatch, correlacionar os picos de latência com a saturação da GPU ou o esgotamento do cache KV e diagnosticar por que as operações de escalabilidade estão lentas. Esse recurso rastreia métricas de desempenho de inferência em tempo real, incluindo Time to First Token, latência entre tokens, profundidade da fila e tokens por segundo, e as apresenta junto com a integridade da infraestrutura para que os clientes possam identificar e resolver problemas em minutos, em vez de horas.
A observabilidade detalhada do Amazon SageMaker AI transforma a forma como os clientes monitoram e otimizam sua frota de inferências. O novo painel pré-construído do SageMaker AI Insights no Amazon CloudWatch oferece aos clientes latência de token, utilização de GPU, contagem de cópias de componentes de inferência, eventos de escalabilidade e detalhamentos de inicialização a frio em uma única visualização com métricas nativas do OpenTelemetry publicadas automaticamente, sem necessidade de instrumentação. Isso permite que as equipes diagnostiquem rapidamente a degradação do TTFT, verifiquem a conformidade da zona de disponibilidade e ajustem as políticas de escalonamento automático. Clientes que padronizaram ferramentas de observabilidade como o Grafana podem se conectar diretamente usando o endpoint regional PromQL e importar um modelo de painel pré-configurado. Esse recurso ajuda os clientes a atenderem os problemas operacionais por conta própria e a maximizar o desempenho de seus investimentos em IA.
A observabilidade de inferência do SageMaker IA está disponível nas seguintes regiões da AWS: Leste dos EUA (N. Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Oeste dos EUA (N. da Califórnia), Canadá (Centro), América do Sul (São Paulo), Europa (Irlanda), Europa (Frankfurt), Europa (Londres), Europa (Estocolmo), Europa (Zurique), Ásia-Pacífico (Mumbai), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Ásia-Pacífico (Seul) e Ásia-Pacífico (Jacarta). Para saber mais, visite a documentação e a página da web do Amazon SageMaker AI.