Amazon SageMaker AI annonce une nouvelle fonctionnalité d’observabilité pour les points de terminaison d’inférence
Cette nouvelle fonctionnalité d’observabilité d’Amazon SageMaker AI permet aux clients de gérer en toute confiance des charges de travail d’inférence basées sur l’IA générative en production en fournissant une visibilité complète sur les performances des jetons, l’état du GPU, le placement des composants d’inférence et le comportement d’autoscaling. Il permet de ne plus avoir à rechercher manuellement dans CloudWatch des métriques par point de terminaison, à corréler les pics de latence avec la saturation du GPU ou l’épuisement du cache KV et à diagnostiquer les raisons de la lenteur des opérations de mise à l’échelle. Cette fonctionnalité permet de suivre les indicateurs de performance d’inférence en temps réel, notamment le délai jusqu’au premier jeton, la latence entre les jetons, la profondeur de la file d’attente et les jetons par seconde, et les met en relation avec l’état de l’infrastructure afin que les clients puissent identifier et résoudre les problèmes en quelques minutes au lieu de plusieurs heures.
L’observabilité détaillée de SageMaker AI transforme la façon dont les clients surveillent et optimisent leur flotte d’inférence. Le nouveau tableau de bord prédéfini de SageMaker AI Insights dans Amazon CloudWatch permet aux clients d’accéder à la latence des jetons, à l’utilisation du GPU, au nombre de copies des composants d’inférence, aux événements de dimensionnement et aux pannes de démarrage à froid dans une seule vue avec des mesures natives d’OpenTelemetry publiées automatiquement, sans qu’aucune instrumentation ne soit requise. Cela permet aux équipes de diagnostiquer rapidement la dégradation du TTFT, de vérifier la conformité des zones de disponibilité et d’ajuster les politiques d’autoscaling. Les clients qui ont standardisé des outils d’observabilité tels que Grafana peuvent se connecter directement à l’aide du point de terminaison PromQL régional et importer un modèle de tableau de bord préconfiguré. Cette fonctionnalité aide les clients à résoudre eux-mêmes leurs problèmes opérationnels et à optimiser les performances de leurs investissements dans l’IA.
L’observabilité de SageMaker AI Inference est disponible dans les Régions AWS suivantes : USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), USA Ouest (Californie du Nord), Canada (Centre), Amérique du Sud (São Paulo), Europe (Irlande), Europe (Francfort), Europe (Londres), Europe (Stockholm), Europe (Zurich), Asie-Pacifique (Mumbai), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Asie-Pacifique (Séoul) et Asie-Pacifique (Jakarta). Pour en savoir plus, consultez la documentation et la page Web Amazon SageMaker AI.