Amazon Bedrock AgentCore introduit de nouvelles fonctionnalités d’optimisation pour améliorer en permanence les agents en production

Publié le: 17 juin 2026

AWS annonce aujourd’hui de nouvelles fonctionnalités d’optimisation dans AgentCore qui transforment les traces de production en amélioration continue pour les agents. Les défaillances des agents les plus dangereuses ne sont pas celles qui génèrent des erreurs. Ce sont les modèles silencieux, qui s’affichent bien sur les tableaux de bord. Ces défaillances ne produisent aucun signal d’erreur et font souvent l’objet de plaintes des clients des semaines plus tard. AgentCore comble cette lacune grâce à une boucle qui permet de comprendre ce que font les agents, de générer des correctifs basés sur des données et de prouver qu’ils fonctionnent.

Pour comprendre le comportement des agents, AgentCore fournit des informations sur les défaillances, les intentions et les trajectoires au cours de centaines de sessions, révélant des modèles qu’aucun tableau de bord ni aucun examen de trace à la fois ne pourraient détecter. Les informations sur les défaillances permettent de découvrir des modèles de défaillance récurrents, y compris des défaillances comportementales silencieuses, d’expliquer la cause première de chacune d’entre elles et de les classer en fonction de leur ampleur, afin que les équipes puissent résoudre en premier lieu les problèmes qui touchent le plus les utilisateurs. Les informations sur les clusters d’intentions regroupent les demandes en fonction de ce que les utilisateurs essayaient de faire, et les informations sur les trajectoires regroupent les chemins empruntés par les agents dans le cadre d’une tâche, en mettant en évidence des modèles courants et des valeurs aberrantes. Les clients peuvent activer une surveillance continue ou mener une enquête ciblée en quelques minutes. Pour résoudre les problèmes en toute confiance, les recommandations analysent les traces et les résultats des évaluations afin de suggérer des améliorations spécifiques aux invites du système et à la description des outils, en fonction du comportement réel de l’agent. Chaque recommandation comprend une justification claire liée aux défaillances observées et est prête à être validée. Il ne s’agit pas d’une suggestion générique, mais d’un changement ciblé dérivé des données de production. Avant qu’une modification n’atteigne les utilisateurs, l’évaluation par lots teste les recommandations par rapport à un jeu de données de test défini et rapporte les scores agrégés de plusieurs évaluateurs, détectant ainsi les régressions à un stade précoce. Les clients définissent ce à quoi ressemble le terme « bon », et l’évaluation par lots mesure chaque changement candidat par rapport à cette barre d’échelle. Les tests A/B confirment ensuite que les améliorations se maintiennent dans des conditions réelles, en effectuant une comparaison contrôlée entre les versions des agents en divisant le trafic de production en direct et en mesurant les résultats côte à côte. Cela fournit des preuves statistiques qu’un changement fonctionne réellement en production, et pas seulement sur les données de test, avant que les clients ne s’engagent à le déployer sur l’ensemble de la flotte. Ces fonctionnalités marchent quel que soit l’endroit où les agents s’exécutent : sur le service d’exécution AgentCore, AWS Lambda, Amazon EKS ou dans des environnements autres qu’AWS.

Des informations sur les échecs, les intentions et les trajectoires sont disponibles en version préliminaire dès aujourd’hui dans 13 Régions AWS. Les évaluations par lots, les recommandations et les tests A/B sont généralement disponibles aujourd’hui dans 14 Régions AWS. Pour en savoir plus, rendez-vous sur Amazon Bedrock AgentCore ou consultez la documentation.