Amazon Bedrock AgentCore が、本番環境のエージェントを継続的に改善する新しい最適化機能を導入
本日、AWS は、本番環境のトレースをエージェントの継続的な改善へと変える、AgentCore の新しい最適化機能を発表しました。エージェントの最も危険な障害は、エラーを引き起こす障害ではありません。ダッシュボード上では問題なさそうに見える、サイレントな障害です。そうした障害はエラー信号を発することがないため、多くの場合、数週間後に顧客からの苦情として表面化します。AgentCore は、エージェントが何を行っているかを理解し、データに基づいた修正を生成し、それらが機能することを証明するループによって、こうしたギャップを解消します。
エージェントの行動を理解するために、AgentCore は数百のセッションにわたる障害、インテント、軌跡のインサイトを表面化させ、ダッシュボードや 1 つずつのトレースレビューではとらえられないパターンを明らかにします。障害インサイトは、サイレントな動作障害を含む繰り返し発生する障害パターンを発見し、それぞれの根本原因を説明して、それらがどれほど広がっているかによってランク付けするため、チームは最も多くのユーザーに悪影響を与えている問題から優先して修正できます。インテントインサイトは、ユーザーが何をしようとしていたかごとにリクエストをクラスター化し、軌跡インサイトはタスクを通じてエージェントがたどるパスをグループ化して、一般的なパターンや異常値を明らかにします。お客様は、継続的モニタリングを有効にしたり、ターゲットを絞った調査を数分で実施したりできます。自信を持って問題を修正するために、レコメンデーションはトレースと評価結果を分析して、エージェントの実際の動作に基づいて、システムプロンプトやツールの説明に対する具体的な改善策を提案します。各レコメンデーションには、観察された障害に関連する明確な根拠が含まれており、すぐに検証できる状態になっています。これは一般的な提案ではなく、本番データから導き出されたターゲットを絞った変更です。変更がユーザーに届く前に、バッチ評価により、定義されたテストデータセットに対してレコメンデーションがテストされ、複数の評価者の集計スコアが報告されるので、リグレッションを早期に検出できます。お客様が 「良い」 状態とは何かを定義し、その基準に照らしてバッチ評価が各候補の変更点を大規模に測定します。その後、A/B テストによって実際の条件下で改善が維持されることを確認し、ライブの本番トラフィックを分割して成果を並べて測定することにより、エージェントバージョン間で制御された比較を実行します。これにより、お客様がフリート全体への展開を確約する前に、テストデータのみでなく、本番環境で変更が実際に機能するという統計的な証拠が得られます。これらの機能は、エージェントがどこで実行されているかに関係なく、AgentCore Runtime、AWS Lambda、Amazon EKS、または AWS 以外の環境のいずれでも動作します。
障害、インテント、軌跡に関するインサイトは、本日より 13 の AWS リージョンでプレビュー版としてご利用いただけます。 現在、バッチ評価、レコメンデーション、A/B テストは 14 の AWS リージョンで一般提供が開始されています。詳細については、Amazon Bedrock AgentCore にアクセスするか、ドキュメントを参照してください。