Amazon SageMaker AI が AI エージェントモデルのカスタマイズに利用できるマルチターン強化学習の提供を開始

投稿日: 2026年6月3日

Amazon SageMaker AI で、マルチターン強化学習 (RL) の提供が開始されました。これは、複数ステップのエージェントタスクでモデルをファインチューニングするための、新しいサーバーレスのモデルカスタマイズ手法です。 SageMaker AI のモデルカスタマイズを利用すると、教師ありファインチューニング、検証可能な報酬による強化学習 (RLVR)、AI フィードバックによる強化学習 (RLAIF) などの手法を使用して、基盤モデルを適応させることができます。独自のトレーニングインフラストラクチャを構築して運用するような、画一的で面倒な作業が不要になります。マルチターン RL は既存のモデルカスタマイズ機能を拡張するもので、自社のエージェント環境でモデルをトレーニングし、エージェントがタスク全体で下す一連の決定に報酬を与えます。これは、目的のワークロードにおいて低コストの小規模モデルを専門化させ、汎用の大規模モデルと同等またはそれを上回るタスク精度を実現するのに役立ちます。

エージェントが複数ステップのタスクを安定的に完了できるようモデルをトレーニングするのは複雑で、時間がかかり、構築に数週間かかるカスタムのインフラストラクチャを要することが多くあります。SageMaker のマルチターン RL ソリューションは、お客様に代わってこれらを処理します。フルマネージドホスティングの場合は、Amazon Bedrock AgentCore Runtime で実行されているエージェントを接続できます。また、お好みのフレームワークを使用して、Amazon EKS、Amazon EC2、AWS Fargate などの任意のインフラストラクチャで実行されているエージェントを接続することもできます。SageMaker AI は、ロールアウトのオーケストレーションや軌跡の収集から、トレーニングとチェックポイント管理まで、トレーニングループ全体を管理します。組み込みの MLflow 追跡により、エージェントの軌跡、報酬、およびトレースを検査できます。評価ジョブは報酬、pass@k、軌跡メトリクスをレポートするので、SageMaker AI エンドポイントや Amazon Bedrock にデプロイする前にモデルをベンチマークできます。マルチターン RL は完全なサーバーレス機能として実行されるため、処理されたトークンの料金のみで利用でき、インフラストラクチャのプロビジョニングや管理は不要です。

マルチターン RL は、Amazon SageMaker AI のモデルカスタマイズ機能の一環として、SageMaker Studio と SageMaker Python SDK を通じて本日ご利用いただけます。 サポートされているモデルには、us-west-2 では Qwen 3.6 27B、Nova Lite 2.0、GPT-OSS-20B、Gemma 31B、および us-east-1 では Nova Lite 2.0、GPT-OSS-20B が含まれます。SageMaker AI のマルチターン強化学習の使用を開始するには、 Amazon SageMaker AI のドキュメントをご覧ください。