SageMaker JumpStart が基盤モデルの最適化されたデプロイを提供開始

投稿日: 2026年4月17日

SageMaker JumpStart では、最適化されたデプロイの提供が開始されました。お客様は特定のユースケースやパフォーマンス制約に合わせて事前設定された構成を使用して基盤モデルをデプロイできるようになりました。SageMaker JumpStart の最適化されたデプロイでは、コンテンツ生成、要約、Q&A などのワークロード要件に基づいてコスト、スループット、レイテンシーを最適化するタスクアウェア構成を利用できるため、モデルのデプロイを簡素化できます。今回のリリースでは、Meta、Microsoft、Mistral AI、Qwen、Google、TII の 30 を超える人気モデルがサポートされており、P50 レイテンシー、time-to-first token (TTFT)、スループットなどの主要なパフォーマンスメトリクスをデプロイ前に確認できます。

SageMaker JumpStart の最適化されたデプロイにおいて、お客様はユースケース固有の構成 (生成ライティングやチャット形式のインタラクションなど) から選択し、コスト最適化、スループット最適化、レイテンシー最適化、またはバランス型パフォーマンスなどの最適化目標を選択できます。モデルは事前設定された構成で SageMaker AI Managed Inference エンドポイントまたは SageMaker HyperPod クラスターにデプロイされるため、推測に頼る必要がなくなり、デプロイの詳細を完全に可視化できます。利用可能なモデルには、Meta Llama 3.1 および 3.2 系列、Microsoft Phi-3、Mistral AI モデル (新しい Mistral-Small-24B-Instruct-2501 を含む)、Qwen 2 および 3 シリーズ (マルチモーダル Qwen2-VL を含む)、Google Gemma、TII Falcon3 があります。すべてのデプロイで SageMaker の VPC デプロイ機能が活用されるため、エンタープライズグレードのセキュリティのもとで、データコントロールを確保しつつ本番対応のインフラストラクチャを利用できます。この機能は、SageMaker JumpStart が現在サポートされているすべての AWS リージョンで利用できます。

最適化されたデプロイを開始するには、SageMaker Studio の [モデル] に移動し、[JumpStart Models] タブで目的の基盤モデルを選択して [デプロイ] を選び、ユースケースとパフォーマンスの最適化目標を選択します。詳細については、SageMaker JumpStart のドキュメントを参照してください。AWS では、その他のモデルへのサポートを積極的に拡大しています。