AWS AI チップ

AWS Trainium

Trainium – 大規模かつ高性能でコスト効率の高い AI を実現するために特別に構築

Trainium を利用すべき理由

AWS Trainium は、Trainium1、Trainium2、Trainium3 という専用 AI アクセラレーターのファミリーで、幅広い生成 AI ワークロードにわたるトレーニングと推論のためのスケーラブルなパフォーマンスとコスト効率を実現するように設計されています。

AWS Trainium ファミリー

Trainium1

第 1 世代の AWS Trainium チップは、Amazon Elastic Compute Cloud (Amazon EC2) Trn1 インスタンスを強化します。これらのインスタンスは、同等の Amazon EC2 インスタンスよりもトレーニングコストを最大 50% 削減できます。Ricoh、Karakuri、SplashMusic、Arcee AI など多くのお客様が、Trn1 インスタンスのパフォーマンスとコスト面でのメリットを実感しています。

Trainium2

AWS Trainium2 チップは、第 1 世代 Trainium の最大 4 倍のパフォーマンスを発揮します。Trainium2 ベースの Amazon EC2 Trn2 インスタンスと Trn2 UltraServers は、生成 AI 専用に構築されており、GPU ベースの EC2 P5e および P5en インスタンスよりも 30～40% 優れた料金パフォーマンスを提供します。Trn2 インスタンスには最大 16 個の Trainium2 チップが搭載され、Trn2 UltraServer には当社独自のチップ間相互接続である NeuronLink で相互接続された最大 64 個の Trainium2 チップが搭載されています。Trn2 インスタンスと UltraServers を使用して、大規模言語モデル (LLM)、マルチモーダルモデル、拡散トランスフォーマーなどの最も要求の厳しいモデルのトレーニングとデプロイを行い、次世代の幅広い生成 AI アプリケーションセットを構築できます。

Trainium3

AWS 初の 3nm AI チップは、次世代のエージェンティックアプリケーション、推論アプリケーション、および動画生成アプリケーション向けに、最適なトークンエコノミクスを実現するために特別に構築されています。AWS Trainium3 チップは、2 倍のコンピューティングパフォーマンスを、2.52 ペタフロップス (PFLOP) の FP8 コンピューティングに提供し、メモリ容量は Trainium2 の 1.5 倍で、帯域幅は 1.7 倍に増加し、HBM3e メモリは 144 GBで、メモリ帯域幅は 4.9 Tb/s です。Trainium3 を搭載した Trn3 UltraServers は、Trn2 UltraServers と比較して、最大 4.4 倍向上したパフォーマンス、3.9 倍大きいメモリ帯域幅、 4 倍超のエネルギー効率を提供します。Trainium3 は、高度なデータ型 (MXFP8およびMXFP4) を備え、リアルタイム、マルチモーダル、推論タスクのためのメモリと計算のバランスが改善された高密度ワークロードとエキスパート並列ワークロードの両方向けに設計されています。

デベロッパー向けに構築

新しい Trainium3 ベースの UltraServers は AI 研究者向けに構築され、AWS Neuron SDK を搭載しているため、画期的なパフォーマンスを実現できます。

PyTorch のネイティブ統合により、デベロッパーはコードを一行も変更せずにトレーニングやデプロイを行うことができます。AI パフォーマンスエンジニア向けに、Trainium3 へのより深いアクセスを可能にしました。これにより、デベロッパーは、パフォーマンスのファインチューニング、カーネルのカスタマイズ、モデルのさらなる拡張が可能になります。イノベーションはオープン性によって成り立つため、私たちはオープンソースのツールやリソースを通じてデベロッパーと交流することに全力を注いでいます。

詳細については、Amazon EC2 Trn3 UltraServers にアクセスするか、または AWS Neuron SDK を詳しくご覧ください。

利点

Trn3 UltraServer は、スケールアップ UltraServer テクノロジーにおける最新のイノベーションを採用しており、最大 144 個の Trainium3 チップ間でより高速なオールツーオールコレクティブを実現するために NeuronSwitch-v1 を搭載しています。Trn3 UltraServer は、最大 20.7 TB の HBM3e メモリ、706 TB/秒のメモリ帯域幅、362 MXFP8 PFLOPs を提供し、Trn2 UltraServers と比較して最大 4.4 倍向上したパフォーマンスと 4 倍超のエネルギー効率を実現します。Trn3 は、最新の 1T+ パラメータ MoE および reasoningtype モデルを用いたトレーニングと推論において、最低コストで最高のパフォーマンスを提供し、Trainium2 ベースのインスタンスと比較して、GPT-OSS の大規模な提供において大幅に高いスループットを実現します。

Trn2 UltraServers は、最大 1 T パラメータのモデルの生成 AI トレーニングおよび推論において、高性能かつコスト効率に優れたオプションとして引き続き提供されます。Trn2 インスタンスには最大 16 個の Trainium2 チップが搭載され、Trn2 UltraServer には当社独自のチップ間相互接続である NeuronLink で接続された最大 64 個の Trainium2 チップが搭載されています。

Trn1 インスタンスは、最大 16 個の Trainium チップを搭載し、最大 3 FP8 PFLOPs、512 GB の HBM メモリ (メモリ帯域幅 9.8 TB/秒)、最大 1.6 Tbps の EFA ネットワーキングを提供します。

AWS Neuron SDK は、Trn3 インスタンス、Trn2 インスタンスと Trn1 インスタンスから最大限のパフォーマンスを引き出すのに役立つため、モデルの構築とデプロイに集中し、市場投入までの時間を短縮できます。AWS Neuron は、PyTorch、Jax、および Hugging Face、vLLM、PyTorch Lightning などの重要なライブラリとネイティブに統合されています。プロファイリングとデバッグのための深いインサイトを提供しながら、すぐに分散型トレーニングと推論用にモデルを最適化します。AWS Neuron は、Amazon SageMaker、Amazon SageMaker Hyerpod、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS ParallelCluster、AWS Batch などのサービスのほか、Ray (Anyscale)、Domino Data Lab、Datadog などのサードパーティーサービスと統合されています。

精度の目標を達成しながら高いパフォーマンスを実現するために、AWS Trainium は
BF16、FP16、FP8、MXFP8、MXFP4 などのさまざまな混合精度データタイプをサポートしています。生成 AI による急速なイノベーションを支援するために、
Trainium2 と Trainium3 は、4 倍のスパース性 (16:4)、マイクロスケーリング、確率的丸め、専用の集合エンジン向けの
ハードウェア最適化を実現しています。

Neuron を使用すると、デベロッパーはカーネル開発に Neuron Kernel Interface (NKI) を使用してワークロードを最適化できます。NKI は完全な Trainium ISA を公開しているため、命令レベルのプログラミング、メモリ割り当て、実行スケジューリングを完全に制御できます。デベロッパーは、独自のカーネルを構築するほかに、最適化されたカーネルをすぐにデプロイできるオープンソースの Neuron Kernel Library を利用できます。そして最後に、Neuron Explore はスタック全体を可視化し、デベロッパーのコードからハードウェアのエンジンに至るまで接続します。

お客様

Anthropic、Decart、poolside、Databricks、Ricoh、Karakuri、SplashMusic などのお客様は、Trn1、Trn2、Trn3 インスタンスおよび UltraServers のパフォーマンスとコスト面でのメリットを実感しています。

Trn3 を早期に採用した企業は、次世代の大規模生成 AI モデルの効率性とスケーラビリティを新たなレベルに引き上げています。