Amazon SageMaker JumpStart で音声認識と音声合成の 3 つの新しいモデルが利用可能に
AWS は本日、Amazon SageMaker JumpStart で Qwen3-TTS-12Hz-1.7B-CustomVoice、Qwen3-TTS-12Hz-1.7B-Base、Qwen3-ASR-1.7B が利用可能になったことを発表しました。これにより、AWS のお客様が利用できる基盤モデルのポートフォリオが拡充されます。Qwen のこれら 3 つのモデルは、10 以上の言語で高度な音声合成および認識機能を提供し、お客様が AWS インフラストラクチャ上でインテリジェントな音声駆動アプリケーションを構築できるようにします。
これらのモデルは、専門的な機能によって、企業の音声やオーディオに関するさまざまな課題に対処します。
Qwen3-TTS-12Hz-1.7B-CustomVoice は、カスタマイズ可能な音声スタイルを備えた多言語の音声合成に優れており、指示を出すだけで音色、感情、抑揚を制御しながら 10 言語をサポートしています。自然で表現力豊かな音声出力を必要とするリアルタイムの対話型音声アプリケーション、顧客向けバーチャルアシスタント、コンテンツ作成ワークフローの構築に最適です。
Qwen3-TTS-12Hz-1.7B-Base は、オーディオ入力から 3 秒間で迅速に音声をクローニングできる多言語テキスト読み上げに優れています。カスタム音声アプリケーションの構築、特性の専門分野に合わせた音声合成のファインチューニング、および開発者が音声生成のための柔軟な基盤モデルを必要とするシナリオに最適です。
Qwen3-ASR-1.7B は、52 の言語と方言をサポートする自動音声認識に優れており、複雑な音響環境下でも最高水準の精度を発揮します。文字起こしサービス、多言語でのカスタマーサポート、リアルタイムの字幕生成、および安定したストリーミングやオフラインでの音声テキスト変換を必要とするアプリケーションに最適です。
SageMaker JumpStart を使用すると、お客様は数回クリックするだけでこれらのモデルをデプロイし、特定の AI ユースケースに対応できます。
これらのモデルを使い始めるには、SageMaker Studio の [Models] セクションにアクセスするか、SageMaker Python SDK を使用して AWS アカウントにモデルをデプロイしてください。SageMaker JumpStart での基盤モデルのデプロイと使用方法の詳細については、Amazon SageMaker JumpStart のドキュメントを参照してください。