Amazon SageMaker JumpStart 現已推出三種用於語音辨識和文字轉語音的新模型

張貼日期: 2026年5月14日

AWS 今日宣佈在 Amazon SageMaker JumpStart 中提供 Qwen3-TTS-12Hz-1.7B-CustomVoice、Qwen3-TTS-12Hz-1.7B-Base 和 Qwen3-ASR-1.7B，擴大 AWS 客戶可用的基礎模型產品組合。Qwen 的這三種模型提供超過 10 種語言的進階語音合成和識別功能，可讓客戶在 AWS 基礎架構上建置智慧語音驅動的應用程式。

這些模型會透過專門能力解決不同的企業 AI 語音和音訊挑戰：

Qwen3-TTS-12Hz-1.7B-CustomVoice 具有多語言的文字轉語音功能及可自訂的語音樣式、支援 10 種語言，並具有指示驅動的音色、情感和語音控制。此模型非常適合用於建立即時互動式語音應用程式、面向客戶的虛擬助理，以及需要自然、表達式語音輸出的內容創作工作流程。

Qwen3-TTS-12Hz-1.7B-Base 擅長處理多語言文字轉語音功能，並可透過音訊輸入進行 3 秒的快速語音複製。此模型非常適合用於建立自訂語音應用程式、微調領域特定語音合成，以及開發人員需要彈性基礎模型來產生語音的案例。

Qwen3-ASR-1.7B 在複雜的聲學環境中具有最先進的準確度，在支援 52 種語言和方言的自動語音辨識方面表現出色。此模型非常適合用於轉錄服務、多語言客戶支援、即時字幕，以及需要強大串流和離線語音轉文字的應用程式。

透過 SageMaker JumpStart，客戶只需點擊幾下，即可部署任何一種模型來滿足其特定 AI 使用案例。

若要著手使用這些模型，請瀏覽至 SageMaker Studio 的「模型」區段，或使用 SageMaker Python SDK 將模型部署至您的 AWS 帳戶。如需在 SageMaker JumpStart 中部署與使用基礎模型的詳細資訊，請參閱 Amazon SageMaker JumpStart 文件。

Amazon SageMaker JumpStart 現已推出三種用於語音辨識和文字轉語音的新模型

了解

資源

開發人員

說明