Amazon SageMaker JumpStart 現已推出三種用於語音辨識和文字轉語音的新模型
AWS 今日宣佈在 Amazon SageMaker JumpStart 中提供 Qwen3-TTS-12Hz-1.7B-CustomVoice、Qwen3-TTS-12Hz-1.7B-Base 和 Qwen3-ASR-1.7B,擴大 AWS 客戶可用的基礎模型產品組合。Qwen 的這三種模型提供超過 10 種語言的進階語音合成和識別功能,可讓客戶在 AWS 基礎架構上建置智慧語音驅動的應用程式。
這些模型會透過專門能力解決不同的企業 AI 語音和音訊挑戰:
Qwen3-TTS-12Hz-1.7B-CustomVoice 具有多語言的文字轉語音功能及可自訂的語音樣式、支援 10 種語言,並具有指示驅動的音色、情感和語音控制。此模型非常適合用於建立即時互動式語音應用程式、面向客戶的虛擬助理,以及需要自然、表達式語音輸出的內容創作工作流程。
Qwen3-TTS-12Hz-1.7B-Base 擅長處理多語言文字轉語音功能,並可透過音訊輸入進行 3 秒的快速語音複製。此模型非常適合用於建立自訂語音應用程式、微調領域特定語音合成,以及開發人員需要彈性基礎模型來產生語音的案例。
Qwen3-ASR-1.7B 在複雜的聲學環境中具有最先進的準確度,在支援 52 種語言和方言的自動語音辨識方面表現出色。此模型非常適合用於轉錄服務、多語言客戶支援、即時字幕,以及需要強大串流和離線語音轉文字的應用程式。
透過 SageMaker JumpStart,客戶只需點擊幾下,即可部署任何一種模型來滿足其特定 AI 使用案例。
若要著手使用這些模型,請瀏覽至 SageMaker Studio 的「模型」區段,或使用 SageMaker Python SDK 將模型部署至您的 AWS 帳戶。如需在 SageMaker JumpStart 中部署與使用基礎模型的詳細資訊,請參閱 Amazon SageMaker JumpStart 文件。