阿里云发布Qwen3-TTS系列语音合成模型

Source

品玩12月25日讯，据通义千问官方消息，阿里云正式推出Qwen3-TTS系列两款新一代语音合成模型：Qwen3-TTS-VD-Flash（音色创造模型）与Qwen3-TTS-VC-Flash（音色克隆模型）。

Qwen3-TTS-VD-Flash支持通过自然语言指令精细调控音色、韵律与人设，在InstructTTS-Eval评测中综合表现显著优于GPT-4o-mini-tts、Mimo-Audio-7B-Instruct，并在角色扮演测试中超越Gemini-2.5-pro-preview-tts。

Qwen3-TTS-VC-Flash仅需3秒音频即可完成音色克隆，支持中、英、日、法等10大语言合成，在MiniMax TTS多语言测试集上词错误率全面优于MiniMax、ElevenLabs及GPT-4o-Audio-Preview。

该系列模型具备高表现力拟人化音色与强大文本解析能力，可满足多样化语音合成需求。