品玩12月25日讯,据通义千问官方消息,阿里云正式推出Qwen3-TTS系列两款新一代语音合成模型:Qwen3-TTS-VD-Flash(音色创造模型)与Qwen3-TTS-VC-Flash(音色克隆模型)。
Qwen3-TTS-VD-Flash支持通过自然语言指令精细调控音色、韵律与人设,在InstructTTS-Eval评测中综合表现显著优于GPT-4o-mini-tts、Mimo-Audio-7B-Instruct,并在角色扮演测试中超越Gemini-2.5-pro-preview-tts。
Qwen3-TTS-VC-Flash仅需3秒音频即可完成音色克隆,支持中、英、日、法等10大语言合成,在MiniMax TTS多语言测试集上词错误率全面优于MiniMax、ElevenLabs及GPT-4o-Audio-Preview。
该系列模型具备高表现力拟人化音色与强大文本解析能力,可满足多样化语音合成需求。