阿里通义千问开源超低延迟语音合成模型Qwen3-TTS

Source

品玩1月23日讯,据千问官方消息,阿里通义千问团队正式开源Qwen3-TTS系列语音生成模型。该系列模型拥有97毫秒的超低延迟、秒级音色克隆与跨语言迁移能力,为语音合成领域的一项重大突破。

开源模型采用了创新的双轨混合流式生成架构,实现了端到端的语音直接建模。实际测试中,其端到端延迟低至97毫秒,输入单个字即可输出首包音频,极适用于直播互动、实时翻译等高时延敏感场景。

在音色克隆方面,仅需3秒参考音频即可实现高保真复刻,并支持将克隆后的音色无缝迁移至中、英、日、韩等10种主流语言及多种中文方言。此外,模型还具备语音设计功能,用户通过一句自然语言描述即可生成符合要求的全新音色。为满足不同需求,团队同步开源了1.7B和0.6B两种参数规模的模型,供开发者在性能与效率间自由取舍。

据悉,该模型家族的完整代码与权重已在GitHub和Hugging Face平台开源,支持全参数微调。