阿里通义千问开源超低延迟语音合成模型Qwen3-TTS

Source

品玩1月23日讯，据千问官方消息，阿里通义千问团队正式开源Qwen3-TTS系列语音生成模型。该系列模型拥有97毫秒的超低延迟、秒级音色克隆与跨语言迁移能力，为语音合成领域的一项重大突破。

开源模型采用了创新的双轨混合流式生成架构，实现了端到端的语音直接建模。实际测试中，其端到端延迟低至97毫秒，输入单个字即可输出首包音频，极适用于直播互动、实时翻译等高时延敏感场景。

在音色克隆方面，仅需3秒参考音频即可实现高保真复刻，并支持将克隆后的音色无缝迁移至中、英、日、韩等10种主流语言及多种中文方言。此外，模型还具备语音设计功能，用户通过一句自然语言描述即可生成符合要求的全新音色。为满足不同需求，团队同步开源了1.7B和0.6B两种参数规模的模型，供开发者在性能与效率间自由取舍。

据悉，该模型家族的完整代码与权重已在GitHub和Hugging Face平台开源，支持全参数微调。