品玩12月15日讯,据通义大模型官方消息,通义百聆宣布其语音大模型Fun-CosyVoice3与Fun-ASR完成重大升级并同步开源。此次升级聚焦核心性能与实用性,为开发者与企业提供更强大的语音AI工具。
Fun-CosyVoice3:实时、精准的语音合成
模型首包延迟降低50%,实现“输入即发声”。中英混说错误率大幅下降56.4%,并支持9种语言、18种方言及情感控制。其开源版本Fun-CosyVoice3-0.5B具备优秀的zero-shot音色克隆能力。
Fun-ASR:强悍抗干扰的语音识别
该模型在嘈杂环境下准确率达93%,新增歌词与说唱识别功能。支持31种语言自由混说与多种中文方言,流式识别首字延迟仅160毫秒。轻量化版本Fun-ASR-Nano-0.8B同步开源,推理成本更低。
模型已在魔搭、HuggingFace及GitHub等平台开源,支持本地部署与二次开发。