通义百聆开源新一代端到端语音交互模型Fun-Audio-Chat

Source

品玩12月24日讯,据通义大模型官方消息,通义百聆正式开源新一代端到端语音交互模型Fun-Audio-Chat(8B)。

该模型采用端到端序列到序列架构,直接从语音输入生成语音输出,显著提升了效率并降低了延迟。其创新的双分辨率设计有效降低了近50%的GPU计算开销。该模型在OpenAudioBench等多个权威榜单上,同尺寸模型排名第一,综合性能表现优异。它不仅能够进行多任务处理,更能感知用户情绪,实现高情商的自然对话。

模型具备Speech Function Call能力,可通过自然语音指令调用函数完成复杂任务。目前,8B模型权重、推理代码及相关示例已在GitHub、HuggingFace等平台全面开源。