通义百聆开源新一代端到端语音交互模型Fun-Audio-Chat

Source

品玩12月24日讯，据通义大模型官方消息，通义百聆正式开源新一代端到端语音交互模型Fun-Audio-Chat（8B）。

该模型采用端到端序列到序列架构，直接从语音输入生成语音输出，显著提升了效率并降低了延迟。其创新的双分辨率设计有效降低了近50%的GPU计算开销。该模型在OpenAudioBench等多个权威榜单上，同尺寸模型排名第一，综合性能表现优异。它不仅能够进行多任务处理，更能感知用户情绪，实现高情商的自然对话。

模型具备Speech Function Call能力，可通过自然语音指令调用函数完成复杂任务。目前，8B模型权重、推理代码及相关示例已在GitHub、HuggingFace等平台全面开源。