阶跃星辰开源端到端语音大模型性能超越 GPT-4o-audio

Source

品玩9月1日讯，据阶跃星辰官方消息，阶跃星辰开源端到端语音大模型Step-Audio 2 mini，在音频理解等任务上性能超GPT-4o-audio及所有开源同类模型，现可在GitHub等平台下载。

该模型采用端到端多模态架构，统一语音理解、推理与生成建模，时延低、响应快，能精准解析副语言信息。其首创音频推理能力，可理解情绪等“弦外之音”，还支持语音原生Tool Calling联网搜索。

此前，该公司语音大模型已量产上车吉利银河M9，并与多家头部厂商合作。据悉，阶跃星辰今年已开源8款多模态模型，持续为开源社区赋能。