阶跃星辰开源端到端语音大模型 性能超越 GPT-4o-audio

Source

品玩9月1日讯,据 阶跃星辰官方消息,阶跃星辰开源端到端语音大模型Step-Audio 2 mini,在音频理解等任务上性能超GPT-4o-audio及所有开源同类模型,现可在GitHub等平台下载。

该模型采用端到端多模态架构,统一语音理解、推理与生成建模,时延低、响应快,能精准解析副语言信息。其首创音频推理能力,可理解情绪等“弦外之音”,还支持语音原生Tool Calling联网搜索。

此前,该公司语音大模型已量产上车吉利银河M9,并与多家头部厂商合作。据悉,阶跃星辰今年已开源8款多模态模型,持续为开源社区赋能。