NVIDIA与马里兰大学联合发布Audio Flamingo Next，开源长音频理解模型

Source

品玩4月16日讯，据 Marktechpost 报道，NVIDIA与马里兰大学研究团队联合发布了Audio Flamingo Next (AF-Next)，这是Audio Flamingo系列中能力最强的开源大型音频语言模型（LALM），旨在解决长音频理解与复杂推理难题。

AF-Next基于Qwen-2.5-7B构建，支持长达30分钟的音频输入与128k上下文窗口。团队创新性提出了“时序音频思维链”技术，通过将推理步骤显式锚定至音频时间戳，显著提升了模型在长音频任务中的证据聚合能力与准确性。此次开源包含AF-Next-Instruct、AF-Next-Think及AF-Next-Captioner三个变体，分别针对通用问答、多步推理及音频描述任务进行了优化。

实验数据显示，该模型在20项基准测试中大幅超越同级别开源模型，并在MMAU-Pro等挑战性基准上优于Gemini 2.5 Pro，展现了卓越的泛化能力与实用价值。