品玩4月16日讯,据 Marktechpost 报道,NVIDIA与马里兰大学研究团队联合发布了Audio Flamingo Next (AF-Next),这是Audio Flamingo系列中能力最强的开源大型音频语言模型(LALM),旨在解决长音频理解与复杂推理难题。
AF-Next基于Qwen-2.5-7B构建,支持长达30分钟的音频输入与128k上下文窗口。团队创新性提出了“时序音频思维链”技术,通过将推理步骤显式锚定至音频时间戳,显著提升了模型在长音频任务中的证据聚合能力与准确性。此次开源包含AF-Next-Instruct、AF-Next-Think及AF-Next-Captioner三个变体,分别针对通用问答、多步推理及音频描述任务进行了优化。
实验数据显示,该模型在20项基准测试中大幅超越同级别开源模型,并在MMAU-Pro等挑战性基准上优于Gemini 2.5 Pro,展现了卓越的泛化能力与实用价值。