品玩3月19日讯,据 Soul 官方消息,Soul App AI团队与上海交通大学X-LANCE Lab、西北工业大学ASLP@NPU团队联合发布并开源了SoulX-Duplug模块。该模块旨在通过流式状态预测,将传统语音对话系统从半双工交互模式升级为全双工模式,从而获得更自然、实时的语音对话能力。
全双工语音交互允许系统在生成回复时持续聆听用户输入,支持打断、停顿、附和等接近人类的对话行为。当前,工业界多采用级联模块(如VAD、ASR、Turn Detection)实现全双工,但存在延迟高、缺乏语义理解等问题。SoulX-Duplug创新性地将语音活动检测、流式语音识别与对话状态预测在单一模型中统一建模,通过“文本引导的流式状态预测”机制,显著降低了系统延迟并提升了对语义意图的理解精度。
该模块定义了user_idle、user_nonidle等五种对话状态,并采用三阶段训练策略。实验表明,基于该模块构建的系统在“Full-Duplex-Bench”基准的多个关键交互维度上表现均衡且出色,总体延迟优于传统方案,为优化对话系统的记忆、推理等核心智能能力解除了交互机制的束缚。