OpenAI研发新型双向语音模型,提升ChatGPT对话自然度

Source

品玩3月10日讯,据The Information报道,OpenAI正在开发一款名为“BiDi”(Bidirectional)的新型实时音频模型,旨在显著改善ChatGPT语音模式的交互体验。当前的Advanced Voice Mode采用回合制交互,用户一旦在AI说话过程中插入“嗯”“好的”等回应,系统便会中断输出,导致对话生硬。

BiDi模型将支持持续语音监听与实时响应调整,使AI能在被用户打断时动态修改回复内容,实现更接近人类对话的流畅性。该技术尤其适用于客户服务场景,例如用户中途更改诉求时,AI可无缝切换处理逻辑,而非陷入混乱或强制重置。

然而,该模型尚未达到发布标准。知情人士透露,原型系统在持续对话数分钟后可能出现语音异常或技术故障。原定于2026年第一季度上线的计划或将推迟至第二季度或更晚。

OpenAI认为,缩小语音与文本模型之间的体验差距,有助于推动AI在全球范围内的普及,因多数用户更倾向于通过语音而非文字与智能助手交互。