品玩8月29日讯,据OpenAI官方消息,OpenAI正式发布语音模型GPT-Realtime,并对Realtime API进行全面升级,将其从测试阶段推进至正式生产环境。此次更新旨在助力企业和开发者打造更可靠、适用于实际生产的语音智能体。
GPT-Realtime是OpenAI迄今最先进的语音转语音模型,采用端到端Speech-to-Speech架构,无需文本转换步骤,可直接处理和生成语音。相比前代版本,它在处理复杂指令时更加精准,生成的语音更自然、富有表现力,能捕捉如笑声等非语言信号,支持对话中途语言切换,还可根据需求调整语音语气,如模拟“带法国口音的友好语调”。此外,模型新增“Cedar”和“Marin”两种语音,并优化了现有的8种语音效果。在性能基准测试中,GPT-Realtime表现卓越,在Big Bench Audio基准测试中准确率从65.6%跃升至82.8%,MultiChallenge基准测试从20.6%提升至30.5%,ComplexFuncBench基准测试从49.7%提高到66.5%。
Realtime API此次更新支持远程MCP服务器、图像输入以及通过会话发起协议(SIP)进行电话呼叫,开发者可通过SIP与远程媒体控制协议(MCP)服务器连接外部工具与服务。同时,API新增可复用提示词功能,开发者能保存不同场景下的配置与工具设置,提升开发效率。并且,API具备检测问题内容的能力,可自动终止违反平台政策的会话。针对欧盟用户,提供数据本地化存储选项,并制定特殊隐私规则以符合当地数据保护法规。价格方面,GPT-Realtime使用成本降低20%,音频输入token每百万个32美元,音频输出token每百万个64美元,缓存输入token每百万个0.40美元 。
