OpenAI发布语音模型GPT-Realtime，Realtime API全面升级

Source

品玩8月29日讯，据OpenAI官方消息，OpenAI正式发布语音模型GPT-Realtime，并对Realtime API进行全面升级，将其从测试阶段推进至正式生产环境。此次更新旨在助力企业和开发者打造更可靠、适用于实际生产的语音智能体。

GPT-Realtime是OpenAI迄今最先进的语音转语音模型，采用端到端Speech-to-Speech架构，无需文本转换步骤，可直接处理和生成语音。相比前代版本，它在处理复杂指令时更加精准，生成的语音更自然、富有表现力，能捕捉如笑声等非语言信号，支持对话中途语言切换，还可根据需求调整语音语气，如模拟“带法国口音的友好语调”。此外，模型新增“Cedar”和“Marin”两种语音，并优化了现有的8种语音效果。在性能基准测试中，GPT-Realtime表现卓越，在Big Bench Audio基准测试中准确率从65.6%跃升至82.8%，MultiChallenge基准测试从20.6%提升至30.5%，ComplexFuncBench基准测试从49.7%提高到66.5%。

Realtime API此次更新支持远程MCP服务器、图像输入以及通过会话发起协议（SIP）进行电话呼叫，开发者可通过SIP与远程媒体控制协议（MCP）服务器连接外部工具与服务。同时，API新增可复用提示词功能，开发者能保存不同场景下的配置与工具设置，提升开发效率。并且，API具备检测问题内容的能力，可自动终止违反平台政策的会话。针对欧盟用户，提供数据本地化存储选项，并制定特殊隐私规则以符合当地数据保护法规。价格方面，GPT-Realtime使用成本降低20%，音频输入token每百万个32美元，音频输出token每百万个64美元，缓存输入token每百万个0.40美元。