OpenAI正式推出GPT-Realtime-1.5模型，强化实时语音交互能力

Source

品玩2月25日讯，OpenAI近日在其开发者平台正式发布GPT-Realtime-1.5模型，定位为“音频输入、音频输出”的旗舰级语音模型，专为语音代理与客户服务场景优化。该模型支持文本、音频和图像输入，输出包括文本与音频，具备32,000上下文窗口及最高4,096输出Token。

据官方文档，GPT-Realtime-1.5适用于实时对话、语音转录及多模态交互等用例，已集成至Realtime API端点。定价方面，音频输入每百万Token 32美元，输出64美元；文本输入4美元，输出16美元。模型不支持微调与结构化输出，但提供快照（Snapshots）功能以锁定版本行为。

目前该模型面向符合条件的开发者开放，需通过OpenAI API调用，并受相应速率限制与使用层级约束。