OpenAI正式推出GPT-Realtime-1.5模型,强化实时语音交互能力

Source

品玩2月25日讯,OpenAI近日在其开发者平台正式发布GPT-Realtime-1.5模型,定位为“音频输入、音频输出”的旗舰级语音模型,专为语音代理与客户服务场景优化。该模型支持文本、音频和图像输入,输出包括文本与音频,具备32,000上下文窗口及最高4,096输出Token。

据官方文档,GPT-Realtime-1.5适用于实时对话、语音转录及多模态交互等用例,已集成至Realtime API端点。定价方面,音频输入每百万Token 32美元,输出64美元;文本输入4美元,输出16美元。模型不支持微调与结构化输出,但提供快照(Snapshots)功能以锁定版本行为。

目前该模型面向符合条件的开发者开放,需通过OpenAI API调用,并受相应速率限制与使用层级约束。