品玩2月25日讯,据 The Decoder 报道,AI初创公司Inception Labs正式推出其基于扩散架构的推理大模型Mercury 2。
该模型摒弃传统自回归逐词生成方式,转而并行优化多个文本块,实现更高效推理。在NVIDIA Blackwell GPU上,Mercury 2端到端延迟仅1.7秒,显著优于Gemini 3 Flash(14.4秒)和Claude Haiku 4.5(23.4秒),生成质量与主流高速模型相当。
定价方面,Mercury 2输入/输出每百万token分别为0.25美元和0.75美元,大幅低于竞品。模型支持128K上下文、工具调用及JSON输出,适用于语音助手、编码工具等低延迟场景。
目前,Mercury 2已通过OpenAI兼容API开放早期访问,并可在聊天界面直接试用。