GPT5.5：更贵不更烧，主角给到Codex，逼Claude慌忙修复降智问题

Source

GPT-5.5来了。API定价$5/$30每百万token，GPT-5.4的两倍。

但它并不更烧token。

Sam Altman在公布定价的同一条推文里补了一句："Remember, you will need less tokens per task than 5.4!" 贵一倍，但每个任务token更少——"其实更划算"。OpenAI总裁Greg Brockman在发布会上给了更大的词："a new class of intelligence."

先看模型本身。

主战场是agentic coding和长文本：Terminal-Bench 2.0上82.7%，碾压Opus 4.7的69.4%；1M token context window让长文本检索（MRCR v2）从GPT-5.4的36.6%跳到74.0%，Opus 4.7只有32.2%。GDPval（覆盖44个职业的知识工作基准）84.9%。但SWE-Bench Pro（代码修复）只有58.6%，Opus 4.7拿了64.3%——不是所有维度都赢。

用例方面，三个数字值得记住：24,771份K-1税表（71,637页）自动审阅省了两周；GPT-5.5参与了一个Ramsey数渐近证明，研究者说原本需要数月人工分析；OpenAI内部85%的员工每周都在用Codex。

所以最大亮点不是"更聪明"。是更贵但更高效——定价翻倍但单任务token消耗显著下降，推理速度通过与NVIDIA GB200/GB300的co-design提升了20%。加上Codex同步升级了浏览器控制、Sheets/Docs处理、系统级语音——GPT-5.5本质上是一个为Codex生态量身定制的模型。

这是官方叙事。但4月23日的故事不止一个模型。

Benchmark先打起来了

发布当天，独立开发者@bridgemindai发了两条推文
第一条："Claude Opus 4.7 dominates GPT 5.5 on SWE Bench Pro."

几小时后："Claude Opus 4.7 is no longer the best model in the world. Not even close."

同一个人，同一天，结论完全相反。两边的数据都是真的：

SWE-Bench Pro（编码）：GPT-5.5不及Opus 4.7。@deedydas指出OpenAI刻意没在发布材料里报这个成绩——"trying really hard to bury the lede."

Terminal-Bench 2.0（长时间推理）：GPT-5.5 82.7% vs Opus 4.7 69.4%。碾压。

幻觉率（AA-Omniscience）：GPT-5.5为86%，Opus 4.7为36%。上一代GPT-5.4是89%——两代之间只降了3个百分点。

Vending-Bench Arena（多人博弈）：GPT-5.5策略干净，照样赢了耍赖的Opus 4.7。

宾夕法尼亚大学教授Ethan Mollick在给了个框架：jagged frontier。AI的能力边界不是平线推进，是锯齿膨胀。选报道哪颗齿，就决定你讲什么故事。

这说明：当"谁最强"不再有统一答案，竞争重心就必须转移。

Codex才是主菜

转移到哪？

GPT-5.5发布同天，Codex桌面端上线了浏览器控制、Sheets/Slides/Docs处理、系统级语音、自动审查。Mollick的分析框架值得借用：AI有三层——Models、Apps、Harnesses。4月23日OpenAI三层同时升级。

更重要的是生态卡位。

Anthropic封杀了OpenClaw通过订阅接口调用Claude。OpenAI则雇了OpenClaw创始人Peter Steinberger，宣布Codex订阅可以在任何第三方工具里用——JetBrains、Xcode、Pi，甚至Claude Code。

OpenAI开发者体验主管Romain Huet的原话："We want people to be able to use Codex, and their ChatGPT subscription, wherever they like!"

Django Web 框架发起人Simon Willison用Claude Code逆向了Codex认证机制，做了个插件直接用订阅调GPT-5.5。OpenAI没封，还半官方鼓励。Codex CLI已开源。

Anthropic守API利润率。OpenAI把订阅制变成了开放平台。

再看API延迟发布。官方说"working on security and safeguards"。客观效果：API上线前想用GPT-5.5，唯一路径是Codex生态。用户被锁进了应用层。

涨价两倍 + API延后 + Codex全面升级开放第三方。三个同步决策，一个意图：不卖算力，抢入口。

竞争不在于模型本身了，主角是一整个生态的配套能力，抢的是未来的入口。

加速才刚开始

GPT-5.5距GPT-5.4只隔了一个多月。OpenAI 首席科学家Jakub Pachocki在发布会上说了句让人意外的话："I would say the last few years have been surprisingly slow."

过去几年——外界看来AI狂飙的几年——在OpenAI首席科学家眼里是慢的。

OpenAI员工@tszzl透露已有研究者用GPT-5.5做"隔夜实验"：给个算法idea，通宵跑，醒来dashboard就绪。他的措辞是"competent AI research partner"。不是assistant，是partner。

Mollick四个prompt拿到一篇完整学术论文，统计方法正确，文献综述真实。问题不在能力——"假设不够有趣"。

AI的瓶颈从能力滑向了品味。模型的竞赛，从跑分滑向了生态。

OpenAI在4月23日押注的不是更聪明的模型。是一个让用户走不掉的入口。

而对于OpenAI新模型最大的背书，来自死敌Anthropic。

此前两者的竞争里，势头已经被Anthropic拿走，但这一次OpenAI的势头回来了。在发布当天，Claude官方开发平台账号发布公告，承认了大家诟病已久的“降智”问题，并表示已经修复。

网友揶揄道：被用户指责了足足一个月后，在对手发布更强模型后你来承认和修复了。

这可能是GPT 5.5能力之强的最好背书。