ChatGPT Images 2.0发布之后,很多人的第一反应是:这个模型的中文能力,强得有点不讲道理。
过去的图像模型多少有些“看不懂字”。它们能画风景、画人物,但一旦涉及中文,就很容易变成一团难以辨认的鬼画符。但GPT-image-2不一样,它不仅能写对字,还能排版、分段、生成带逻辑结构的中文信息图。
曾经那种“看文字判断是不是AI生成”的办法,到这一代已经行不通了。
陈博远是GPT Image 2训练和能力展示里真正站到前台的人之一。在发布会上,他和奥特曼一起演示了文字渲染能力。发布后,他又在知乎上解释了官网图片背后的很多花絮:LMArena双盲测试时,GPT Image 2曾用“duct-tape”(布基胶带)作为代号;官网blog里的很多图片,是他亲手用模型做出来的;中文漫画、米粒刻字、多语言文字、视觉证明、自动生成二维码,这些看起来像宣传素材的图片,其实都是一次次有设计目的的能力测试。
对这个“duct-tape”的胶带,他用了一个很有趣的解释:
“至于为啥起名叫布基胶带嘛..当然是因为你可以用布基胶带把香蕉贴在墙上啦!”
01
他在问一个更慢的问题
陈博远并不是那种一眼就能被记住的研究员。没有频繁的公开演讲,也没有刻意经营个人表达。他会写博客、发一些轻松的内容,但这些更像是记录,而不是建立影响力。
相比之下,他的存在感更多来自模型本身。
他现在是OpenAI的一名研究员,参与图像模型的训练。在此之前,他在麻省理工学院完成电子工程与计算机科学博士学位,同时辅修哲学,也曾在GoogleDeepMind参与多模态模型的研究工作。
这些经历已经足够亮眼,但更重要的是他长期关注的问题。
从DeepMind到OpenAI,陈博远的研究方向几乎没有改变。当大多数人还在讨论模型能不能写得更好、画得更像的时候,他关心的是更基础的一层:模型究竟在“理解”什么。
具体可以看作三个问题:模型如何理解图像?图像和语言之间到底是什么关系?当一个模型面对真实世界时,它究竟是在生成结果,还是在模拟世界?
这些问题听起来抽象,但它们几乎决定了今天这一代模型的边界。
在他的个人主页上,他把自己的研究方向写得很直接:世界模型、具身智能、强化学习。
所谓世界模型,可以理解为一件事:让AI在内部形成一个对世界的判断。
它不仅要知道眼前发生了什么,还要能预测接下来会发生什么。
这和今天常见的LLM(大语言模型)有一点区别,LLM更像是在处理语言,而世界模型更接近一种结构:它需要理解空间、时间、因果,以及行为的结果。
用一个很简单的例子来说,AI如果真的“理解”世界,它应该知道塑料杯掉在地上会弹一下,而玻璃杯会碎掉。
具身智能和强化学习,则可以理解为这个问题的延伸——如果一个模型真的理解世界,它就不应该只是回答问题,还应该能够行动,并在行动中不断修正自己的判断。
他参与的工作,往往不是单一任务优化,而是试图把生成模型、视觉理解和决策系统连在一起。
他最有代表性的工作之一,是一项名为Diffusion Forcing的研究。
这项研究试图解决一个很基础的问题:模型到底是一步一步生成,还是一次性生成?
LLM是前者,它擅长灵活生成,但在长内容里容易出错;扩散模型更接近后者,它更稳定,但缺乏结构。
陈博远的做法,则是把这两种方式放在同一个模型里,让模型既能逐步生成,又能对整体进行约束。
如果说Diffusion Forcing是在时间维度上做统一,那么他参与的另一项工作SpatialVLM,则是在空间维度上补齐能力。
这个工作针对一个长期存在的问题:模型虽然能看图说话,但并不真正理解空间关系。它不知道远近、大小,也不清楚物体之间的相对位置。
为了解决这一点,他所在的团队构建了一套三维空间推理体系,让模型不仅能“看见”,还要能“推理”。
类似的思路也出现在其他工作中,比如利用历史信息指导生成的History-Guided方法,或者将视觉、动作与语言统一建模的研究。这些工作看起来分散,但都指向一个方向:让模型不只是输出结果,而是在内部形成一种稳定的表示。
在严肃的研究方向之外,陈博远也会偶尔流露出一种很鲜活的个人趣味。
比如这次在知乎上发表的文章,又比如他在个人主页特别介绍了自己的兴趣是珍珠奶茶(making boba),就连知乎名都是”MIT奶茶店长“。
他还写了一篇博客,给美国计算机科学名校做了一个排名,标准不是科研实力,而是珍珠奶茶。
他把伯克利排在第一位,因为校园周围“几乎被高质量奶茶店包围”,而MIT则被他打了一个不太高的分数,理由是“附近奶茶店太少,而且质量不稳定”。
这类表达很轻松,但可以看出他的研究习惯:把复杂的问题拆开,找到可以比较的维度,再做判断。
他的工作本身也在做类似的事情,只不过对象换成了模型。
02
他避开了更容易的方向
如果只看图像模型的发展路径,过去的逻辑其实很清晰:更大的数据、更高的分辨率、更稳定的生成过程。大多数改进,集中在“画得更像”这件事上。
但随着模型开始处理更复杂的内容,这条路径也走到了瓶颈:当图像里不仅有视觉元素,还包含文字、结构甚至逻辑关系时,问题不再只是像或不像,而是这些信息如何同时成立。
问题从生成质量,转向了结构一致性。
这类问题并不是所有研究者都会去做,它既不直接对应某一个评测指标,也很难在短期内转化成产品效果。相比之下,做分辨率、做风格、做细节,往往更容易看到提升。
而陈博远的路径,恰好避开了那些“更容易”的方向:从他在学术阶段的研究开始,他关注的就不是单一模态的能力,而是不同能力之间如何被连接在一起。
在很长一段时间里,视觉模型、语言模型和决策系统,是各自发展的。它们可以通过接口连接,但在内部往往是分开的。因此,模型虽然可以“调用能力”,却很难表现出一致的理解。
陈博远做的工作,就是试图改变这种状态。
这次模型的很多能力展示,本来就发生在“图像、文字、梗、真实物体和文化语境”的交界处。
陈博远说,官网blog里的很多图片都是他亲手做的。整个blog都是用图片生成的,完全没有普通文本。换句话说,用户在官网上看到的很多示例,不只是宣传物料,而是模型能力本身的一部分。
比如那张中文彩蛋漫画。
他想做一个很搞笑的漫画,于是用到了“接住梗”和“香蕉梗”。为了展示文字能力,他特意让模型在图里加入多国语言文字,又在家乡海报的右下角生成特别特别小的中文,用来测试模型到底能处理多细的细节。
更关键的是,这张图不是拼接出来的——按照他的说法,整张图,包括画中画和画中画中画都是一次性生成的。他担心大家以为这是拼接图,还特意在图底加了备注。
这正好说明GPT Image 2的难点在哪里。过去的图像模型如果能写出几个不出错的大字,已经算很不错了。但GPT Image 2要处理的是一整套层级:它要知道这是一张漫画书照片,漫画书里有图,图里还有图;它要在不同层级里放入不同语言的文字;它还要让这些文字和画面关系成立,而不是随机散落在图里。
再比如米粒刻字。
陈博远说,他一开始觉得普通文字渲染还不够惊艳,于是在队友提示下做了一张4K图:画面里是一堆米粒,其中一颗米粒上刻着字。
这测试了模型在极小尺度里的文字控制能力。
还有那张黑板视觉证明。
陈博远表示:“如果让他解普通数学题方程啥的,似乎就太简单了。nano banana似乎通过思考模式+文字渲染的方式也能做。于是我想到了我非常喜欢的一个视觉证明来真正考验GPT Image 2独特的视觉推理效果。图里提示词说的是,在黑板上用视觉(而不是代数)证明从1开始的奇数之和是一个平方。普通的模型其实很容易推理出代数解,但是图形解只有视觉模型才能做了。”
这也是GPT Image 2这次发布里最值得注意的变化之一:它开始能把一个抽象关系变成图像结构,再把这个结构用视觉方式表达出来。
所以,与其说GPT Image 2在“生图”,不如说它在生成一种带有结构的视觉表达。
漫画、海报、视觉证明……这些东西本质上都不是纯图片,它们同时包含文字、排版、层级、对象关系、任务目标和审美判断。
过去的图像模型容易在这里崩掉,是因为它们把图像当成像素结果。而这一代更强的图像模型,必须把图像当成一种带结构的表达。
03
他不是一个人
在OpenAI内部,真正参与模型训练的人其实不多。GPT-image-2发布之后,研究负责人Gabriel Goh在社交媒体上公开感谢了他们的团队成员。
名单并不长,只有十几个人。
这更像是一支小团队,而不是一个庞大的工程体系。
团队成员分散在不同方向,有人做视觉,有人做生成机制,有人处理系统结构,但最终指向的是同一件事:让模型具备一套可以同时处理图像、语言和结构的能力。
推文里的插图某种程度上也像是一个比喻:一群人围在一起,每个人负责一部分,最后拼成同一张图。
模型的结构、能力边界,甚至“图像应该是什么”,都是在这样的团队里被一点点做出来的。
有个值得注意的地方是,在这十几人的核心团队里,可以看到相当数量的中文名字。
除陈博远之外,还包括做视觉语言模型的王剑锋(Jianfeng Wang)、做模型评估与数据问题的梁伟新(Weixin Liang)、长期从事图像生成的杨宇光(Yuguang Yang)、以及参与图像生成与系统训练的多位研究者。
陈博远也没有把这件事写成一个人的胜利。在知乎文章的最后,他特别感谢了整个团队。他说,每个人都做了很多很多的事情。在发布前的尾声,他除了修一些小东西,就是和市场部门的同事、做艺术的同事一起准备发布会和网站。
也就是说,GPT Image 2是一次研究、产品、审美和传播的共同完成。模型团队要把能力做出来,艺术团队要知道什么样的图能把能力展示出来,市场团队要把这些能力翻译成普通用户看得懂、愿意测试、也愿意传播的画面。
这也是为什么这次发布里的很多示例都很特别。它们并不是随便生成一张漂亮图片就结束,而是在主动制造难题:多国语言、极小文字、画中画、真实物体、视觉证明、搜索生成海报、二维码嵌入。
每一张图都在告诉用户:你以前觉得图像模型做不到的事情,现在可以重新试一遍。
从这个角度看,陈博远的位置很特殊。
他既在模型训练一侧,也站到了发布叙事的一侧;他不仅参与把模型做出来,也亲手设计了很多让外界理解模型能力的图片。
GPT Image 2当然不是陈博远一个人的作品,但从公开信息看,陈博远确实是这次图像模型发布中最值得中文社区关注的名字之一。
一方面,这次发布的GPT生图模型就是他主力训练的;另一方面,他又刚好承担了一个中文用户最容易感知的突破:中文渲染。
当AI终于能把中文写进复杂图像里,背后那个长期研究世界模型、空间理解和生成一致性的研究者,站到了台前。
他说:“希望这次稳稳地接住了大家。”