今天的AGI,从来都不是Ilya想要的。
11月25日,被称为"深度学习教父级人物"的Ilya Sutskever接受了播客主Dwarkesh Patel的深度访谈。这是他离开OpenAI、创立Safe Superintelligence Inc.(SSI)后首次系统性阐述对AI未来的思考。
一个半小时,两万多字,这可能是2025年AI圈最重要的一次对话。
访谈中,Ilya这次对LLM的批评主要是几点:
第一,Scaling模式到头了,要回归过去的“研究时代”。
他将整个LLM发展分成了几个时期:
2012-2020年(研究时代): 百花齐放,新想法不断。
2020-2025年(Scaling 时代): “Scaling”吸走了房间里所有的空气,只要堆数据和算力堆上去就会变强,导致核心创新乏力。
现在(回归研究时代): 预训练数据正在枯竭,算力边际效应递减。虽然 Scaling 仍有惯性,但真正的飞跃需要新的根本性的研究突破。
而显然,他领导的SSI就是要做这个事情,引导新的研究突破。
第二,模型的能力与产生的社会经济影响不成比例。
ilya认为,今天的跑分结果总是很惊艳,代表了模型的能力已经很强了。他们为了达到这个能力,烧了非常多钱。但在实际经济活动中的影响却不成比例地小。
他认为这是因为很多模型存在(Jaggedness)的问题——即所谓的模型能力时高时低的问题。可能在测评等一些场景表现出色,换一个场景突然又变得很白痴。
而Jaggedness背后又是模型泛化能力不足。RL构建的学习环境,本质是一场巨大的“应试教育”。今天人们花在强化学习的投入甚至已经超过了预训练。但当训练的时候,有“全量的数据”做支持,再加上不断刷题,导致应试能力很强。但到了具体的应用场景里,碰到完全没有遇到的新情况,就容易出问题。
第三,散落在访谈的各个角落里的,是他对今天硅谷巨头主导的AI生态氛围一如既往的厌恶。
Ilya把今天的AI巨头们的竞赛称之为“Rat Race”(老鼠竞赛),这种竞争总是会带来痛苦,所以他并不想参与这种事情;
他觉得今天行业里缺乏自己的想法(More Companies than ideas),这导致大家都缺乏核心的新想法,总是做重复的事情,把竞争局限在了商业维度里。他不赞同硅谷的老话,“ideas are cheap,execution is everything”。
他反问,“if iedas are so cheap,how come no one's having any ideas?"
第四,作为Ilya的传统保留节目,Ilya批评了今天的AGI安全。
他认为让AI去学习“人类价值观”是不可取的。因为人类价值观本来就是脆弱又矛盾的。如果你学习人类的价值观,可能最终得到的东西,就是些表面相似但本质不同的东西。
以上批评其实都是“辩证统一”:
他共同指向一个浮躁的,还没有实现足够优秀的技术,就提前过度商业化的AI生态。
如ilya所说,“市场就是一个目光极其短浅的智能体”。
如果站在泡沫论的角度来说,我们也可以说,正是这种畸形的生态,搭配市场经济的短视与贪婪,某种程度让AI膨胀到了如此夸张的地步,让AI公司更偏执,从而让ScalingLaw被无限推升到它本不可能达到的高度——这让现实变得像一部科幻小说一样。
但坦白说,Ilya对AGI的批评没有太新的观点,类似的观点在前两年也说过,Lecun等LLM的批评者也经常说。这个生态浪费了夸张的钱、电力和算力,却迟早会碰到它的天花板。
以至于同样被大厂“赶出来”的 LLM 异教徒 Lecun 在X发了一个搞怪的图片,来自嘲两个人有相似的观点却有完全不同的舆论反馈:
但两者的批评相似,却其实还是有些不同的。
Lecun是彻底的革命派,要打碎旧的LLM制度,建立一个新的AGI;但Ilya则是主张洋务运动式的君主立宪,要在LLM生态的基础上,做进一步的技术能力突破。
而这个“突破”其实就是要做ASI。
Ilya要一步登天做ASI(超级人工智能)
在对话中,我印象最深的一件事情是:
Ilya好像变得建设性了很多,尤其是他似乎对安全担忧的表达变得很克制,更多是在从产业进步的角度来谈论AGI的生态。与此同时,他也重申了自己SSI公司的定位和打法:
SSI是一个纯粹的做研究的公司,而不会去做产品。
这种选择其实也很好理解:如果scaling注定没有办法走到终局,如果今天的硅谷商业竞争是带着内卷、偏执和创造力湮灭的话,一步登天其实也是一种选择。
这也是为什么ilya觉得30亿美元已经非常足够的根本原因,因为他不会像奥特曼那样,每年花费天价去供养一堆免费用户来薅自己的羊毛,他会把一切都聚焦到一个宏伟的未来身上。
对于SSI,他没有给出明确的答案,但给了不少方向:
如果Scaling不行,那么就要重新回到基础能力研究上。
Ilya认为,今天的算力是非常充裕的,但预训练的数据有限,所以瓶颈会放在关于泛化的能力上。
这意味着很多不一样的事情,比如样本效率变得很关键。就像人只需要10个小时的数据就能学会开车一样,大模型应该具有更好的泛化能力。
价值函数也变得更加重要。Value Function算是整场对话中,最高频出现的词语。
Value Function有点像人类的直觉,甚至情绪。这意味着它在推理的过程中,就能意识到这一步出现了问题,而不是要探索完所有的道路。有点类似于让快慢系统中的“系统2”直接参与到辅助决策中,如此便可以大幅降低推理的成本。
这其实有点像从“应试教育”转向“素质教育”,不靠背题,而靠内在学习能力的提升。
而这刚好就是Ilya对ASI(超级智能)的构想:
它不是一个全知全能的模型,而是一个“快速学习者”,能够用小的样本高效学习,也能像人类一样,在没有海量的指示下,持续学习。ASI 会更像一个15岁的超级智能学习,不知道很多东西,却不断渴望学习。
在安全方面,Ilya认为让AI感知生命,可能是比理解道德更好的路径。
如果能让AI感知所有的生命(包括所有的动物与AI自己),与他们共情,会是一个更高效的方法。如果它能用同样的机制理解自己和其他感知的存在,它最终就可能产生关怀。
但即便如此,liya依然对未来的长期均衡有所担忧。
所以他认为人类如果要避免成为“宠物”,方式可能是自己也能成为一个很强大的AI,实现方法就是通过加入脑机接口。他说自己绝对不喜欢这个方案,但它确实是一种可能性。一种半人半神的,终极的“对齐”的方案。
ASI很美,但也很遥远
当主持人问Ilya,他描述的那个更好的系统,大概还要多久到来的时候。Ilya说:
“5 到 20 年”。
这是一个过于宽泛的数字。
假如往前推导5年前:2020年,OpenAI才刚刚发布GPT3.0,tranformer才正式成为一种共识;如果是20年前:2005年,youtube才刚刚成立,人类刚刚勉强迈入了视频消费时代。那意味着这项工程,几乎要囊括两到三代不同代际的工程师的努力。
如果ASI不能在五年内落地,SSI又不做产品。那么在这期间,SSI还要做什么,才能度过漫漫智能发展的长夜?
而从访谈中可以看到,Ilya构想的可能是一种乌托邦式的AGI生态。如果我们沿着这篇访谈的观点,甚至可以描绘出它真正该有的样子:
人们对于技术路线有着热诚的追求,技术方案百花齐放,所有人都在寻找更创新的方法,而不是在标准答案上修修补补;
因此,创新是被重视的,Ideas不是廉价的而是被珍视的,世界是被新观点而不是新算力驱动的;
在那里,技术是有审美的。它应该是简洁、优雅、美的,而不是大量浪费的,大力出奇迹的。如ilya说,历史上所有的突破,其实都不是依赖大规模的算力的,transformer只是基于几张GPU就构建出来了。
研究者的研究是为了人类共同的文明的利益的,研究者应该重视安全性。而不是大企业大资本之间,围绕scaling law和用户注意力而相互倾轧的。
但当今天,AI已经聚集了数万亿美元的投资,无论是AGI还是他的门徒们,都已经懂得了世故圆滑,拥有了金钱权杖。Ilya离自己梦想的世界,可能已经渐行渐远了。
(周华香对本文亦有贡献)