AI就是所有人疯狂竞争,最后Google赢得比赛的游戏?

Source

2016年,刚刚成为GoogleCEO几个月后,桑达尔·皮查伊发表声明称Google将成为一家“AI优先”的公司,这一宣言背后,是Google对人工智能未来发展的战略性押注。2017年,一群Google研究人员撰写了一篇关于AI的开创性论文《Attention Is All You Need》,提出了一种新的网络架构来分析文本,也就是后来成为了生成式AI技术基础的Transformer。

然而,七年后的2022年底,ChatGPT横空出世,Google被打了个措手不及。讽刺的是,Google早在两年前就已宣布了类似的技术LaMDA,却未能将其及时推向市场。正如许多竞争对手所预料的,这个“房间里的大象”终于被迫醒来。面对突如其来的竞争压力,皮查伊甚至请回了公司联合创始人拉里·佩奇和谢尔盖·布林来重新审视公司的AI战略。

在ChatGPT推出后的几个月,Google匆忙推出了自己的聊天机器人Bard(后改名为Gemini)。为了追赶对手的领先优势,Google不断为Gemini添加大量新功能,试图弥补落后的局面。Gemini在过去也曾卷入争议,去年不得不暂时下线其图像生成功能,原因是这个聊天机器人生成了穿着纳粹军装的黑人士兵图像,同时又拒绝生成白人的图像,这一功能直到六个月后才重新恢复。

经过几年的努力,甚至重组了团队结构,将Gemini应用团队转移到DeepMind部门,Google通过Gemini实现了反弹,将人工智能业务推向快车道,几乎在所有方面都赶上了OpenAI。

值得注意的是,所有AI领域的大公司似乎都在朝着相同的方向发展,专注于相似的技术路线:开发AI Agent(能够自主完成任务的AI系统)、深度搜索、更轻量的模型等等。这种趋同性可能意味着整个行业在某种程度上形成了共识,而Google正试图在这个共识中脱颖而出。

Gemini的高频实用更新:从图像编辑到开源模型

就在苹果承认那个所谓更智能的AI版Siri目前只是个空头支票的同一时期,Gemini推出了数个惊艳的更新。Google的Gemini 2.0 Flash模型实现了让用户直接用自然语言来编辑图片的功能,精确度和灵活性达到了很高的水平。此前备曾收到争议的图像功能,如今已成为Gemini的亮点之一。

用户可以精确指导AI只修改图像中想要改动的部分,还能在同一张图上连续做多次精确修改而风格不会出现大的偏差,就像在给一位真实的设计师发需求一样。虽然目前Gemini 2.0 Flash还不能做到100%的一致性和准确性,但它显然为用户提供了创造更有趣、有用内容的强大工具。

将Google DeepMind 的 CEO Demis Hassabis变成一个长发男子
将Google DeepMind 的 CEO Demis Hassabis变成一个长发男子

在开源方面,Google上周还推出了新的多模态模型Gemma 3,并对外开放了模型权重,允许在遵守规定的情况下用于商业用途。Google表示,Gemma 3的Elo评分达到了1338分,相当于DeepSeek R1模型(1363分)的98%。

但有个显著区别:DeepSeek模型需要32张英伟达H100显卡才能达到这个分数,而Gemma 3只需要一张H100就行。因此,Google宣称Gemma 3是“能在单张GPU或TPU上运行的最强大模型”。

Gemma 3的上下文窗口从先前的8192个token扩展至128000,基于Gemini 2.0基础架构的Gemma 3还是一款多模态模型,能够处理文本、高分辨率图像以及视频。这些技术指标显示了Google在AI基础模型领域的持续突破。

搜索与AI的深度融合:个性化成为关键

显然,Google在很多领域都能够持续创新,比如Gemini,或者体验一下Waymo无人驾驶汽车就知道了。现在的问题是,Google能在自己的核心产品和主营业务上进行创新吗?微软目前的AI战略很大程度上依赖于与OpenAI的合作伙伴关系,而非完全自主创新,苹果则在AI领域似乎完全迷失方向。

现在,Google一方面在搜索中加入了 Gemini 的 AI 功能,另一方面又在 Gemini中强化了搜索能力,直接切入 OpenAI试图抢占的交汇点。过去几周Google发布的一系列公告,许多都与搜索与AI语言模型的融合有关,看上去像是在追赶ChatGPT等厂商早已推出的AI搜索功能,但Google试图达到更高水平。

牺牲一部分隐私,让AI更了解你?Google最近上线了一项新的“实验性功能”,用户可以把搜索记录共享给Gemini,来获得更加个性化的搜索结果。为了保护隐私,只有Gemini个性化模型才会连接到搜索历史记录,且相关对话不会被用来改进Gemini,不会存储在其他地方,并且会在60天内自动删除。

有了这个功能,用户可以向Gemini提一些基础性问题,比如“我上周搜索的那家餐厅叫什么名?”或者“我要去纽约了,能根据我的搜索历史给我推荐餐厅吗?”。

此外,Google去年底推出的率先推出的Deep Research功能,如今用户无需订阅也可以免费使用了。使用Deep Research时,根据用户的指令,Gemini会先制定一个研究计划,然后开始搜索网络上与提问相关的信息,最终生成一份全面但易读的报告。这一功能从最初基于成本较高的Gemini 1.5 Pro模型,现已升级到新的推理模型Gemini 2.0 Flash Thinking Experimental模型上。

从数字世界迈向物理世界:Gemini Robotics的野心

Google还在尝试将Gemini应用于物理世界。DeepMind近期推出了两个新的模型,旨在帮助机器人更好地执行物理世界的任务。第一个是视觉-语言-动作模型Gemini Robotics,让机器人即使没有接受过相关训练,也能够理解新情况。

Gemini Robotics基于Gemini 2.0构建,结合了Gemini的多模态理解能力,并加入了物理动作作为新的模态。DeepMind在演示视频中展示了搭载Gemini Robotics的机器人,这些机器人能听懂人说的指令并做出相应动作:机械臂能折纸、递蔬菜、小心地把眼镜放进盒子里,还能完成其他各种任务。

DeepMind还推出了Gemini Robotics-ER(具身推理),一种先进的视觉语言模型,能够理解复杂且动态的世界。简单来说,这个系统是给机器人开发者用的,目的是让其他机器人研究人员利用此模型来训练他们自己的模型,以控制机器人的动作。

Gemini Robotics揭示了GoogleDeepMind眼中AI的发展方向。一些研究人员认为,AI要想达到或超越人类能力,可能需要某种形式的“具身性”,简单说就是让AI能在真实世界中感知和行动。而Google似乎已经走在了这条路上。

Google的核心优势:生态、资源与底蕴

Google追赶OpenAI的表现目前为止还不错,Gemini 2.0 Pro和Flash模型确实很出色。深度研究功能做得相当好,上下文窗口大小在业界仍然是领先的,与搜索、Gmail、Google办公套件、Google Meet、Android等的整合也在进行中。

Google还把推理模型整合到了更多日常应用中,包括日历、笔记、任务和照片。这使得Gemini可以执行更为复杂的任务,比如Google举例的:“在YouTube上找一个简单的饼干食谱,把配料添加到我的购物清单中,然后帮我找附近还开门的杂货店。”未来,Gemini还能增强对用户照片的理解能力,帮助用户在需要时提取信息,例如整理过去旅行的行程,或提醒证件到期等。

有了足够优秀的基座模型,这让Google能够充分利用自己现有的产品组合、云基础设施以及他们在现代工作生活中的深度嵌入优势。Google还拥有数十亿用户和充足的资金实力,可以利用自己的现有用户基础,以OpenAI们无法企及的方式发挥优势。

皮查伊曾在公司年终战略会议表示:“纵观历史,你不一定要成为第一个,但你必须有良好的执行力,真正打造出同类最佳的产品。我认为这就是2025年的关键所在。”他希望到2025年底有5亿人使用Gemini,此外还有Project Astra这样的通用Agent项目在酝酿当中。

Google本来有潜力成为像ChatGPT这样的对话式AI的市场领导者,但当时没能把握住这个机会。现在,现在Google所能做的就是继续推进这项服务,吸引更多用户来使用。

各个科技公司正不断推出新的应用场景和能力。尽管最初被OpenAI刺激而被动反应,但凭借深厚的技术积累和广泛的用户基础,Google正逐渐重新确立其在AI领域的领导地位。在这场AI竞赛中,Google用Gemini的亮眼表现证明了自己依然是绝对的主力选手,而且底子依然足够厚,正在展示出赢得这场比赛的实力和决心。