这是一期慢慢碰撞出来,而且在录制完毕后仍然没有“结束”的播客。让我讲一讲它的缘起:
10月中的一天,在旧金山湾区,Tinyfish 的联合创始人兼首席运营官 Keith Zhai (翟琦)跟我一起午饭:Tinyfish 要发布一个新的版本,他跟我聊,该怎么向普通人介绍 Tinyfish,它有什么用,最好是一句话。
这……确实是个挺难的问题。Tinyfish 在 8月底获得了 ICONIQ 领投的 4700万美元融资,是全球通用 Web Agent 当中比较有代表性的一家,它不直接服务于每一个人,Google 和 DoorDash 是它两个比较重要的客户。
Google 和 DoorDash 用 Tinyfish 做啥?搜索。对,你没听错,Google 靠一家创业公司做“搜索”。这里的区别在于,Google 的搜索,是给“人” 用的,搜索的是已经存在的静态的页面;而 Tinyfish 的搜索,是给机器用的,搜索的是动态的互联网信息。准确地说,它不仅仅是搜索,而是一个 Agent, 通过对实时动态的互联网搜索、聚合与整理,提供给人们需要的结果。
我说,Tinyfish 是 一个 Meta Web,a mete web to operate all webs and web information all around the world. Keith 想了一下说:大家应该还是不理解。什么是 Meta Web? 人们没见过啊。
我说,AI 时代的很多产品就是——在没做出来之前,就算你是产品经理,你也不知道它长什么样啊。
Keith 说:唉,AI 时代,想象力是最重要的,人们经常会缺乏对 AI 产品的想象力。
然后我就去了纽约,在我在纽约出差时,OpenAI 发布了浏览器 Atlas。很多人觉得这是一个划时代的产品,也有一些人觉得它缺乏想象力。
于是我飞回了旧金山,跟 Keith 录了这期播客。我们觉得,Atlas 是一个人们了解什么是 Web Agent 的“反面案例”,它在打开了人们与机器交互方式的想象力的同时,限制了对 AI 能超越人类的“监视”和嫩合理局限,自主处理几何级增长数量的海量信息的想象力。
Keith 认为:浏览器是不需要存在的。搜索是有清晰的天花板的。未来人类不需要搜索,甚至不需要浏览,就能用一个 Agent 处理互联网世界的信息和内容。这就是这期播客的主题。
前两天,Keith 跟我说,Tinyfish 做了一次更新,推出了一个 Operational Model for the entire web。他写了一篇博客放在了官网上,标题是 Tinyfish and the limits of search,他说:这篇文章是受我们上次播客的启发。
他在文章中说:
“浏览器 Agent 在用户上下文中运行——单会话、单浏览器、以人类速度运行。它们是提高效率的工具,可以帮助你更快地浏览网站。但它们无法解决企业级难题:如何在成千上万个分散的系统中实现可靠的智能。你不可能通过一个每次只运行一个会话的浏览器代理,每月执行 3000 万次操作”。
而这是 Tinyfish 希望做到的。只要当浏览器需要人的“浏览”,它就不可能释放指数级的生产力和效率。从这个意义上来说,把关于 Web 的一切交给 Web Agent,一个 Meta Web,可能是一条路。
这就是这期播客的主线,以下为对谈实录,Enjoy。
骆轶航: 大家好,欢迎收听《硅基立场》。接下来我们会更频繁地与大家见面。这期节目依然是在旧金山湾区录制的 Podcast。我们录制这期节目的背景,是因为几天前——大概三天前——全网都在讨论 OpenAI 发布的新产品——浏览器 Atlas。这件事可以说是硅谷乃至全球 AI 产业都绕不开的话题。今天邀请到的嘉宾是一位非常有意思的朋友——Keith 翟琦,他是 Tinyfish 的联合创始人兼 COO,这是一家专注于 Web Agent 的公司。
稍后我会请 Keith 详细介绍一下 Tinyfish,以及什么是 Web Agent。请他来的原因也很简单:他们所做的事情,本质上就是“用 Web 操控 Web”——也就是通过网页去操作浏览器本身。因为这些场景全部发生在浏览器环境中,所以我认为 OpenAI 推出的 Atlas 对他们来说,既可能带来新的思考,也可能带来挑战,甚至两者兼有。无论如何,Keith 是一个真正的“局内人”,一个真正意义上的 insider。
还有一个有趣的背景是,Keith 以前和我是同行。他曾是记者——在 Bloomberg 和 Wall Street Journal 都工作过。
翟琦: 当然没错。
骆轶航: 对,他在《华尔街日报》和彭博社都有工作经历。当年他的报道内容我们这里就不多展开了——他曾经是跑中国政治线的记者,信息准确且见解深刻。我一直很欣赏他中立而建设性的态度,这也是我非常愿意和他对谈的原因。如今他已从记者转型为创业者,在硅谷创办了一家面向企业(B2B)的 AI Agent 公司,这样的转变本身就非常有意思。那我们就正式开始今天的讨论吧。要不,Keith,你先介绍一下自己,以及你现在在做的事情?
翟琦: 好的,谢谢骆老师,也向各位听众朋友问好。正如刚才提到的,我的职业背景确实是记者,曾在《华尔街日报》、彭博社、路透社等媒体工作过。其实,我过去二十年的核心工作,都是与“信息”打交道。很多人以为记者的工作重心是写作或撰稿,但我认为并非如此。新闻工作的核心,是把那些原本不为公众所知的信息,带到公共领域——这就是所谓的 public interest(公共利益)。这也是我过去二十年来一直在做的事。
TInyfish 是我在一年多前创办的,目前公司已经完成 A 轮融资,总部在硅谷。我们定位为一家 AI Native Infrastructure Company(AI 原生基础设施公司)。
从浏览器 Atlas 说起:当 Agent 能“上网”
骆轶航: 你们自称是 “AI 原生基础设施公司”,而不是 “Agent 公司”?
翟琦: 对,这和我们今天要聊的话题密切相关。OpenAI 推出的 Atlas,本质上是一个全新的浏览器(Browser)。但其实,大公司重新回到“浏览器战场”这件事,本身并不新鲜。
骆轶航: 我发现,每一次当科技巨头真正进入决战阶段,战场往往都会落在浏览器上。至少在美国和硅谷,历史都是这样:早期是 Netscape Navigator 对 Internet Explorer,后来是 Chrome 对 IE,而现在,则似乎是 Atlas 对 Chrome。
翟琦: 确实,这是一个非常有意思的话题。因为 Web Agent 的核心就是——让 Agent 能帮你上网,代表你与网络交互。现在,各大公司都在重新布局浏览器。最新的是 OpenAI 的 Atlas;此前 Perplexity 发布的 Comet 其实也是一种浏览器形态的产品;更早之前,Google 在 Chrome 上已经加入了 AI 功能,比如侧边栏里的智能助理。甚至在某种意义上,Facebook 在 WhatsApp 中做的那些 AI 尝试,本质上也是在寻找“用户进入互联网的入口”。
但如果我们稍微退一步,从更宏观的角度来看这些浏览器的变化,其实是在反映整个互联网形态的变化。自上世纪 90 年代初,人们开始成规模地使用互联网以来,发生了剧烈的转变。最初,互联网上只有几千甚至几万个网站,而今天,已经是超过 20 亿个网站,数量几乎无法统计。
骆轶航: 早期的网站其实就是几张静态页面的组合,非常简单。至少在 1995 年之前,基本都是那样。
翟琦: 没错,Web 1.0 时代的网页非常简单,内容也很少更新。那时候能做到每天更新的,基本只有新闻网站。
骆轶航: 对,能保证每天更新就算非常快了。
翟琦: 没错。我们都经历过那个年代——上网浏览的体验其实极为单调。当时唯一的“动态页面”,你知道是什么吗?聊天室。像“263 聊天室”“碧海银沙聊天室”,这些才算是真正意义上的动态交互。
骆轶航: 哈哈,暴露年龄了。
翟琦: 是啊,但从更本质的层面看,这三十年来变化的是信息的量级——网页的动态性和内容密度都发生了巨变;但人类与网页的交互方式几乎没变。人依然要主动打开电脑、打开浏览器、搜索、阅读、填写——所有动作的逻辑都是一样的。
骆轶航: 这个行为模式从万维网诞生至今,都几乎没变。
信息爆炸与有限人类:生而有涯,知也无涯
翟琦: 没错。从 Tim Berners-Lee 发明万维网(World Wide Web)到今天,我们每天可支配的时间——7 天 24 小时——并没有变。但信息量却呈几何级数增长。互联网带来了“信息爆炸”,而人类的处理能力却没有质变。我们的时间、精力和感知能力都是有限的——而互联网、计算机、模型则没有这些限制。
骆轶航: 模型当然也没有。
翟琦: 正是如此。随着大模型的出现,信息的增长速度还在加快。这是过去二十多年互联网发展的核心矛盾之一。
接着我们再看,当浏览器这一层不断演进时,它其实反映了一个共识:互联网的“用户”正在发生变化。最初的互联网完全是人类使用的,而现在的趋势是——不仅人类,Agent 也要成为互联网的使用者。
但这就带来了一个问题。作为一个曾经的记者,我最擅长的就是提问题——那就是:当互联网的“用户”从人类扩展到 Agent 时,它的底层基础设施是否也应该随之改变?
这个问题的启发来自上一次大转型——当互联网从桌面端迁移到移动端时,你还记得吗?那时很多公司只是简单地把桌面网页“搬”到手机上,不作任何改动就上线了。
骆轶航: 我当然记得。我们当年做得比较早,PingWest 的网站启动得挺早,但移动 App 做得很晚。那时我们花了大量时间在“网页重构”这件事上。
这些所谓的 “AI 浏览器”,像“马车与汽车之间的过渡阶段”?
翟琦: 当时我们在做移动适配设计的时候,那个方案其实挺受欢迎的。我们把 H5 页面搬到手机端,既美观又有交互性,那是当时很多人都在做的事。其实美国公司在这方面做得更多。但后来大家逐渐发现,整个互联网在进入移动时代后,所谓的 “Mobile Native App” 完全不是简单地把桌面网页搬到手机上,而是一次彻底的重构。
这就像我最近常想的一个比喻:在早年间,人类主要靠马车出行,城市道路都是为马车而建的——胡同狭窄、转弯急促。比如我住在北京的东四六条,现在停车极其麻烦。街道办给我分配的停车位在东四地铁站附近,我还笑说那干脆分到朝阳门好了,直接停公司门口算了,回家坐地铁。
这就是典型的“旧基础设施适应旧时代”的产物。它当然能用,但已经不适应新一代的交通体系。如今的城市要有二环、三环、六环这样的空间逻辑,整个系统已经完全不一样了。那我们回到浏览器这个话题,其实是同样的道理。
骆轶航: 所以我插一句。你觉得现在这些所谓的 “AI 浏览器”——无论是 Chrome 未来可能更深度集成 Gemini,还是 OpenAI 的 Atlas,又或者像 Comet 这种内嵌不同模型、以多步方式协同 Agent 与人类共同操作的产品——它们的形态,是不是就像“马车与汽车之间的过渡阶段”?
翟琦: 对,你说得非常准确。我正是这个意思。我认为这种做法是错误的——就像当年那些人以为把桌面网页搬到手机上就算“移动化”一样。
骆轶航: 我插一句,当时我有一个非常深的印象。2016 年 9 月,我去慕尼黑附近的英戈尔施塔特(Ingolstadt)参观奥迪总部的汽车博物馆。那里展出了一台奥迪最早的汽车,应该是 1890 年代的产物。那辆车装有一个非常弱的小型引擎,但外观几乎与马车一模一样——敞篷设计,乘客位置较低,两侧还有排水槽。那其实是马车时代的遗留结构,因为马车在行驶时需要排雨水。
当时我就在想:为什么汽车需要排水槽?今天我们已经进入电动车时代,有了 Tesla 这种连发动机都没有的车。回头看,那种“马车样式的汽车”更像是一个过渡形态。
所以我就在想,现在这些 AI 浏览器,会不会就像当年那辆第一台奥迪汽车的样子——看似是新物种,其实还背着旧时代的形态?
浏览器的“始祖鸟时刻”:Chrome 与 Atlas 的错位竞争
翟琦: 没错,Browser Agent 在我看来正是如此。就像你说的,它有点像“鸭嘴兽之于哺乳动物”“始祖鸟之于鸟类”。我们现在处在一个信息形态剧烈变化的时代。第一层的变化是信息规模的几何级增长;第二层的变化是用户形态——我们让 Agent 作为“新物种”参与进互联网的交互中。
但问题是,底层基础设施并没有同步演化。所有浏览器的核心仍是“人”——必须由人来全程参与、观察、控制。它或许能让速度快几倍,但永远受制于人类自身的时间维度:我们是有限生物,有 24 小时、有睡眠、有寿命。
现在我们邀请了“Agent”这个新角色进入交互过程,但它仍只是一个附属——长在浏览器里的一个功能模块。核心逻辑依旧是“人驱动 Agent,Agent 操作浏览器”。所以我认为这种产品形态仍是过渡性的。大家都在做,也无可厚非,因为谁都希望掌握互联网入口。
只是,从长期来看,我认为在用户形态(Agent)与信息变量都发生巨变的时代,我们也需要一种全新的基础设施去支撑这种“爆炸级增长”。
骆轶航: 没错。我们正进入一个因 AI 带来几何级生产效率提升的时代。可在浏览器上由人去操控 Agent,本质上并没有真正提高效率——它仍受制于浏览器这个旧的基础设施。所以,问题不在于 Agent,而在于浏览器本身——是浏览器这套架构需要被抛弃。
翟琦: 对,我同意。
骆轶航: 所以说,可能和我们原先预想的讨论角度有点不同,但其实又挺一致的。我们这一代人——四十岁上下——都经历过浏览器战争的时代。Netscape 被 IE 打败,是 1995 年左右的事。那是一场真正意义上的“第一次浏览器战争”。
我当时还小,不太明白那是怎么发生的。家里第一台电脑是 1996 年买的,打开就只有 IE。我默认互联网就是那样开始的。
但到了 2008 年,Chrome 出现时我已经是商业记者了。那天我在办公室里特别兴奋,因为 Chrome 给我的感觉就像“下载一个新的操作系统”。虽然很多人当时觉得这事不大,但我觉得那是历史性的一刻。我甚至跨洋采访到了 Sundar Pichai,当时他还只是 Chrome 的产品负责人。
到了 2015 年,Chrome 已经垄断了整个市场。
所以这一次,我在看 Atlas 的时候,会本能地想到——这是不是“第三次浏览器战争”?但也许你说得对,第三次浏览器战争根本不该存在——因为浏览器这个形态本身已经是伪命题。
翟琦: 是的。如果我们相信未来的世界一定会涌现越来越多的 Agent——首先信息量会持续爆炸,这一点毋庸置疑——那么接下来就会出现越来越多的 Agent 去处理这些新增的信息。换句话说,“用户端”和“信息端”两边都在快速膨胀。
当输入与输出两端都发生巨大变化时,我们为什么还要坚持用上一代的基础设施?
骆轶航: 浏览器已经成为一个过时的基础设施。
翟琦: 没错。正如丘吉尔说过:“民主是最糟糕的制度,但比它更好的制度尚未被发现。”我觉得浏览器也是一样——它或许是最差的一种交互形态,只不过更好的形态还没被真正发明出来。
骆轶航: 浏览器是一种最差的人机交互形态,只是最好的形态还没有出现。
翟琦: 对。你想,“浏览器”这个词本身就来自英文 browse——意思是“随意翻阅、浏览”。为什么人要“浏览”?
因为他不知道自己要什么。人会浏览、会逛街、会刷短视频,本质上是出于不确定性。当你在互联网上浏览,其实就是在探索。
而当人知道自己要什么时,就会 search——搜索。但搜索行为往往又被现有的基础设施所限制,比如 Google 的算法和商业逻辑。你以为自己在主动寻找,实际上只是被动接收了可被提供的选项。
Tinyfish 的做法:让机器在网络上自动执行
骆轶航: 在如今拥有数十亿条信息的互联网中,我们却仍无法做到“我想要什么,就能直接得到什么”。哪怕已经进入 AI 时代,互联网依然是“我想要一些东西,我去找,然后可能找到,也可能找不到”。它并不是一个能主动响应意图的体系。这就意味着,我们需要一种全新的 Infrastructure(基础设施)。那你能不能具体讲讲,Tinyfish 正在构建的这种新基础设施到底是什么?它和现在的互联网有何不同?换句话说,What kind of infra is Tinyfish building?
翟琦: 每个人、每家公司的需求都不一样。而我们已经观察到,Agent 或 AI 的核心趋势之一,就是它们会越来越了解每个人的意图(Intention)和需求(Intent)。语言模型(Language Model)只能回答问题、生成文本,但它不能“做事”;而 Agent 的意义在于,它能基于用户的真实意图去执行任务——无论是在浩瀚的互联网中帮你找到所需的信息,还是直接完成一项工作,这才是 Agent 的核心价值所在。
因此,现在有两种思路。第一种思路,是让整个互联网自己去完成“升级”,也就是每一个网站都重构交互方式,从 Human Friendly 变为 Agent Friendly。这就像当年网站从桌面端迁移到移动端时,大家纷纷去改版,做“移动友好”的网页(Mobile Friendly Site)。但问题是,这个过程极其漫长。即便今天,也有大量网站——尤其是长尾或边缘网站——仍然没有真正完成移动化。美国、日本、欧洲的情况甚至更糟。因为并不是所有人都有能力升级自己的基础设施,这使得这种变革周期非常长。
但趋势是确定的:大型互联网公司终究会被迫这样做。因为互联网的核心仍是“人”——而人性永远追求方便、便宜、高效。企业即使一百个不情愿,也会被迫跟上。这是一种被“用户需求”倒逼的进化。
说到这里我想起一个例子。去年底,微软提出了一个概念叫 NL Web(Natural Language Web,自然语言网络)。这件事很多人可能没注意到。我们当时与微软有一些沟通与合作,对此了解比较深入。所谓 NL Web,它并不是我们理解的“区块链式 Web3”,而是一种“去中心化、以自然语言交互为核心的 Web 架构”。可以理解为一种“Agent-Friendly 的 Web3”,它强调个性化、自治性和自然语言接口——让每个网页都能理解并响应你的意图。
这件事很有趣。微软之所以推动它,恰恰因为它没有像 Facebook、Google 那样掌握互联网入口。它没有现有的搜索或社交包袱,因此可以尝试“绕开旧入口,重新定义入口”。NL Web 的核心目标,就是推动所有网站逐渐转向 Agent-Friendly 的设计逻辑,而不是传统的 Human-Friendly。
骆轶航: 那从你看来,Atlas 目前依然是 Human-Friendly 的,对吗?就像你说的,它依旧围绕人、网页、浏览器这一老三角运作——用户在操作浏览器、浏览网页、观察 Agent 的动作。甚至像你提到的那种“人可以随时打断 Agent”设计,本质上也是一种人类主导的交互机制。我在旧金山的发布活动上还问过张涛:有多少用户真的会去“打断” Agent?结果发现,一旦人去打断 Agent,双方都会陷入混乱——人和机器都不知道下一步该干什么。
翟琦: 没错。这其实就像一个比喻:超人和我们之间的区别是什么?他也是人,只不过把内裤穿在外面(笑)。但关键在于能力的数量级差异——我们跑 100 米要十几秒,他可能只需要半秒。也就是说,当我们跑 1 万米时,他已经绕地球几圈了。在这样的速度差距下,你怎么与他“互动”?你刚迈步,人家已经跑没影了。
这其实说明,Agent 的核心优势在于可扩展性(Scalability)。它的速度、并发能力、执行效率,都不是人类的几倍,而是上百倍。从基础设施视角来看,我们不是要“帮助人更好地开马车”,而是要重新造一辆“汽车”。这不是在旧物种上装上 AI 模块,而是要重建整个物种。
骆轶航: 对,我们不是在一辆马车上装一个 Agent。
翟琦: 没错。目标不是让马车跑得更快,而是创造一种全新的交通形态。就像电动车刚出现时,很多人只把它当成“节能的马车”,但那只是过渡阶段。我十几年前采访过北汽福田的电动车,当时坐上去感觉又吵又晃,那时候人们的思维还停留在“如何节能”。而马斯克的思路完全不同——他从不提“节能”,而是问:“为什么电动车不能干掉法拉利?”这就是思维方式的根本转变。今天的电动车,不只是“替代能源的载具”,而是“重新定义速度与体验的物种”。
骆轶航: 是的。其实这也让我想到一个问题:我们在理解 AI 产品时,一个被忽视的关键点,就是“人”的角色。为什么人必须始终是那个主导者(Dominator)?在具体的任务执行过程中,为什么人要始终在场?这种“亲历感”和“参与感”真的能让事情更高效、更优质吗?还是说,它其实已经成为效率的阻碍?
翟琦: Exactly。你看,人类早期的生产方式,全靠手工——拿锤子、螺丝刀去完成工作。后来我们发明了工具,让效率提高了一点。但下一步的逻辑是:为什么不能按一个按钮,事情就自动完成?这其实就是 Agent 的逻辑。我们当然都希望如此,但关键在于——我们需要的,是一个真正支持这种逻辑的 新基础设施。
未来的人机关系:判断 vs 执行
骆轶航: 我最近看到一个特别有意思的东西。Manus 团队在社交媒体上发了一个他们内部对 “Vibe Coding” 的定义,还配了个视频,笑死我了。你看现在大家所谓的 “Vibe Coding”,打开 Cursor 就知道,很多资深程序员都觉得这已经不是自己能做的事了。Manus 发的那张图特别搞笑——程序员面前只有两个大按钮,一个左键一个右键,就像《中国好声音》那种,“我要的就是你!” 的红色按钮一样。程序员的工作就变成了:拍这个,或者拍那个。
翟琦: 对,要么选 A,要么选 B。其实未来这个“角色”都可以被省略掉。我看了那个视频也觉得很有趣,他们非常懂传播。但这正说明一个问题——Manus 这样的产品,本质上就是“亮灯”和“灭灯”。判断行为还是由人来完成:比如一家人出去玩,三口人和四口人的逻辑完全不同——今天带狗、明天不带,这些都是人根据需求作出的判断。
而 Agent 的意义,恰恰在于帮人执行,而不是让人盯着它干活、监督它的过程。要是我已经有一个足够强大的模型(Model),Agent 的上下文能力足够强、架构足够好,那我为什么还要一直看着它工作?
骆轶航: 对啊,你根本看不过来。现在很多老程序员看 Cursor IDE 已经快崩溃了——“我为什么要看?干脆挡住得了。”这也是为什么现在 IDE 模式并不是最优解。你看着那一行行代码闪过,根本无法理解机器到底在干什么。
翟琦: 没错。其实让机器大规模接管工作、重构基础设施的目的,就是为了“解放人类”。但问题在于,人类自己首先要意识到这件事确实是“解放”,而不是“被取代”。很多束缚并非来自外界,而是来自我们的思维。刚才我们提到的 NL Web,其实代表了一种思路。
骆轶航: 但我认为 NL Web 其实不是一个真正意义上的 “Web”。它不是一个能被呈现出来的网络。
翟琦: 对,它目前还只是一个理论。
骆轶航: 我同意。它很难被实现成我们今天理解的网页形态。但这恰恰是一个重要的理论起点。那你们 Tinyfish 的思路,和 NL Web 最大的不同是什么?
翟琦: 我们不认为所有人都有能力去改变自己的技术基础设施——这是一个根本前提。但我们认同 NL Web 所代表的愿景:未来的互联网,应该是 Agent 能直接与网络交互的世界。不同的是,我们认为那条路太长、太慢。大公司当然可以重构,但数以亿计的个体会被落下。这也是 Tinyfish 这个名字的由来——“小鱼”,象征那些本不该被时代落下的个体。
我们的逻辑是:构建一个新的平台,让任何人都能在这个平台上,把网页自然转化为可交互的系统。也就是说,Agent 可以直接与网站对话,帮助用户完成任务。这就是我们定义的 Web Agent 核心逻辑。它的前端可以是网页、App,或者一个简单的对话窗口;但关键在于,后端由 Agent 根据用户需求,自动去连接、操作、提交、完成。
骆轶航: 比如填表、搜索、订阅、预约这些操作。对使用者来说,这个过程其实是“不可见的”。他们看不到 Agent 在后台怎么工作,也不需要看到,对吧?
3000 家奶茶店的例子:Web Agent 如何自动完成任务
翟琦: 对,完全正确。它背后在做什么,用户根本不需要知道。举个例子,让我们试着把这个抽象概念具象化。假设北京有三千家奶茶店,每家都有自己的网页。其实差别并不大,但都各有特色。我也不想通过美团或饿了么那样的平台——我不在乎平台的价格战,我只想喝到我喜欢的口味、最划算的那一杯。
在这种场景下,我只需要告诉 Agent:我要哪种奶茶、什么价格、什么时间。Agent 会自己在那三千个网页之间搜索、比较、下单。每个网页都被它临时“平面化”为一个接口,而我不再需要平台的中介。
骆轶航: 对,比如我接入了一个“夸克快购”,但用户要的其实不是平台,而是结果。
翟琦: 没错。平台永远强调“只有通过我,你才能得到最好的”,但为什么?凭什么“最好的”一定要通过平台?
点奶茶还算简单,但你想,如果是找资源、找内容、找服务,这些都没被平台覆盖的需求怎么办?难道要自己手动一个个去找?这不现实。Agent 的存在,就是为了替代人完成这些在互联网上的复杂动作——让人只需表达意图,机器自动执行。
“浏览”这种以人为中心的交互功能,将逐渐消失,Browser is Dead
骆轶航: 我同意。这其实是一种架构逻辑的跃迁。过去我们从 Web 到 Mobile 的转型,很多人因为缺乏开发能力被落下;而现在,从 Web+Mobile 过渡到 AI 时代,同样会有大量个人和组织因为没有构建 Agent 能力而掉队。
我理想中的状态是:每个人都能拥有自己的 Personal Agent。它可以是一个 Portal、一个入口——可能是 Web 形态,也可能是更智能的操作界面。关键是,它具备自动行动的能力,帮我完成事情,而我无需了解它具体是怎么做到的。
换句话说,“浏览”这种以人为中心的交互功能,将逐渐消失。
翟琦: 对。浏览当然可以继续存在,就像现在还有人骑马、用毛笔写字。这些都是个人的爱好,无可厚非。但对机构、企业,甚至个体来说,当目标是提高效率、提升生产力时,“浏览”就不是必要环节了。
这其实回到一个核心概念——Intention(意图)。我们在互联网上常常忽略自己的真实意图,以为自己在交互,其实只是被算法牵着走。
我有个朋友在做一个大型短剧平台,是目前最大的几个之一。他跟我说,他们很多短剧都设计了所谓的“交互剧情”——观众可以选择剧情走向。但实际上,无论选哪条路径,结果几乎都一样。
观众会以为自己“有掌控力”,其实并没有。这正是当下互联网的真实状态:我们以为在互动,实际上只是被动地消费。真正的 Agent 交互,应该改变这种错觉,让机器真正根据用户的意图去行动。
骆轶航: 对,这里人其实不需要再深度参与交互。除了刷好看的照片时,人类几乎不再需要用眼睛。
翟琦: 你这比喻太形象了,拍鸟的时候倒是挺省眼睛的(笑)。
骆轶航: 对(笑)。也就是说,在这样的交互逻辑下,“浏览”本身就变得不再重要。
翟琦: 没错,浏览已经不重要了。
骆轶航: 浏览不重要,那浏览器为什么还重要?有人可能会说——浏览器是为 Agent 做的。但如果真是给 Agent 用的浏览器,为什么它看起来还要和 Chrome、Edge 一模一样?
翟琦: 对,因为浏览器本质上就是为人而生的。机器不需要浏览器——从第一天开始,它就从未需要过浏览。
骆轶航: 是啊。哪怕计算机视觉(CV)也不是靠“浏览”去理解世界的。
翟琦: 对。现在很多人做的“AI 浏览器”,本质上是把网页截图交给语言模型分析,然后让模型告诉你这是什么页面、该点哪里。整个流程又慢又复杂。为什么会这样?因为它仍然在沿用上一代的基础设施——就像你硬要在胡同里停汽车一样。胡同本不是为车造的,你非要停,就得把人行道都堵死。
同样地,浏览器的核心逻辑始终是“给人看的”。
骆轶航: 但如果未来是 AI 在人的指令下与外部世界交互,而人不再直接参与这个过程,那人类就不需要“浏览”,自然也不需要“浏览器”。所以从长期看,你认为 Atlas、Chrome 这类仍以“人”为中心的浏览器,其实意义有限?
翟琦: 是的。从长远看,这些设计确实没有意义。不过在现阶段,它们仍然在做一些“有用的事”——比如采集用户数据、训练模型、积累交互样本,这些都非常有价值。但从下一代互联网的逻辑来看,这些行为已经与未来形态无关。
骆轶航: 这就有意思了。你说这种形态“从长远看没意义”,但你们的客户中就包括 Google 和 DoorDash。这两家公司我每天都在用:Google 几乎无时无刻不打开,DoorDash 我每天要用两次——因为我不吃晚饭(笑)。所以我想请你具体讲讲两件事:
第一,Tinyfish 具体帮他们做了什么?
第二,站在人类用户的角度,有了这种 Web Agent 介入后,我和他们的互动发生了怎样的变化?
翟琦: 这两个例子都挺典型。先说 Google。虽然它几乎拥有全世界的信息,但仍有很多信息它无法获取。我们在日本市场帮它做了一个项目——订酒店。你知道订日本酒店有多复杂。日本网站的交互是全世界最“古早”的之一,很多仍是上世纪八九十年代的网页框架——几乎全是 Yahoo! 风格。
而这些页面要想抓取信息,极其困难。因为数据不是静态存在的,而是动态生成的:你必须输入日期、人数、房型等参数,页面才会显示价格和库存。这意味着,传统的爬虫根本无法工作——除非你雇八千个人,每人每天盯一个网页,一年不间断地刷新、录入价格、房型、吸烟区等信息。没人会这么干。
我们为 Google 构建的,就是一个可以自动完成这一切的 Web Agent 平台。它不需要这些酒店网站做任何修改,而是由 Agent 主动与网页交互,模拟人类输入和操作,持续采集最新数据。它能实时知道房价、空房、设施变化等所有动态信息。这让 Google 能够持续更新它的搜索结果,获取“非结构化网页”中最鲜活的内容。
这就是 Web Agent 的核心逻辑:让网页依然保持原样,但由 Agent 去完成人原本要做的事。网站专注于服务,外部的 Agent 则自动完成“访问、更新、整理”。
骆轶航: 所以 Google 用它,其实是它的 Search 团队——或者说 Agent 体系——在使用?
翟琦: 对。Google 的 Search 团队在使用我们的系统。某种意义上,这也是它的模型生态的一部分。你看,现在 Google 的搜索已经逐渐“Gemini 化”了——Gemini 模型正渗透到整个搜索体系。而我们提供的 Agent,可以更高效地帮它执行“获取事实”这个动作,让整个过程更快、更结构化。
传统上,一个人花两分钟能完成的操作,Agent 能在几秒钟内完成上千次。这就是量化的力量。
骆轶航: 对,现在很多人做 Agent 产品,结果反而让原本两分钟的事情变成十五分钟,还得手动点两次。
Agent 不会 Lost,而人类的注意力会迷失
翟琦: 是啊,这就是问题所在——为什么要把无意义的操作重新加回来?机器的价值就在于解放人,而不是让人反复确认。
DoorDash 的逻辑其实相似。我们帮他们做的是 Search + Execution(搜索与执行)。
传统的搜索只是“找一下”就完了,但搜索之后你还要进入浏览、筛选、下单——这一串动作,人往往在其中“迷失”(Lost)。搜索行为本身就意味着“不确定性”,意味着你不知道自己要什么,也不知道结果在哪。
而 Agent 不会迷失。它知道目标是什么,会自己去执行并返回结果。
骆轶航: 对,人一旦开始搜索,就注定要迷失。我们每次打开 Google 或百度,搜索结果一出来,就被各种信息吸走。
翟琦: 完全同意。互联网的结构就是为了让人“Lost”。广告、推荐、超链接的设计目的,就是让你分心、留在平台上。而 Agent 没有这种弱点——它不会被干扰。
机器不会迷失,它只会执行。它能从成千上万个网页中抓取最精确的反馈和解释。机器没有“迷失”的能力,而人类天生会迷失。
这也是人和 Agent 的根本区别所在。
骆轶航: 接下来我有个好奇点:因为 Google 和 DoorDash 都是非常大的公司,所以你们目前的客户主要还是企业端;你们与个人用户的关系暂时不大。可浏览器与个人用户的关系却很大——这似乎属于两个不同的范畴。
翟琦: 大多数人上网就是为了“浏览”。为什么抖音火?并不是大家清楚自己要干嘛,而是想打发时间(cure the time)。
骆轶航: 所以“浏览”应当是一个完全 consumer-facing 的场景,而不是 productivity 场景。
翟琦: Precisely,就是这个意思。没人会上班对着老板说:今天我什么都不干,只上网“浏览”。老板最讨厌你“浏览”,他希望你直接把事情“咔咔咔”做出来。
下一代 Agent 的方向:更多“懂你”的隐式意图
骆轶航: 对,目标是把事做出来——少浏览、少看、多思考、更高效。这个过程中,Agent 负责替你去浏览、操作、解决,最后给出结果;而你需要提供更清晰的指令与更明确的意图。
翟琦: 这是另一个环节。
骆轶航: 你首先得知道自己想要什么。
翟琦: “知道自己要什么”当然重要,但是否必须用“清晰的口头意图”来表达,我觉得要两面看。举个例子:现在叫 Waymo 的乘车服务,用户体验已经很好了,但核心操作通常是“点一下‘发车’”。那我会问:既然我已经上车、关好门、系好安全带,这难道不能直接被判断为“我想走”吗?
骆轶航: 我在旧金山基本只坐 Waymo。它比 Uber 贵,起步价 12 美元;走远一点反而更划算。我也确实不喜欢上车后还要寒暄“Hey, how’s it going?”——不想和司机聊天。但现在即便无人驾驶,你上车后还是得点一下“Start ride”,坐副驾要点前排屏幕,坐后排则点 App。甚至开门也要点按钮。我不理解——明明遍布传感器和摄像头,为什么还需要我去“确认开门”?
翟琦: 正是这个意思:很多 Intention(意图) 未必需要明确口述。比如会议中,有人端起杯子看一眼又放下,十之八九就是在找水。如果我是服务人员,应该主动给他倒水——无需他开口。同样地,如果一个家政人员在我家工作了 40 年,我皱眉、抬笔、动筷子,他都能读出我的意图。这应当是下一代 Agent 的方向:更多“懂你”的隐式意图识别,而非事事等待口头指令。
翟琦: 当然,今天我们仍需要明确“什么是好”。当 Agent 浏览了三万个网站、给出一个结论时,你要能判断“这还不够好”,并指出原因——这有点像和 Steve Jobs 共事的体验:他不会直接告诉你“要怎样”,但会不断把你推向“更好”。Johnny Ive 之于 Jobs,就像一个理解他意图的“顶级 Agent”。如果你不具备这种“对好坏的审美与判断”,你可能会在“拼接一个新配色”就满足了。
骆轶航: 或许这些细节并不重要。回到 Atlas——以及未来的 Chrome。我仍倾向于认为,短期内会看到一场“好好打一仗”的竞争。本质上是:Chrome 绑定 Gemini,Atlas 绑定 GPT,谁更快占领用户心智、谁的模型更强、谁的活跃用户更多。接下来大量垂类 Agent(法律、医疗、财务等)会在浏览器层的差异化上构建,并把浏览器演变成一个 Meta Agent。
骆轶航: 而 Tinyfish 在做的事情,在我看来更像 Meta Web:当它与 Web 打交道时,仍需要一个“对外接触的 Agent”。也就是说,浏览器阵营的路径是“基于 Meta Agent 搭建应用生态”(今天能接 GPT,未来就能接 Atlas);而你的结论是:不是这样。
垂直 Agent 很难有长期价值
翟琦: 垂类 Agent 的问题在于,它确实可能拥有更多的领域知识(domain knowledge),但我一直对此持怀疑态度。人类真有那么深刻的领域知识吗?比如法律领域,你说一个人懂得再多,也很难称得上“domain expert”。
骆轶航: 我举个例子吧——只要在美国办过身份的人,或者看过别人办身份的人,都不会比专业移民律师做得更好。
翟琦: 对,你可能不想自己去做这些事,确实麻烦。但为了自己的利益,你会把细节研究得非常透。所以我一直怀疑垂类 Agent 的商业逻辑。除非你抢在大模型普及前,占住一个市场——趁它们还没空做垂类产品,迅速做大,然后当模型成熟时把自己“卖掉”,这才可能成立。
甘家伟以前讲过一个案例:美团当年地推打到四川,最初都有本地团购小团队,做得也挺好。但美团一杀进来,这些小团队的价值就没了。想“加盟”?对不起,没谈判空间。要么五块钱并购,要么被挤死。
骆轶航: 这就像战争的投降顺序问题(笑)。
翟琦: 是啊,所以我才说,垂直 Agent 很难有长期价值。你再细分、再专业,能做的公司体量也有限。除非爆发式增长,否则意义不大。你看现在 Claude 已经能帮你做 PPT 了。
骆轶航: 对,因为它最新上线了 Memory 功能。
翟琦: 对啊,做 PPT 已经很好了。那市面上一堆号称“PPT 专业 Agent”的公司还剩什么价值?中国的 “AI PPT”、自动生成视频的创业公司也不少。但 Sora 一出,这些“卷了几千万美元”的视频模型公司瞬间没戏。Sora 根本不是沿着视频技术那条路走的。
骆轶航: 对,这点特别有意思。像 Manus、Genspark 那些团队,一直说在做“通用 Agent”,结果执行力最强的两个转头又卷回做 PPT 了。但 Claude 一做 PPT,整个市场又被重置。
OpenAI 与 Google:速度、胆量与时代
翟琦: 对。这就是为什么我说——过去一年,大家都低估了 OpenAI。它的行动证明,这已经是一个真正的 范式转移(paradigm shift)。这种时代,做成事的公司都必须打破常规。Google 强不强?当然强,它有全世界最多的数据。但它太“重”,被各种政策和组织限制拖住手脚。OpenAI 不一样——它可以“不要脸”。Google 做不了的,它敢做。
骆轶航: 我在文章里写过一句话:Google 有一万种方法能让 GPT 在 Chrome 环境下体验更好,但它一条都没走。
翟琦: 对,因为它顾虑太多。微软当年挑战 Google 时也有类似的困境。今天 OpenAI 之所以能跑这么快,是因为它是私人公司,不必受那么多约束。它可以把全世界的文章、视频、TikTok 数据全爬下来训练模型。
骆轶航: 对啊,你一看它那个 Sora2的视频,就知道 TikTok 的数据没少喂(笑)。
翟琦: 对,它什么都敢拿。反观 Google,想用自家 YouTube 数据训练模型,内部就有好几道法律与政策审查墙。OpenAI 不管这些——它能干什么就干什么。这就是时代的不同。
骆轶航: 那在这个“乱世”里,你们 Tinyfish 的角色是什么?你们既不信浏览器,也不信“浏览”本身;你们认为“任务就是任务”。
翟琦: 我当然希望有浏览器、有互联网入口,但我不认为我们能超越 OpenAI,也不可能赢过 Chrome。Chrome 占了全球六七成市场,搜索更是垄断级的 97%。那我们该怎么活?
我觉得今天所有创业者都该思考“生存之道”。不是明年要做什么,而是先想清楚十年后的方向,再倒推现在的选择。即使方向错了也没关系,关键是要有偏见(bias)和信念。
大多数人是“手上有什么就做什么”——模型能干什么我就围绕它转。但真正能走远的公司,得先假设一个“终点状态”,哪怕不确定,也得从信念出发去构建路径。
过去做互联网、做软件,逻辑相对清晰;现在这波是模型浪潮,没有人知道明年会怎样。你只能凭信仰判断,“我相信它会这样”,然后再去构建那条路。因为相信,所以看见。
现在的世界太快了。每个人都得不断提升自己的认知,包括我们自己。比如“工程师的职业形态”这件事——大家已经看到变化了。Cursor、V0 这些产品让工程师的角色被重新定义。可这还只是开始。产品经理呢?也许他觉得工程师变了,但自己依然安全。其实未必。
骆轶航: 每个行业的人都相信同一个逻辑——别人能被替代,但我不能被替代。
翟琦: 对,为什么会这么想?
骆轶航: 前阵子我有一个挺强的感受。我写稿越来越轻松了。比如我写《流浪器战争史》那篇,是我写得最轻松的一次。因为我的大部分工作都被替代了。语感、文风、结构几乎和我一模一样——作者是 Claude Sonnet 4.5。
它完全继承了我的思考框架。我只盯着它改了四版提纲,最后花半小时编辑完稿。作为一个多年当编辑的人,我很清楚:能在半小时内改完记者稿的,那一定是顶级记者。
我现在的价值,只在于我的意图还可以影响它。它是一个非常优秀的执行者。也许未来这点也会改变。那问题来了:为什么你觉得自己不会被替代?产品经理也一样。其实我甚至认为“办公室”都会被替代。
你看你们公司现在三十多个人,每个人都有电脑。我觉得未来的企业形态会变成这样:一个办公室可能只需要五台有显示器的电脑,作为“窗口”,人通过这些电脑接入 Portal,输入指令、验收结果。
而后台可能有一百台无显示器的主机,专门负责执行。这些主机跑在本地服务器上,完成所有任务计算。这将成为一种全新的企业基础设施结构。
“相信之后,才看得见”
翟琦: 对,我完全同意。企业的架构、结构、人员逻辑,都会发生根本性的变化。显示器会减少,键盘也会消失。为什么还要键盘呢?你看 Manus 那几个做 “Vibe Coding” 的哥们,不就像《中国好声音》一样,亮灯、灭灯,表达意图就够了。现在连录音都能语音输入。
这真是一个极度高风险、但也因此极度有趣的时代。
骆轶航: 对,我们聊了一个多小时,也该总结一下了。关于 Atlas 这件事,其实很多人都受到冲击。你觉得 Tinyfish 在做的,是和 Atlas 完全不同的事情吗?你们有哪些相似点,又有哪些本质上的不同?这决定了你所谓的“长期愿景”能不能成立——你得证明你想的不是明年的事。
翟琦: 我们的核心永远是 Scalability(可扩展性)。这一点与 Atlas 的逻辑根本不同(fundamentally different)。
骆轶航: 你觉得 Atlas 不追求 scalability?
翟琦: 它追求的是人的可扩展性(personal scalability)——也就是在人的框架内提升效率。但真正的 scalability,应该是脱离人本身的局限。
人当然还在,但区别在于:
“一个人点按钮”和“一个人穿上机器去工作”,是完全不同的逻辑。我们要构建的,是后一种逻辑。
当然,最终目标可能一致。人永远存在,浏览行为也不会消失,但当企业想要实现大规模效率提升时,互联网的形态就会发生质变。
骆轶航: 而这种变化,不再需要浏览器。浏览器反而成了效率的束缚。没有浏览器,也就不需要显示器,但需要更强大的服务器和本地主机。
我特别期待未来的办公室是这样的:
三个屏幕、二十个计算盒——一个公司专注做一件事,机器在后台并行工作,这将是非常有意思的状态。
翟琦: 也许那时连“人”都不太需要了。
骆轶航: 对。
翟琦: 我一直相信,人应该去做自己认为更有意义的事。
如果你没身处AI浪潮中,可能你的想象力还不够
骆轶航: 对,这是第一点。第二个问题我也挺好奇的——你们在八月底宣布了融资,一笔很大的钱。我看过你们在日本酒店订房的 Demo,当时没太理解。后来十月初我们第一次见面,聊过之后我好像明白了。
我们后来又讨论过,怎么用一句话解释 Tinyfish 在做的事。我说是 “Web control Web”,你说这句话大家还是难懂。
我觉得用 AI 的人需要想象力,做 AI 产品的人更需要想象力。但这不是“有没有”的问题,而是如果你没身处浪潮中,你的想象力可能就不够。
翟琦: 对。
骆轶航: 那现在有没有更好的方式解释你们在做的事?“Web control Web” 听上去太抽象。Atlas 是 “Human and Agent collaboratively control Webs”。那 Tinyfish 到底是什么?
翟琦: 我们的逻辑是:Machines automatically execute at scale.
骆轶航: At scale——机器在大规模自动执行。
翟琦: 对,在网上是这样。我也没找到一个更好的解释方式,但核心逻辑没问题。如果听众朋友们有更好的建议,我也非常乐意听。
骆轶航: 对,这个东西该怎么去理解呢?
翟琦: 很多时候我也同意你说的——光有创意不够,还得有那种 Steve Jobs 所说的 “the crazy ones”。你得够疯狂,才能看见别人看不到的世界。梵高在发疯之前画的画没什么特别的,只有当他“疯了”,他看到的世界才变得如此美丽。
骆轶航: 真的是 crazy one。你看,我们快录完了你才开始上架(笑)。真的是 crazy one。
翟琦: 对啊,不“疯”一点,很多问题根本解决不了。
骆轶航: 我觉得问题就在这儿——做 AI 产品的人想象力其实也不够,做技术的人很多也不够。
翟琦: 是的。你写文章的想象力可能更强一些,但其实也有限。
骆轶航: 大部分写文章的人想象力也不够啊(笑)。
翟琦: 对,因为我们都是在既有的框架上往前做,这是人的本能。真正的想象力,是要敢于畅想“未来会是什么样”,而不是只在今天往前挪一步。这是一个很大的挑战。
骆轶航: 你也很难去描述它,但“Web control Web” 这个感觉——如果我模糊地去形容,就是这样:
你打开电脑,看到一个很简陋的 Portal,输入一个指令,它就开始执行。
你离开电脑,它在后台不断工作,也不太希望你打断。
一段时间后,它给你一个巨大的结果——背后连接了无数网页、生成了大量数据。
它的界面很朴素,却帮你完成了一件庞大的事;
你不需要参与任何过程。
Browser is dead. OK?
我觉得你们如果想做品牌传播,这句话其实挺打动人。
翟琦: 对,面向消费者,浏览器确实不会消亡,但从我们角度看,Browser 已经死了。
就像广播死了,马车死了,毛笔死了,摇柄电话死了——但“骑马”“胡同”这些事物并没有真正消失,只是它们在社会中的意义发生了巨变。
骆轶航: 对,也许未来浏览器会变得“很高贵”——像白金汉宫门前那辆仪式感满满的马车。浏览器也许将来就是那样的存在。
翟琦: 对,过去我们不会觉得“手工艺人”多了不起,但现在你会觉得他们很珍贵。浏览这个行为其实也一样——我们人类花了二十年时间在干这件事。
骆轶航: 是啊,browsing 这种行为,是人类触网之后才诞生的。
在那之前你根本没法“浏览”。你家里几百本书,那只是读,不是浏览。
翟琦: 我明白你意思。买东西、逛街这些行为是普遍存在的,但大规模、日常化的“浏览”确实是互联网带来的新习惯。
骆轶航: 我买东西其实就像一个 Agent。我知道我要什么——比如我想买一套西装,我知道品牌、位置、颜色、上新时间。去了试穿、刷卡、走人。我不需要浏览。I don’t need to browse.
翟琦: 所以品牌方也不太爱做男士市场(笑),因为像你这样的消费者太明确了。
骆轶航: 对,男士别关注我(笑)。我知道我要买什么,也肯花钱,但我绝不会 accidentally 买一堆没用的东西。
翟琦: 所以你不是他们的目标用户。你看我穿得多花(笑)。
骆轶航: 我还比你讲究一点,有限的讲究(笑)。
翟琦: 哈哈哈,对。
骆轶航: 行,今天就聊到这儿吧。又是一期轻松但挺有意思的节目。本来我打算明年再跟你正式聊,比如在一些大会上聊 Agent、聊未来趋势。但我觉得这期必须赶紧录——因为话题太新,变化太快。
我马上要回北京了,从纽约回旧金山的路上我就在想——这期得赶快聊。
翟琦: 对,我相信我的观点现在也不是主流的。
骆轶航: 是的,因为你们做的事儿,大多数人还没看清。
翟琦: 但已经有一些人开始看到了。这个东西太新,太颠覆。问题就在于——人为什么上网?
为什么上网就一定要“扯淡”?
人当然可以上网扯淡,但那些你不想做的事,应该交给机器。
骆轶航: 对,我们昨天在群里还讨论“用户画像”,聊出了一个词——“高净值老色批”。
翟琦: 这都能讲?(笑)
骆轶航: 可以讲,这还好(笑)。这个角色其实有两部分:一部分是“高净值”,一部分是“老色批”。“高净值”来自他的工作,“老色批”来自他的天性。未来浏览器的部分,也许就是“老色批”那块,而“高净值”的部分,可能就交给 Tinyfish。
翟琦: 对,一个强大的 Agent 来解释和执行,那才是基础架构的未来。
骆轶航: 而你们的服务,也可能融入某个更强大的系统之中。
翟琦: 对,没错。其实基础设施的建设一定会催生出一整个新的产业,我甚至认为会出现几百、上千个 “villain(反派式创业者)” 的产业格局。那会是一个完全不同的生态系统。
我只是觉得,这件事是注定会发生的。而 Tinyfish 一定会在中间占据一个位置。至于最终的形态是什么样,大家都还在边走边看。
骆轶航: 是啊,大家都在边走边看。我觉得哪怕半年之后,我们再找个机会聊,想法可能又完全不一样了。
翟琦: 肯定会不一样的。
骆轶航: 对,这边电话线也太宽了(笑)。行吧,酷。OK。
翟琦: 这是你想要的吗?
骆轶航: I’m not sure. 整个氛围、vibe 是我想要的。观点和结论嘛,我觉得你讲到了六七成吧。我其实也能预感到你会聊这些。我们一直认为 “MetaWeb” 是一个很重要的方向。
翟琦: 肯定是的。我们现在专注在做这件事,其实经常能感受到它和其他路径完全不同。有空我可以拿台电脑给你看一个我们的小 demo。
骆轶航: 对,我想从实际端去看,而不是只看视频。OK。
骆轶航:(稍后)这是在我们这边的一个 demo 吧?
翟琦: 对,从你这一端看和看视频完全不一样。这个其实就是我们做的原型之一,只是一个展示用版本,跑在浏览器上。
核心上,它是真实录制的,原视频大约 40 秒,这个剪成了 20 秒版本。
这是我们给某个客户做的 demo ——一个酒店的 tour booking(旅行预订) 场景。
系统会自动抓取数据(fetch data),包括日期可用性、房型信息、价格变化等,这些都是通过自动导航(navigate)完成的。
翟琦: 你看,这其实就是未来 travel agents 的一个雏形,他们会大规模使用这种系统来自动生成、管理网页任务。
这个版本只是展示网站层面的结果。速度上从原来的 40 秒缩短到了现在的 20 秒,可靠性(reliability)也保持一致。接下来我们希望能同时运行上万甚至上万个这样的技能(skills),让系统持续自主执行。
我们还测试了其他方案——比如我这两天展示给客户看的一个 6 分钟的视频。那是一个用 GPT operator 执行网页任务的例子。
他们花了 6 分钟才完成一个任务,而大部分其他模型早就卡死了。
网页交互永远是最难的部分。我们就是要去解决这一点。整个系统现在演化得非常快(evolving too fast),我一会儿可以把那段视频找出来给你看。