“AI 浏览器是最差的交互形态，搜索也是”

Source

这是一期慢慢碰撞出来，而且在录制完毕后仍然没有“结束”的播客。让我讲一讲它的缘起：

10月中的一天，在旧金山湾区，Tinyfish 的联合创始人兼首席运营官 Keith Zhai （翟琦）跟我一起午饭：Tinyfish 要发布一个新的版本，他跟我聊，该怎么向普通人介绍 Tinyfish，它有什么用，最好是一句话。

这……确实是个挺难的问题。Tinyfish 在 8月底获得了 ICONIQ 领投的 4700万美元融资，是全球通用 Web Agent 当中比较有代表性的一家，它不直接服务于每一个人，Google 和 DoorDash 是它两个比较重要的客户。

Google 和 DoorDash 用 Tinyfish 做啥？搜索。对，你没听错，Google 靠一家创业公司做“搜索”。这里的区别在于，Google 的搜索，是给“人” 用的，搜索的是已经存在的静态的页面；而 Tinyfish 的搜索，是给机器用的，搜索的是动态的互联网信息。准确地说，它不仅仅是搜索，而是一个 Agent，通过对实时动态的互联网搜索、聚合与整理，提供给人们需要的结果。

我说，Tinyfish 是一个 Meta Web，a mete web to operate all webs and web information all around the world. Keith 想了一下说：大家应该还是不理解。什么是 Meta Web? 人们没见过啊。

我说，AI 时代的很多产品就是——在没做出来之前，就算你是产品经理，你也不知道它长什么样啊。

Keith 说：唉，AI 时代，想象力是最重要的，人们经常会缺乏对 AI 产品的想象力。

然后我就去了纽约，在我在纽约出差时，OpenAI 发布了浏览器 Atlas。很多人觉得这是一个划时代的产品，也有一些人觉得它缺乏想象力。

于是我飞回了旧金山，跟 Keith 录了这期播客。我们觉得，Atlas 是一个人们了解什么是 Web Agent 的“反面案例”，它在打开了人们与机器交互方式的想象力的同时，限制了对 AI 能超越人类的“监视”和嫩合理局限，自主处理几何级增长数量的海量信息的想象力。

Keith 认为：浏览器是不需要存在的。搜索是有清晰的天花板的。未来人类不需要搜索，甚至不需要浏览，就能用一个 Agent 处理互联网世界的信息和内容。这就是这期播客的主题。

前两天，Keith 跟我说，Tinyfish 做了一次更新，推出了一个 Operational Model for the entire web。他写了一篇博客放在了官网上，标题是 Tinyfish and the limits of search，他说：这篇文章是受我们上次播客的启发。

他在文章中说：

“浏览器 Agent 在用户上下文中运行——单会话、单浏览器、以人类速度运行。它们是提高效率的工具，可以帮助你更快地浏览网站。但它们无法解决企业级难题：如何在成千上万个分散的系统中实现可靠的智能。你不可能通过一个每次只运行一个会话的浏览器代理，每月执行 3000 万次操作”。

而这是 Tinyfish 希望做到的。只要当浏览器需要人的“浏览”，它就不可能释放指数级的生产力和效率。从这个意义上来说，把关于 Web 的一切交给 Web Agent，一个 Meta Web，可能是一条路。

这就是这期播客的主线，以下为对谈实录，Enjoy。

骆轶航： 大家好，欢迎收听《硅基立场》。接下来我们会更频繁地与大家见面。这期节目依然是在旧金山湾区录制的 Podcast。我们录制这期节目的背景，是因为几天前——大概三天前——全网都在讨论 OpenAI 发布的新产品——浏览器 Atlas。这件事可以说是硅谷乃至全球 AI 产业都绕不开的话题。今天邀请到的嘉宾是一位非常有意思的朋友——Keith 翟琦，他是 Tinyfish 的联合创始人兼 COO，这是一家专注于 Web Agent 的公司。
稍后我会请 Keith 详细介绍一下 Tinyfish，以及什么是 Web Agent。请他来的原因也很简单：他们所做的事情，本质上就是“用 Web 操控 Web”——也就是通过网页去操作浏览器本身。因为这些场景全部发生在浏览器环境中，所以我认为 OpenAI 推出的 Atlas 对他们来说，既可能带来新的思考，也可能带来挑战，甚至两者兼有。无论如何，Keith 是一个真正的“局内人”，一个真正意义上的 insider。
还有一个有趣的背景是，Keith 以前和我是同行。他曾是记者——在 Bloomberg 和 Wall Street Journal 都工作过。

翟琦： 当然没错。

骆轶航： 对，他在《华尔街日报》和彭博社都有工作经历。当年他的报道内容我们这里就不多展开了——他曾经是跑中国政治线的记者，信息准确且见解深刻。我一直很欣赏他中立而建设性的态度，这也是我非常愿意和他对谈的原因。如今他已从记者转型为创业者，在硅谷创办了一家面向企业（B2B）的 AI Agent 公司，这样的转变本身就非常有意思。那我们就正式开始今天的讨论吧。要不，Keith，你先介绍一下自己，以及你现在在做的事情？

翟琦： 好的，谢谢骆老师，也向各位听众朋友问好。正如刚才提到的，我的职业背景确实是记者，曾在《华尔街日报》、彭博社、路透社等媒体工作过。其实，我过去二十年的核心工作，都是与“信息”打交道。很多人以为记者的工作重心是写作或撰稿，但我认为并非如此。新闻工作的核心，是把那些原本不为公众所知的信息，带到公共领域——这就是所谓的 public interest（公共利益）。这也是我过去二十年来一直在做的事。
TInyfish 是我在一年多前创办的，目前公司已经完成 A 轮融资，总部在硅谷。我们定位为一家 AI Native Infrastructure Company（AI 原生基础设施公司）。

从浏览器 Atlas 说起：当 Agent 能“上网”

骆轶航： 你们自称是 “AI 原生基础设施公司”，而不是 “Agent 公司”？

翟琦： 对，这和我们今天要聊的话题密切相关。OpenAI 推出的 Atlas，本质上是一个全新的浏览器（Browser）。但其实，大公司重新回到“浏览器战场”这件事，本身并不新鲜。

骆轶航： 我发现，每一次当科技巨头真正进入决战阶段，战场往往都会落在浏览器上。至少在美国和硅谷，历史都是这样：早期是 Netscape Navigator 对 Internet Explorer，后来是 Chrome 对 IE，而现在，则似乎是 Atlas 对 Chrome。

翟琦： 确实，这是一个非常有意思的话题。因为 Web Agent 的核心就是——让 Agent 能帮你上网，代表你与网络交互。现在，各大公司都在重新布局浏览器。最新的是 OpenAI 的 Atlas；此前 Perplexity 发布的 Comet 其实也是一种浏览器形态的产品；更早之前，Google 在 Chrome 上已经加入了 AI 功能，比如侧边栏里的智能助理。甚至在某种意义上，Facebook 在 WhatsApp 中做的那些 AI 尝试，本质上也是在寻找“用户进入互联网的入口”。
但如果我们稍微退一步，从更宏观的角度来看这些浏览器的变化，其实是在反映整个互联网形态的变化。自上世纪 90 年代初，人们开始成规模地使用互联网以来，发生了剧烈的转变。最初，互联网上只有几千甚至几万个网站，而今天，已经是超过 20 亿个网站，数量几乎无法统计。

骆轶航： 早期的网站其实就是几张静态页面的组合，非常简单。至少在 1995 年之前，基本都是那样。

翟琦： 没错，Web 1.0 时代的网页非常简单，内容也很少更新。那时候能做到每天更新的，基本只有新闻网站。

骆轶航： 对，能保证每天更新就算非常快了。

翟琦： 没错。我们都经历过那个年代——上网浏览的体验其实极为单调。当时唯一的“动态页面”，你知道是什么吗？聊天室。像“263 聊天室”“碧海银沙聊天室”，这些才算是真正意义上的动态交互。

骆轶航： 哈哈，暴露年龄了。

翟琦： 是啊，但从更本质的层面看，这三十年来变化的是信息的量级——网页的动态性和内容密度都发生了巨变；但人类与网页的交互方式几乎没变。人依然要主动打开电脑、打开浏览器、搜索、阅读、填写——所有动作的逻辑都是一样的。

骆轶航： 这个行为模式从万维网诞生至今，都几乎没变。

信息爆炸与有限人类：生而有涯，知也无涯

翟琦： 没错。从 Tim Berners-Lee 发明万维网（World Wide Web）到今天，我们每天可支配的时间——7 天 24 小时——并没有变。但信息量却呈几何级数增长。互联网带来了“信息爆炸”，而人类的处理能力却没有质变。我们的时间、精力和感知能力都是有限的——而互联网、计算机、模型则没有这些限制。

骆轶航： 模型当然也没有。

翟琦： 正是如此。随着大模型的出现，信息的增长速度还在加快。这是过去二十多年互联网发展的核心矛盾之一。
接着我们再看，当浏览器这一层不断演进时，它其实反映了一个共识：互联网的“用户”正在发生变化。最初的互联网完全是人类使用的，而现在的趋势是——不仅人类，Agent 也要成为互联网的使用者。
但这就带来了一个问题。作为一个曾经的记者，我最擅长的就是提问题——那就是：当互联网的“用户”从人类扩展到 Agent 时，它的底层基础设施是否也应该随之改变？
这个问题的启发来自上一次大转型——当互联网从桌面端迁移到移动端时，你还记得吗？那时很多公司只是简单地把桌面网页“搬”到手机上，不作任何改动就上线了。

骆轶航： 我当然记得。我们当年做得比较早，PingWest 的网站启动得挺早，但移动 App 做得很晚。那时我们花了大量时间在“网页重构”这件事上。

这些所谓的 “AI 浏览器”，像“马车与汽车之间的过渡阶段”？

翟琦： 当时我们在做移动适配设计的时候，那个方案其实挺受欢迎的。我们把 H5 页面搬到手机端，既美观又有交互性，那是当时很多人都在做的事。其实美国公司在这方面做得更多。但后来大家逐渐发现，整个互联网在进入移动时代后，所谓的 “Mobile Native App” 完全不是简单地把桌面网页搬到手机上，而是一次彻底的重构。
这就像我最近常想的一个比喻：在早年间，人类主要靠马车出行，城市道路都是为马车而建的——胡同狭窄、转弯急促。比如我住在北京的东四六条，现在停车极其麻烦。街道办给我分配的停车位在东四地铁站附近，我还笑说那干脆分到朝阳门好了，直接停公司门口算了，回家坐地铁。
这就是典型的“旧基础设施适应旧时代”的产物。它当然能用，但已经不适应新一代的交通体系。如今的城市要有二环、三环、六环这样的空间逻辑，整个系统已经完全不一样了。那我们回到浏览器这个话题，其实是同样的道理。

骆轶航： 所以我插一句。你觉得现在这些所谓的 “AI 浏览器”——无论是 Chrome 未来可能更深度集成 Gemini，还是 OpenAI 的 Atlas，又或者像 Comet 这种内嵌不同模型、以多步方式协同 Agent 与人类共同操作的产品——它们的形态，是不是就像“马车与汽车之间的过渡阶段”？

翟琦： 对，你说得非常准确。我正是这个意思。我认为这种做法是错误的——就像当年那些人以为把桌面网页搬到手机上就算“移动化”一样。

骆轶航： 我插一句，当时我有一个非常深的印象。2016 年 9 月，我去慕尼黑附近的英戈尔施塔特（Ingolstadt）参观奥迪总部的汽车博物馆。那里展出了一台奥迪最早的汽车，应该是 1890 年代的产物。那辆车装有一个非常弱的小型引擎，但外观几乎与马车一模一样——敞篷设计，乘客位置较低，两侧还有排水槽。那其实是马车时代的遗留结构，因为马车在行驶时需要排雨水。
当时我就在想：为什么汽车需要排水槽？今天我们已经进入电动车时代，有了 Tesla 这种连发动机都没有的车。回头看，那种“马车样式的汽车”更像是一个过渡形态。
所以我就在想，现在这些 AI 浏览器，会不会就像当年那辆第一台奥迪汽车的样子——看似是新物种，其实还背着旧时代的形态？

浏览器的“始祖鸟时刻”：Chrome 与 Atlas 的错位竞争

翟琦： 没错，Browser Agent 在我看来正是如此。就像你说的，它有点像“鸭嘴兽之于哺乳动物”“始祖鸟之于鸟类”。我们现在处在一个信息形态剧烈变化的时代。第一层的变化是信息规模的几何级增长；第二层的变化是用户形态——我们让 Agent 作为“新物种”参与进互联网的交互中。
但问题是，底层基础设施并没有同步演化。所有浏览器的核心仍是“人”——必须由人来全程参与、观察、控制。它或许能让速度快几倍，但永远受制于人类自身的时间维度：我们是有限生物，有 24 小时、有睡眠、有寿命。
现在我们邀请了“Agent”这个新角色进入交互过程，但它仍只是一个附属——长在浏览器里的一个功能模块。核心逻辑依旧是“人驱动 Agent，Agent 操作浏览器”。所以我认为这种产品形态仍是过渡性的。大家都在做，也无可厚非，因为谁都希望掌握互联网入口。
只是，从长期来看，我认为在用户形态（Agent）与信息变量都发生巨变的时代，我们也需要一种全新的基础设施去支撑这种“爆炸级增长”。

骆轶航： 没错。我们正进入一个因 AI 带来几何级生产效率提升的时代。可在浏览器上由人去操控 Agent，本质上并没有真正提高效率——它仍受制于浏览器这个旧的基础设施。所以，问题不在于 Agent，而在于浏览器本身——是浏览器这套架构需要被抛弃。

翟琦： 对，我同意。

骆轶航： 所以说，可能和我们原先预想的讨论角度有点不同，但其实又挺一致的。我们这一代人——四十岁上下——都经历过浏览器战争的时代。Netscape 被 IE 打败，是 1995 年左右的事。那是一场真正意义上的“第一次浏览器战争”。
我当时还小，不太明白那是怎么发生的。家里第一台电脑是 1996 年买的，打开就只有 IE。我默认互联网就是那样开始的。
但到了 2008 年，Chrome 出现时我已经是商业记者了。那天我在办公室里特别兴奋，因为 Chrome 给我的感觉就像“下载一个新的操作系统”。虽然很多人当时觉得这事不大，但我觉得那是历史性的一刻。我甚至跨洋采访到了 Sundar Pichai，当时他还只是 Chrome 的产品负责人。
到了 2015 年，Chrome 已经垄断了整个市场。
所以这一次，我在看 Atlas 的时候，会本能地想到——这是不是“第三次浏览器战争”？但也许你说得对，第三次浏览器战争根本不该存在——因为浏览器这个形态本身已经是伪命题。

翟琦： 是的。如果我们相信未来的世界一定会涌现越来越多的 Agent——首先信息量会持续爆炸，这一点毋庸置疑——那么接下来就会出现越来越多的 Agent 去处理这些新增的信息。换句话说，“用户端”和“信息端”两边都在快速膨胀。
当输入与输出两端都发生巨大变化时，我们为什么还要坚持用上一代的基础设施？

骆轶航： 浏览器已经成为一个过时的基础设施。

翟琦： 没错。正如丘吉尔说过：“民主是最糟糕的制度，但比它更好的制度尚未被发现。”我觉得浏览器也是一样——它或许是最差的一种交互形态，只不过更好的形态还没被真正发明出来。

骆轶航： 浏览器是一种最差的人机交互形态，只是最好的形态还没有出现。

翟琦： 对。你想，“浏览器”这个词本身就来自英文 browse——意思是“随意翻阅、浏览”。为什么人要“浏览”？
因为他不知道自己要什么。人会浏览、会逛街、会刷短视频，本质上是出于不确定性。当你在互联网上浏览，其实就是在探索。
而当人知道自己要什么时，就会 search——搜索。但搜索行为往往又被现有的基础设施所限制，比如 Google 的算法和商业逻辑。你以为自己在主动寻找，实际上只是被动接收了可被提供的选项。

Tinyfish 的做法：让机器在网络上自动执行

骆轶航： 在如今拥有数十亿条信息的互联网中，我们却仍无法做到“我想要什么，就能直接得到什么”。哪怕已经进入 AI 时代，互联网依然是“我想要一些东西，我去找，然后可能找到，也可能找不到”。它并不是一个能主动响应意图的体系。这就意味着，我们需要一种全新的 Infrastructure（基础设施）。那你能不能具体讲讲，Tinyfish 正在构建的这种新基础设施到底是什么？它和现在的互联网有何不同？换句话说，What kind of infra is Tinyfish building?

翟琦： 每个人、每家公司的需求都不一样。而我们已经观察到，Agent 或 AI 的核心趋势之一，就是它们会越来越了解每个人的意图（Intention）和需求（Intent）。语言模型（Language Model）只能回答问题、生成文本，但它不能“做事”；而 Agent 的意义在于，它能基于用户的真实意图去执行任务——无论是在浩瀚的互联网中帮你找到所需的信息，还是直接完成一项工作，这才是 Agent 的核心价值所在。
因此，现在有两种思路。第一种思路，是让整个互联网自己去完成“升级”，也就是每一个网站都重构交互方式，从 Human Friendly 变为 Agent Friendly。这就像当年网站从桌面端迁移到移动端时，大家纷纷去改版，做“移动友好”的网页（Mobile Friendly Site）。但问题是，这个过程极其漫长。即便今天，也有大量网站——尤其是长尾或边缘网站——仍然没有真正完成移动化。美国、日本、欧洲的情况甚至更糟。因为并不是所有人都有能力升级自己的基础设施，这使得这种变革周期非常长。
但趋势是确定的：大型互联网公司终究会被迫这样做。因为互联网的核心仍是“人”——而人性永远追求方便、便宜、高效。企业即使一百个不情愿，也会被迫跟上。这是一种被“用户需求”倒逼的进化。
说到这里我想起一个例子。去年底，微软提出了一个概念叫 NL Web（Natural Language Web，自然语言网络）。这件事很多人可能没注意到。我们当时与微软有一些沟通与合作，对此了解比较深入。所谓 NL Web，它并不是我们理解的“区块链式 Web3”，而是一种“去中心化、以自然语言交互为核心的 Web 架构”。可以理解为一种“Agent-Friendly 的 Web3”，它强调个性化、自治性和自然语言接口——让每个网页都能理解并响应你的意图。
这件事很有趣。微软之所以推动它，恰恰因为它没有像 Facebook、Google 那样掌握互联网入口。它没有现有的搜索或社交包袱，因此可以尝试“绕开旧入口，重新定义入口”。NL Web 的核心目标，就是推动所有网站逐渐转向 Agent-Friendly 的设计逻辑，而不是传统的 Human-Friendly。

骆轶航： 那从你看来，Atlas 目前依然是 Human-Friendly 的，对吗？就像你说的，它依旧围绕人、网页、浏览器这一老三角运作——用户在操作浏览器、浏览网页、观察 Agent 的动作。甚至像你提到的那种“人可以随时打断 Agent”设计，本质上也是一种人类主导的交互机制。我在旧金山的发布活动上还问过张涛：有多少用户真的会去“打断” Agent？结果发现，一旦人去打断 Agent，双方都会陷入混乱——人和机器都不知道下一步该干什么。

翟琦： 没错。这其实就像一个比喻：超人和我们之间的区别是什么？他也是人，只不过把内裤穿在外面（笑）。但关键在于能力的数量级差异——我们跑 100 米要十几秒，他可能只需要半秒。也就是说，当我们跑 1 万米时，他已经绕地球几圈了。在这样的速度差距下，你怎么与他“互动”？你刚迈步，人家已经跑没影了。
这其实说明，Agent 的核心优势在于可扩展性（Scalability）。它的速度、并发能力、执行效率，都不是人类的几倍，而是上百倍。从基础设施视角来看，我们不是要“帮助人更好地开马车”，而是要重新造一辆“汽车”。这不是在旧物种上装上 AI 模块，而是要重建整个物种。

骆轶航： 对，我们不是在一辆马车上装一个 Agent。

翟琦： 没错。目标不是让马车跑得更快，而是创造一种全新的交通形态。就像电动车刚出现时，很多人只把它当成“节能的马车”，但那只是过渡阶段。我十几年前采访过北汽福田的电动车，当时坐上去感觉又吵又晃，那时候人们的思维还停留在“如何节能”。而马斯克的思路完全不同——他从不提“节能”，而是问：“为什么电动车不能干掉法拉利？”这就是思维方式的根本转变。今天的电动车，不只是“替代能源的载具”，而是“重新定义速度与体验的物种”。

骆轶航： 是的。其实这也让我想到一个问题：我们在理解 AI 产品时，一个被忽视的关键点，就是“人”的角色。为什么人必须始终是那个主导者（Dominator）？在具体的任务执行过程中，为什么人要始终在场？这种“亲历感”和“参与感”真的能让事情更高效、更优质吗？还是说，它其实已经成为效率的阻碍？

翟琦： Exactly。你看，人类早期的生产方式，全靠手工——拿锤子、螺丝刀去完成工作。后来我们发明了工具，让效率提高了一点。但下一步的逻辑是：为什么不能按一个按钮，事情就自动完成？这其实就是 Agent 的逻辑。我们当然都希望如此，但关键在于——我们需要的，是一个真正支持这种逻辑的 新基础设施。

未来的人机关系：判断 vs 执行

骆轶航： 我最近看到一个特别有意思的东西。Manus 团队在社交媒体上发了一个他们内部对 “Vibe Coding” 的定义，还配了个视频，笑死我了。你看现在大家所谓的 “Vibe Coding”，打开 Cursor 就知道，很多资深程序员都觉得这已经不是自己能做的事了。Manus 发的那张图特别搞笑——程序员面前只有两个大按钮，一个左键一个右键，就像《中国好声音》那种，“我要的就是你！” 的红色按钮一样。程序员的工作就变成了：拍这个，或者拍那个。

翟琦： 对，要么选 A，要么选 B。其实未来这个“角色”都可以被省略掉。我看了那个视频也觉得很有趣，他们非常懂传播。但这正说明一个问题——Manus 这样的产品，本质上就是“亮灯”和“灭灯”。判断行为还是由人来完成：比如一家人出去玩，三口人和四口人的逻辑完全不同——今天带狗、明天不带，这些都是人根据需求作出的判断。
而 Agent 的意义，恰恰在于帮人执行，而不是让人盯着它干活、监督它的过程。要是我已经有一个足够强大的模型（Model），Agent 的上下文能力足够强、架构足够好，那我为什么还要一直看着它工作？

骆轶航： 对啊，你根本看不过来。现在很多老程序员看 Cursor IDE 已经快崩溃了——“我为什么要看？干脆挡住得了。”这也是为什么现在 IDE 模式并不是最优解。你看着那一行行代码闪过，根本无法理解机器到底在干什么。

翟琦： 没错。其实让机器大规模接管工作、重构基础设施的目的，就是为了“解放人类”。但问题在于，人类自己首先要意识到这件事确实是“解放”，而不是“被取代”。很多束缚并非来自外界，而是来自我们的思维。刚才我们提到的 NL Web，其实代表了一种思路。

骆轶航： 但我认为 NL Web 其实不是一个真正意义上的 “Web”。它不是一个能被呈现出来的网络。

翟琦： 对，它目前还只是一个理论。

骆轶航： 我同意。它很难被实现成我们今天理解的网页形态。但这恰恰是一个重要的理论起点。那你们 Tinyfish 的思路，和 NL Web 最大的不同是什么？

翟琦： 我们不认为所有人都有能力去改变自己的技术基础设施——这是一个根本前提。但我们认同 NL Web 所代表的愿景：未来的互联网，应该是 Agent 能直接与网络交互的世界。不同的是，我们认为那条路太长、太慢。大公司当然可以重构，但数以亿计的个体会被落下。这也是 Tinyfish 这个名字的由来——“小鱼”，象征那些本不该被时代落下的个体。

我们的逻辑是：构建一个新的平台，让任何人都能在这个平台上，把网页自然转化为可交互的系统。也就是说，Agent 可以直接与网站对话，帮助用户完成任务。这就是我们定义的 Web Agent 核心逻辑。它的前端可以是网页、App，或者一个简单的对话窗口；但关键在于，后端由 Agent 根据用户需求，自动去连接、操作、提交、完成。

骆轶航： 比如填表、搜索、订阅、预约这些操作。对使用者来说，这个过程其实是“不可见的”。他们看不到 Agent 在后台怎么工作，也不需要看到，对吧？

3000 家奶茶店的例子：Web Agent 如何自动完成任务

翟琦： 对，完全正确。它背后在做什么，用户根本不需要知道。举个例子，让我们试着把这个抽象概念具象化。假设北京有三千家奶茶店，每家都有自己的网页。其实差别并不大，但都各有特色。我也不想通过美团或饿了么那样的平台——我不在乎平台的价格战，我只想喝到我喜欢的口味、最划算的那一杯。
在这种场景下，我只需要告诉 Agent：我要哪种奶茶、什么价格、什么时间。Agent 会自己在那三千个网页之间搜索、比较、下单。每个网页都被它临时“平面化”为一个接口，而我不再需要平台的中介。

骆轶航： 对，比如我接入了一个“夸克快购”，但用户要的其实不是平台，而是结果。

翟琦： 没错。平台永远强调“只有通过我，你才能得到最好的”，但为什么？凭什么“最好的”一定要通过平台？
点奶茶还算简单，但你想，如果是找资源、找内容、找服务，这些都没被平台覆盖的需求怎么办？难道要自己手动一个个去找？这不现实。Agent 的存在，就是为了替代人完成这些在互联网上的复杂动作——让人只需表达意图，机器自动执行。

“浏览”这种以人为中心的交互功能，将逐渐消失，Browser is Dead

骆轶航： 我同意。这其实是一种架构逻辑的跃迁。过去我们从 Web 到 Mobile 的转型，很多人因为缺乏开发能力被落下；而现在，从 Web+Mobile 过渡到 AI 时代，同样会有大量个人和组织因为没有构建 Agent 能力而掉队。
我理想中的状态是：每个人都能拥有自己的 Personal Agent。它可以是一个 Portal、一个入口——可能是 Web 形态，也可能是更智能的操作界面。关键是，它具备自动行动的能力，帮我完成事情，而我无需了解它具体是怎么做到的。
换句话说，“浏览”这种以人为中心的交互功能，将逐渐消失。

翟琦： 对。浏览当然可以继续存在，就像现在还有人骑马、用毛笔写字。这些都是个人的爱好，无可厚非。但对机构、企业，甚至个体来说，当目标是提高效率、提升生产力时，“浏览”就不是必要环节了。
这其实回到一个核心概念——Intention（意图）。我们在互联网上常常忽略自己的真实意图，以为自己在交互，其实只是被算法牵着走。
我有个朋友在做一个大型短剧平台，是目前最大的几个之一。他跟我说，他们很多短剧都设计了所谓的“交互剧情”——观众可以选择剧情走向。但实际上，无论选哪条路径，结果几乎都一样。
观众会以为自己“有掌控力”，其实并没有。这正是当下互联网的真实状态：我们以为在互动，实际上只是被动地消费。真正的 Agent 交互，应该改变这种错觉，让机器真正根据用户的意图去行动。

骆轶航： 对，这里人其实不需要再深度参与交互。除了刷好看的照片时，人类几乎不再需要用眼睛。

翟琦： 你这比喻太形象了，拍鸟的时候倒是挺省眼睛的（笑）。

骆轶航： 对（笑）。也就是说，在这样的交互逻辑下，“浏览”本身就变得不再重要。

翟琦： 没错，浏览已经不重要了。

骆轶航： 浏览不重要，那浏览器为什么还重要？有人可能会说——浏览器是为 Agent 做的。但如果真是给 Agent 用的浏览器，为什么它看起来还要和 Chrome、Edge 一模一样？

翟琦： 对，因为浏览器本质上就是为人而生的。机器不需要浏览器——从第一天开始，它就从未需要过浏览。

骆轶航： 是啊。哪怕计算机视觉（CV）也不是靠“浏览”去理解世界的。

翟琦： 对。现在很多人做的“AI 浏览器”，本质上是把网页截图交给语言模型分析，然后让模型告诉你这是什么页面、该点哪里。整个流程又慢又复杂。为什么会这样？因为它仍然在沿用上一代的基础设施——就像你硬要在胡同里停汽车一样。胡同本不是为车造的，你非要停，就得把人行道都堵死。
同样地，浏览器的核心逻辑始终是“给人看的”。

骆轶航： 但如果未来是 AI 在人的指令下与外部世界交互，而人不再直接参与这个过程，那人类就不需要“浏览”，自然也不需要“浏览器”。所以从长期看，你认为 Atlas、Chrome 这类仍以“人”为中心的浏览器，其实意义有限？

翟琦： 是的。从长远看，这些设计确实没有意义。不过在现阶段，它们仍然在做一些“有用的事”——比如采集用户数据、训练模型、积累交互样本，这些都非常有价值。但从下一代互联网的逻辑来看，这些行为已经与未来形态无关。

骆轶航： 这就有意思了。你说这种形态“从长远看没意义”，但你们的客户中就包括 Google 和 DoorDash。这两家公司我每天都在用：Google 几乎无时无刻不打开，DoorDash 我每天要用两次——因为我不吃晚饭（笑）。所以我想请你具体讲讲两件事：
第一，Tinyfish 具体帮他们做了什么？
第二，站在人类用户的角度，有了这种 Web Agent 介入后，我和他们的互动发生了怎样的变化？

翟琦： 这两个例子都挺典型。先说 Google。虽然它几乎拥有全世界的信息，但仍有很多信息它无法获取。我们在日本市场帮它做了一个项目——订酒店。你知道订日本酒店有多复杂。日本网站的交互是全世界最“古早”的之一，很多仍是上世纪八九十年代的网页框架——几乎全是 Yahoo! 风格。
而这些页面要想抓取信息，极其困难。因为数据不是静态存在的，而是动态生成的：你必须输入日期、人数、房型等参数，页面才会显示价格和库存。这意味着，传统的爬虫根本无法工作——除非你雇八千个人，每人每天盯一个网页，一年不间断地刷新、录入价格、房型、吸烟区等信息。没人会这么干。

我们为 Google 构建的，就是一个可以自动完成这一切的 Web Agent 平台。它不需要这些酒店网站做任何修改，而是由 Agent 主动与网页交互，模拟人类输入和操作，持续采集最新数据。它能实时知道房价、空房、设施变化等所有动态信息。这让 Google 能够持续更新它的搜索结果，获取“非结构化网页”中最鲜活的内容。
这就是 Web Agent 的核心逻辑：让网页依然保持原样，但由 Agent 去完成人原本要做的事。网站专注于服务，外部的 Agent 则自动完成“访问、更新、整理”。

骆轶航： 所以 Google 用它，其实是它的 Search 团队——或者说 Agent 体系——在使用？

翟琦： 对。Google 的 Search 团队在使用我们的系统。某种意义上，这也是它的模型生态的一部分。你看，现在 Google 的搜索已经逐渐“Gemini 化”了——Gemini 模型正渗透到整个搜索体系。而我们提供的 Agent，可以更高效地帮它执行“获取事实”这个动作，让整个过程更快、更结构化。
传统上，一个人花两分钟能完成的操作，Agent 能在几秒钟内完成上千次。这就是量化的力量。

骆轶航： 对，现在很多人做 Agent 产品，结果反而让原本两分钟的事情变成十五分钟，还得手动点两次。

Agent 不会 Lost，而人类的注意力会迷失

翟琦： 是啊，这就是问题所在——为什么要把无意义的操作重新加回来？机器的价值就在于解放人，而不是让人反复确认。
DoorDash 的逻辑其实相似。我们帮他们做的是 Search + Execution（搜索与执行）。
传统的搜索只是“找一下”就完了，但搜索之后你还要进入浏览、筛选、下单——这一串动作，人往往在其中“迷失”（Lost）。搜索行为本身就意味着“不确定性”，意味着你不知道自己要什么，也不知道结果在哪。
而 Agent 不会迷失。它知道目标是什么，会自己去执行并返回结果。

骆轶航： 对，人一旦开始搜索，就注定要迷失。我们每次打开 Google 或百度，搜索结果一出来，就被各种信息吸走。

翟琦： 完全同意。互联网的结构就是为了让人“Lost”。广告、推荐、超链接的设计目的，就是让你分心、留在平台上。而 Agent 没有这种弱点——它不会被干扰。
机器不会迷失，它只会执行。它能从成千上万个网页中抓取最精确的反馈和解释。机器没有“迷失”的能力，而人类天生会迷失。
这也是人和 Agent 的根本区别所在。

骆轶航： 接下来我有个好奇点：因为 Google 和 DoorDash 都是非常大的公司，所以你们目前的客户主要还是企业端；你们与个人用户的关系暂时不大。可浏览器与个人用户的关系却很大——这似乎属于两个不同的范畴。
翟琦： 大多数人上网就是为了“浏览”。为什么抖音火？并不是大家清楚自己要干嘛，而是想打发时间（cure the time）。
骆轶航： 所以“浏览”应当是一个完全 consumer-facing 的场景，而不是 productivity 场景。
翟琦： Precisely，就是这个意思。没人会上班对着老板说：今天我什么都不干，只上网“浏览”。老板最讨厌你“浏览”，他希望你直接把事情“咔咔咔”做出来。

下一代 Agent 的方向：更多“懂你”的隐式意图

骆轶航： 对，目标是把事做出来——少浏览、少看、多思考、更高效。这个过程中，Agent 负责替你去浏览、操作、解决，最后给出结果；而你需要提供更清晰的指令与更明确的意图。
翟琦： 这是另一个环节。
骆轶航： 你首先得知道自己想要什么。
翟琦： “知道自己要什么”当然重要，但是否必须用“清晰的口头意图”来表达，我觉得要两面看。举个例子：现在叫 Waymo 的乘车服务，用户体验已经很好了，但核心操作通常是“点一下‘发车’”。那我会问：既然我已经上车、关好门、系好安全带，这难道不能直接被判断为“我想走”吗？
骆轶航： 我在旧金山基本只坐 Waymo。它比 Uber 贵，起步价 12 美元；走远一点反而更划算。我也确实不喜欢上车后还要寒暄“Hey, how’s it going？”——不想和司机聊天。但现在即便无人驾驶，你上车后还是得点一下“Start ride”，坐副驾要点前排屏幕，坐后排则点 App。甚至开门也要点按钮。我不理解——明明遍布传感器和摄像头，为什么还需要我去“确认开门”？
翟琦： 正是这个意思：很多 Intention（意图） 未必需要明确口述。比如会议中，有人端起杯子看一眼又放下，十之八九就是在找水。如果我是服务人员，应该主动给他倒水——无需他开口。同样地，如果一个家政人员在我家工作了 40 年，我皱眉、抬笔、动筷子，他都能读出我的意图。这应当是下一代 Agent 的方向：更多“懂你”的隐式意图识别，而非事事等待口头指令。
翟琦： 当然，今天我们仍需要明确“什么是好”。当 Agent 浏览了三万个网站、给出一个结论时，你要能判断“这还不够好”，并指出原因——这有点像和 Steve Jobs 共事的体验：他不会直接告诉你“要怎样”，但会不断把你推向“更好”。Johnny Ive 之于 Jobs，就像一个理解他意图的“顶级 Agent”。如果你不具备这种“对好坏的审美与判断”，你可能会在“拼接一个新配色”就满足了。

骆轶航： 或许这些细节并不重要。回到 Atlas——以及未来的 Chrome。我仍倾向于认为，短期内会看到一场“好好打一仗”的竞争。本质上是：Chrome 绑定 Gemini，Atlas 绑定 GPT，谁更快占领用户心智、谁的模型更强、谁的活跃用户更多。接下来大量垂类 Agent（法律、医疗、财务等）会在浏览器层的差异化上构建，并把浏览器演变成一个 Meta Agent。
骆轶航： 而 Tinyfish 在做的事情，在我看来更像 Meta Web：当它与 Web 打交道时，仍需要一个“对外接触的 Agent”。也就是说，浏览器阵营的路径是“基于 Meta Agent 搭建应用生态”（今天能接 GPT，未来就能接 Atlas）；而你的结论是：不是这样。

垂直 Agent 很难有长期价值

翟琦： 垂类 Agent 的问题在于，它确实可能拥有更多的领域知识（domain knowledge），但我一直对此持怀疑态度。人类真有那么深刻的领域知识吗？比如法律领域，你说一个人懂得再多，也很难称得上“domain expert”。

骆轶航： 我举个例子吧——只要在美国办过身份的人，或者看过别人办身份的人，都不会比专业移民律师做得更好。

翟琦： 对，你可能不想自己去做这些事，确实麻烦。但为了自己的利益，你会把细节研究得非常透。所以我一直怀疑垂类 Agent 的商业逻辑。除非你抢在大模型普及前，占住一个市场——趁它们还没空做垂类产品，迅速做大，然后当模型成熟时把自己“卖掉”，这才可能成立。

甘家伟以前讲过一个案例：美团当年地推打到四川，最初都有本地团购小团队，做得也挺好。但美团一杀进来，这些小团队的价值就没了。想“加盟”？对不起，没谈判空间。要么五块钱并购，要么被挤死。

骆轶航： 这就像战争的投降顺序问题（笑）。

翟琦： 是啊，所以我才说，垂直 Agent 很难有长期价值。你再细分、再专业，能做的公司体量也有限。除非爆发式增长，否则意义不大。你看现在 Claude 已经能帮你做 PPT 了。

骆轶航： 对，因为它最新上线了 Memory 功能。

翟琦： 对啊，做 PPT 已经很好了。那市面上一堆号称“PPT 专业 Agent”的公司还剩什么价值？中国的 “AI PPT”、自动生成视频的创业公司也不少。但 Sora 一出，这些“卷了几千万美元”的视频模型公司瞬间没戏。Sora 根本不是沿着视频技术那条路走的。

骆轶航： 对，这点特别有意思。像 Manus、Genspark 那些团队，一直说在做“通用 Agent”，结果执行力最强的两个转头又卷回做 PPT 了。但 Claude 一做 PPT，整个市场又被重置。

OpenAI 与 Google：速度、胆量与时代

翟琦： 对。这就是为什么我说——过去一年，大家都低估了 OpenAI。它的行动证明，这已经是一个真正的 范式转移（paradigm shift）。这种时代，做成事的公司都必须打破常规。Google 强不强？当然强，它有全世界最多的数据。但它太“重”，被各种政策和组织限制拖住手脚。OpenAI 不一样——它可以“不要脸”。Google 做不了的，它敢做。

骆轶航： 我在文章里写过一句话：Google 有一万种方法能让 GPT 在 Chrome 环境下体验更好，但它一条都没走。

翟琦： 对，因为它顾虑太多。微软当年挑战 Google 时也有类似的困境。今天 OpenAI 之所以能跑这么快，是因为它是私人公司，不必受那么多约束。它可以把全世界的文章、视频、TikTok 数据全爬下来训练模型。

骆轶航： 对啊，你一看它那个 Sora2的视频，就知道 TikTok 的数据没少喂（笑）。

翟琦： 对，它什么都敢拿。反观 Google，想用自家 YouTube 数据训练模型，内部就有好几道法律与政策审查墙。OpenAI 不管这些——它能干什么就干什么。这就是时代的不同。

骆轶航： 那在这个“乱世”里，你们 Tinyfish 的角色是什么？你们既不信浏览器，也不信“浏览”本身；你们认为“任务就是任务”。

翟琦： 我当然希望有浏览器、有互联网入口，但我不认为我们能超越 OpenAI，也不可能赢过 Chrome。Chrome 占了全球六七成市场，搜索更是垄断级的 97%。那我们该怎么活？
我觉得今天所有创业者都该思考“生存之道”。不是明年要做什么，而是先想清楚十年后的方向，再倒推现在的选择。即使方向错了也没关系，关键是要有偏见（bias）和信念。

大多数人是“手上有什么就做什么”——模型能干什么我就围绕它转。但真正能走远的公司，得先假设一个“终点状态”，哪怕不确定，也得从信念出发去构建路径。

过去做互联网、做软件，逻辑相对清晰；现在这波是模型浪潮，没有人知道明年会怎样。你只能凭信仰判断，“我相信它会这样”，然后再去构建那条路。因为相信，所以看见。

现在的世界太快了。每个人都得不断提升自己的认知，包括我们自己。比如“工程师的职业形态”这件事——大家已经看到变化了。Cursor、V0 这些产品让工程师的角色被重新定义。可这还只是开始。产品经理呢？也许他觉得工程师变了，但自己依然安全。其实未必。

骆轶航： 每个行业的人都相信同一个逻辑——别人能被替代，但我不能被替代。

翟琦： 对，为什么会这么想？

骆轶航： 前阵子我有一个挺强的感受。我写稿越来越轻松了。比如我写《流浪器战争史》那篇，是我写得最轻松的一次。因为我的大部分工作都被替代了。语感、文风、结构几乎和我一模一样——作者是 Claude Sonnet 4.5。
它完全继承了我的思考框架。我只盯着它改了四版提纲，最后花半小时编辑完稿。作为一个多年当编辑的人，我很清楚：能在半小时内改完记者稿的，那一定是顶级记者。
我现在的价值，只在于我的意图还可以影响它。它是一个非常优秀的执行者。也许未来这点也会改变。那问题来了：为什么你觉得自己不会被替代？产品经理也一样。其实我甚至认为“办公室”都会被替代。

你看你们公司现在三十多个人，每个人都有电脑。我觉得未来的企业形态会变成这样：一个办公室可能只需要五台有显示器的电脑，作为“窗口”，人通过这些电脑接入 Portal，输入指令、验收结果。

而后台可能有一百台无显示器的主机，专门负责执行。这些主机跑在本地服务器上，完成所有任务计算。这将成为一种全新的企业基础设施结构。

“相信之后，才看得见”

翟琦： 对，我完全同意。企业的架构、结构、人员逻辑，都会发生根本性的变化。显示器会减少，键盘也会消失。为什么还要键盘呢？你看 Manus 那几个做 “Vibe Coding” 的哥们，不就像《中国好声音》一样，亮灯、灭灯，表达意图就够了。现在连录音都能语音输入。

这真是一个极度高风险、但也因此极度有趣的时代。

骆轶航： 对，我们聊了一个多小时，也该总结一下了。关于 Atlas 这件事，其实很多人都受到冲击。你觉得 Tinyfish 在做的，是和 Atlas 完全不同的事情吗？你们有哪些相似点，又有哪些本质上的不同？这决定了你所谓的“长期愿景”能不能成立——你得证明你想的不是明年的事。

翟琦： 我们的核心永远是 Scalability（可扩展性）。这一点与 Atlas 的逻辑根本不同（fundamentally different）。

骆轶航： 你觉得 Atlas 不追求 scalability？

翟琦： 它追求的是人的可扩展性（personal scalability）——也就是在人的框架内提升效率。但真正的 scalability，应该是脱离人本身的局限。
人当然还在，但区别在于：
“一个人点按钮”和“一个人穿上机器去工作”，是完全不同的逻辑。我们要构建的，是后一种逻辑。

当然，最终目标可能一致。人永远存在，浏览行为也不会消失，但当企业想要实现大规模效率提升时，互联网的形态就会发生质变。

骆轶航： 而这种变化，不再需要浏览器。浏览器反而成了效率的束缚。没有浏览器，也就不需要显示器，但需要更强大的服务器和本地主机。
我特别期待未来的办公室是这样的：
三个屏幕、二十个计算盒——一个公司专注做一件事，机器在后台并行工作，这将是非常有意思的状态。

翟琦： 也许那时连“人”都不太需要了。

骆轶航： 对。

翟琦： 我一直相信，人应该去做自己认为更有意义的事。

如果你没身处AI浪潮中，可能你的想象力还不够

骆轶航： 对，这是第一点。第二个问题我也挺好奇的——你们在八月底宣布了融资，一笔很大的钱。我看过你们在日本酒店订房的 Demo，当时没太理解。后来十月初我们第一次见面，聊过之后我好像明白了。
我们后来又讨论过，怎么用一句话解释 Tinyfish 在做的事。我说是 “Web control Web”，你说这句话大家还是难懂。
我觉得用 AI 的人需要想象力，做 AI 产品的人更需要想象力。但这不是“有没有”的问题，而是如果你没身处浪潮中，你的想象力可能就不够。

翟琦： 对。

骆轶航： 那现在有没有更好的方式解释你们在做的事？“Web control Web” 听上去太抽象。Atlas 是 “Human and Agent collaboratively control Webs”。那 Tinyfish 到底是什么？

翟琦： 我们的逻辑是：Machines automatically execute at scale.

骆轶航： At scale——机器在大规模自动执行。

翟琦： 对，在网上是这样。我也没找到一个更好的解释方式，但核心逻辑没问题。如果听众朋友们有更好的建议，我也非常乐意听。

骆轶航： 对，这个东西该怎么去理解呢？

翟琦： 很多时候我也同意你说的——光有创意不够，还得有那种 Steve Jobs 所说的 “the crazy ones”。你得够疯狂，才能看见别人看不到的世界。梵高在发疯之前画的画没什么特别的，只有当他“疯了”，他看到的世界才变得如此美丽。

骆轶航： 真的是 crazy one。你看，我们快录完了你才开始上架（笑）。真的是 crazy one。

翟琦： 对啊，不“疯”一点，很多问题根本解决不了。

骆轶航： 我觉得问题就在这儿——做 AI 产品的人想象力其实也不够，做技术的人很多也不够。

翟琦： 是的。你写文章的想象力可能更强一些，但其实也有限。

骆轶航： 大部分写文章的人想象力也不够啊（笑）。

翟琦： 对，因为我们都是在既有的框架上往前做，这是人的本能。真正的想象力，是要敢于畅想“未来会是什么样”，而不是只在今天往前挪一步。这是一个很大的挑战。

骆轶航： 你也很难去描述它，但“Web control Web” 这个感觉——如果我模糊地去形容，就是这样：
你打开电脑，看到一个很简陋的 Portal，输入一个指令，它就开始执行。
你离开电脑，它在后台不断工作，也不太希望你打断。
一段时间后，它给你一个巨大的结果——背后连接了无数网页、生成了大量数据。
它的界面很朴素，却帮你完成了一件庞大的事；
你不需要参与任何过程。
Browser is dead. OK？
我觉得你们如果想做品牌传播，这句话其实挺打动人。

翟琦： 对，面向消费者，浏览器确实不会消亡，但从我们角度看，Browser 已经死了。
就像广播死了，马车死了，毛笔死了，摇柄电话死了——但“骑马”“胡同”这些事物并没有真正消失，只是它们在社会中的意义发生了巨变。

骆轶航： 对，也许未来浏览器会变得“很高贵”——像白金汉宫门前那辆仪式感满满的马车。浏览器也许将来就是那样的存在。

翟琦： 对，过去我们不会觉得“手工艺人”多了不起，但现在你会觉得他们很珍贵。浏览这个行为其实也一样——我们人类花了二十年时间在干这件事。

骆轶航： 是啊，browsing 这种行为，是人类触网之后才诞生的。
在那之前你根本没法“浏览”。你家里几百本书，那只是读，不是浏览。

翟琦： 我明白你意思。买东西、逛街这些行为是普遍存在的，但大规模、日常化的“浏览”确实是互联网带来的新习惯。

骆轶航： 我买东西其实就像一个 Agent。我知道我要什么——比如我想买一套西装，我知道品牌、位置、颜色、上新时间。去了试穿、刷卡、走人。我不需要浏览。I don’t need to browse.

翟琦： 所以品牌方也不太爱做男士市场（笑），因为像你这样的消费者太明确了。

骆轶航： 对，男士别关注我（笑）。我知道我要买什么，也肯花钱，但我绝不会 accidentally 买一堆没用的东西。

翟琦： 所以你不是他们的目标用户。你看我穿得多花（笑）。

骆轶航： 我还比你讲究一点，有限的讲究（笑）。

翟琦： 哈哈哈，对。

骆轶航： 行，今天就聊到这儿吧。又是一期轻松但挺有意思的节目。本来我打算明年再跟你正式聊，比如在一些大会上聊 Agent、聊未来趋势。但我觉得这期必须赶紧录——因为话题太新，变化太快。
我马上要回北京了，从纽约回旧金山的路上我就在想——这期得赶快聊。

翟琦： 对，我相信我的观点现在也不是主流的。

骆轶航： 是的，因为你们做的事儿，大多数人还没看清。

翟琦： 但已经有一些人开始看到了。这个东西太新，太颠覆。问题就在于——人为什么上网？
为什么上网就一定要“扯淡”？
人当然可以上网扯淡，但那些你不想做的事，应该交给机器。

骆轶航： 对，我们昨天在群里还讨论“用户画像”，聊出了一个词——“高净值老色批”。

翟琦： 这都能讲？（笑）

骆轶航： 可以讲，这还好（笑）。这个角色其实有两部分：一部分是“高净值”，一部分是“老色批”。“高净值”来自他的工作，“老色批”来自他的天性。未来浏览器的部分，也许就是“老色批”那块，而“高净值”的部分，可能就交给 Tinyfish。

翟琦： 对，一个强大的 Agent 来解释和执行，那才是基础架构的未来。

骆轶航： 而你们的服务，也可能融入某个更强大的系统之中。

翟琦： 对，没错。其实基础设施的建设一定会催生出一整个新的产业，我甚至认为会出现几百、上千个 “villain（反派式创业者）” 的产业格局。那会是一个完全不同的生态系统。
我只是觉得，这件事是注定会发生的。而 Tinyfish 一定会在中间占据一个位置。至于最终的形态是什么样，大家都还在边走边看。

骆轶航： 是啊，大家都在边走边看。我觉得哪怕半年之后，我们再找个机会聊，想法可能又完全不一样了。

翟琦： 肯定会不一样的。

骆轶航： 对，这边电话线也太宽了（笑）。行吧，酷。OK。

翟琦： 这是你想要的吗？

骆轶航： I’m not sure. 整个氛围、vibe 是我想要的。观点和结论嘛，我觉得你讲到了六七成吧。我其实也能预感到你会聊这些。我们一直认为 “MetaWeb” 是一个很重要的方向。

翟琦： 肯定是的。我们现在专注在做这件事，其实经常能感受到它和其他路径完全不同。有空我可以拿台电脑给你看一个我们的小 demo。

骆轶航： 对，我想从实际端去看，而不是只看视频。OK。

骆轶航：（稍后）这是在我们这边的一个 demo 吧？

翟琦： 对，从你这一端看和看视频完全不一样。这个其实就是我们做的原型之一，只是一个展示用版本，跑在浏览器上。
核心上，它是真实录制的，原视频大约 40 秒，这个剪成了 20 秒版本。
这是我们给某个客户做的 demo ——一个酒店的 tour booking（旅行预订） 场景。
系统会自动抓取数据（fetch data），包括日期可用性、房型信息、价格变化等，这些都是通过自动导航（navigate）完成的。

翟琦： 你看，这其实就是未来 travel agents 的一个雏形，他们会大规模使用这种系统来自动生成、管理网页任务。
这个版本只是展示网站层面的结果。速度上从原来的 40 秒缩短到了现在的 20 秒，可靠性（reliability）也保持一致。接下来我们希望能同时运行上万甚至上万个这样的技能（skills），让系统持续自主执行。

我们还测试了其他方案——比如我这两天展示给客户看的一个 6 分钟的视频。那是一个用 GPT operator 执行网页任务的例子。

他们花了 6 分钟才完成一个任务，而大部分其他模型早就卡死了。

网页交互永远是最难的部分。我们就是要去解决这一点。整个系统现在演化得非常快（evolving too fast），我一会儿可以把那段视频找出来给你看。