对话 rabbit 吕骋:活下来的 AI 硬件先行者,熬出人机交互的下一个时代

Source

沉默一年,rabbit 把一切指向“让 AI 去做事”。

2024 年 1 月,rabbit r1 的发布曾掀起一阵 AI 硬件热潮,却也很快陷入铺天盖地的争议——科技博主给出负面评测,大众也发出“有手机为何还要它”的质疑,rabbit r1 一度被贴上“鸡肋”“不成熟”的标签。

在这一波 AI 硬件创业潮中,许多同行相继折戟,rabbit 成为少数仍在场上的玩家。

这一年里,吕骋见证了许多产品的快速迭代与分化。

去年底,吕骋专程飞回北京,只为拿到一台豆包手机——最终还是通过朋友从闲鱼上辗转购得。拿到手当天,他得出了一个判断:这条技术路径尚未达到 consumer ready 的标准。就在飞机落地前,豆包手机的相关功能已经被某些第三方平台禁用。

几个月后,OpenClaw 上线即爆火。吕骋当即让团队接入,r1 成为全球首款支持小龙虾的硬件设备——发布当周,用户向左滑动,默认界面可以从兔子切换为龙虾。

rabbit 的一个投资人说吕骋 always take a go big or go home approach(要么来票大的,要么完蛋)。这样的创业者,通常都不太有妥协的气质。

吕骋并不急于推出第二代硬件,而是用一整年时间打磨 AI agent 底层技术;他也拒绝跟风传统 SaaS 思路,甚至设计团队都彻底抛弃了 Figma 和 Adobe 等工具,转向 Claude 与内部系统的协同办公;他也坚信 GUI 终将消亡,自然语言才是人与 AI 交互的终极形态。

作为连续创业者,吕骋在做 rabbit 之初就获得了 Khosla Ventures 、Sound Ventures 、Amazon Alexa Fund 以及 Synergist 等知名机构的融资。最近,rabbit 又获得了来自 BAI 资本的一轮支持。

近期,硅星人在旧金山湾区与吕骋进行了一次深入对话。镜头前的吕骋,不避讳谈论曾经的争议,也不掩饰对未来的激进判断;对坚持什么,为什么焦虑,他也很坦率直接。对外界对他把 r1 搞砸了的说法,他不接受,为自己辩护。

他坦言,创业本就是与不确定性为伴。而 rabbit 的每一步,都在把 AI 的能力落到实际操作中。

吕骋说,“历史当下可能无法判断对错,但我们希望回头来看,我们是 ahead of the time。”

以下是与吕骋的对话实录,也敬请期待《硅基立场》的同题视频播客。

rabbit 的坚守与迭代

骆轶航:你们第一波同行里,有一部分已经倒下,你们算是硕果仅存,这件事很有标志性意义。其实我有个误解,去年跟你聊完之后,我一度觉得你们放弃了硬件,转去做 AI agent。这一年 AI agent 的变化也很大,Claude 也给大家带来了很多新的 inspiration。你过去这两年基本上在干什么?是一直围绕着 agent 这件事,还是在想什么时候再做下一步?

吕骋:外界可能会觉得我们有两个让人看不懂的地方。一是 r1 发布后为什么没有推出第二代硬件,二是去年我们的方向看起来很杂乱,一会儿推进国际化、一会儿推出新东西。但从内部来讲,我们从来没有动摇过。从第一代 LAM 到现在,我们核心就是在做 agent 这件事。

硬件方面,我们去年做了理性判断,既然大家都在吐槽,说明整个行业还没有准备好。后来我们发现不只是我们,OpenAI Operator、ChatGPT Search、Apple Intelligence 也都没准备好。

所以去年一整年,我们把全部精力放在推进 agents 技术上,专注做软件,不是从零开始做新软件,而是为现在这个节点做准备,这件事非常值得。

骆轶航:外界很多人觉得你们把硬件搞砸了,你怎么看这个说法?

吕骋:首先我不认同硬件失败的说法。有些人可能觉得卖 10 万台不算什么,但要放在 AI 硬件的语境里看,还要看 r1 整个生命周期的利润。

一般新公司做第一代硬件,很多都是贴钱销售,大公司的硬件项目也一样,比如 Meta 的 Ray-Ban smart glasses 也是贴钱卖的。

从商业角度来说,我们不认为做砸了。我们当时的目标很保守,以为只能卖 3000 台,现在实际卖了十多万台。虽然早期有一些负面评价,但总退货率不到 5%。

骆轶航:退货率这么低,核心原因是什么?

吕骋:比如美国数码博主 MKBHD 前两天做采访时提到,两年前他说 r1“几乎无法评测”但最近很多人让他重新评测,他表示现在完全不一样了。

连当时给出最负面评测的人,观点都发生了反转。而且过去一年半里,我们给 r1 推送了超过 35 个设备端更新,云端更新更是不计其数,设备一直在跟着最新技术进化,本身没有质量问题,这就是退货率低的关键。

当时我们出了货、卖了出去,所以我们是被骂得最多的。

骆轶航: 但现在我反过来说,你今天坐在这儿,就说明这么一件事——你们还活着。

吕骋: 不光活着,我们还做了好多新的东西。

骆轶航:你们当时为什么一定要做硬件?很多人觉得做软件更简单,也更省心。

吕骋:不是因为我做过硬件、喜欢做硬件,这个理解太肤浅了。

真正的原因是,如果不做硬件,我们只有三种选择,做 APP、卖 API、做网页。网页在移动端的体验不好,做 APP 则有很多限制。比如要支付 App Store 的苹果税,还有各种规则约束,最近很多 web coding 类 APP 被苹果下架,就是因为苹果特别反对别人做“生成 App 的 App”。

之前也有人说,做成 WhatsApp、Telegram 上的套壳方案行不行,但后来这种方案也被禁止了。

更重要的是,话语权不在自己手里,这很危险。你做得再好,也可能变成别人的附属,比如苹果没有理由允许一个比 Siri 更聪明的产品取代自己的 Siri。从商业终点来看,这样最终只会被收购。

我们这次创业,是希望能做得更大,所以宁愿承担额外的风险,做硬件是我们仔细思考后的最佳路径。

骆轶航:所以坚守硬件,本质上是为了掌握行业话语权?

吕骋:对。而且现在硅谷的投资人也有一个共识变化,他们觉得软件没有护城河了。

很多人说,你做一个软件没什么大不了,我可以用 Claude Code 去反向工程。现在 AI coding agent 的效果大幅提升,软件的可复制性越来越强。而硬件能给我们一个输入循环,只要设备能正常运行,用户体验就一定会越来越好,这是软件无法比拟的优势。

骆轶航:总结下来,第一波 AI 硬件浪潮里,你们能活下来,不是靠运气,而是靠正确的选择和坚持?

吕骋:是这样。我们在业界共识形成之前,就确定了做硬件、做 LAM 的方向,而且在关键问题上没有走错路。创业本身就是一件辛苦的事,YC 里 99.99%的创业公司都会失败,我们能活着,本身就是一种能力。

我常跟投资人说,我们现在状态很好,活着,而且产品还挺好用,不用担心生存问题。但这个过程非常艰辛,坚信的路上肯定有无数个濒临失败的阶段。

从 “点按钮” 到 DLAM,AI Agent 的进化之路

骆轶航:其实很多人对 rabbit 的理解,只停留在 r1 这个硬件上,但对我来说,你们一开始的核心是两个东西,r1 和 LAM。LAM 不是具体产品,却是你们的核心底层逻辑。

吕骋:对,LAM 就是 Large Action Model,用动作替换了传统大模型的语言。过去一年,AI agent 进化的主要方向就是动作,我们过去一年的核心工作,就是推进 LAM 的迭代,到今天已经是第五代了。

骆轶航:能不能详细说说 LAM 五代的进化过程,每一代的核心突破是什么?

吕骋:第一代 LAM 现在看很原始,是用特定的数据实验室训练的,有点像 Tesla Autopilot 的屏幕录制方式。比如 Spotify 有个播放按钮,我们就默认它全世界都长这样,找到这个按钮就能点击操作,这也是为什么 r1 上线时只有几个 APP 能用。

第二代 LAM,我们最早实现了更广泛的使用场景。当时有了更成熟的推理模型,我们上线了 playground 功能,能够操作所有网页。我们把这个功能推送到 r1 一个月内,Anthropic 也推出了 Computer Use,不过只能在网页里操作。

半年后,OpenAI 做了 Operator,Perplexity 推出了 Comet 浏览器,其实都是这个方向。但这一代的局限是,只能在无头浏览器里操作网页。

第三代 LAM,我们从去年 2 月份开始研发,核心是研究除了网页之外,能不能跨平台控制其他设备。去年 2 月 19 号我们官网发布的 demo,就是控制 Android 系统。

当时我们用 ADB 坐标、accessibility tree 和 Android Intent 来实现,但这种方法在今天看来,还不是面向消费者的成熟方案,所以我们没有正式发布。我当时还专门回国拿了豆包手机测试,发现它也不是面向消费者的技术路径,后来豆包也确实被部分第三方平台禁用。

第四代 LAM,是我们去年下半年打造的多 Agent 架构。当时我们发现一个问题,比如用 Manus、ChatGPT Pro 做系统性调研或文档处理时,它会把任务拆解成几步,但每一步的上下文窗口和记忆是紧凑在一起的,就像一个老板既要统筹管理,又要做扫地、保安、厨师等基础工作,事情一复杂,执行效果就会很差。

我们意识到,以前所有 AI 助手都是静态问答逻辑,一条线到底。

你问今天天气怎么样,它就回答;你说明天加个日历,它就执行。但在 agent 时代,这种静态问答模式,在长期的上下文窗口和记忆挑战面前,会越来越难满足需求。所以我们做了并行架构,变成蜂群式 Agent,里面每个角色的权重不一样,有的负责计划,有的负责问答,有的负责执行。

最近 GitHub 上有个“三省六部制”的项目,其实我们去年就做过类似的方向,这一切都是为今年发布的 DLAM 做准备。

骆轶航:DLAM 是第五代 LAM 的核心,你说它是中间态产品,能不能用通俗的话解释一下,它到底是什么,工作逻辑又是什么?

吕骋:DLAM 是我们的中间态产品,不是最终形态。我们现在认为它是当下最好用的方案,但再过一段时间,我们就会把它颠覆掉。它解决的是图形界面的问题,是 GUI 的“最后荣光”。

如果图形界面不存在了,DLAM 就没有价值了。但它现在有价值,是因为还有很多“最后一公里问题”。比如让 agent 给你转钱,你还是会想自己确认一下,有些事不能完全交给 OpenClaw 这类工具。这个阶段,自动化是可以实现的,这就是 DLAM 的核心价值。

DLAM 的工作逻辑,完全是从人类用电脑的原始逻辑出发的。人用电脑需要三个部分,大脑、眼睛、手,我们就按照这个逻辑设计 DLAM。

第一是“脑”,用任何大语言模型来理解用户需求。

第二是“眼”,用视觉实时查看屏幕,但不是传统的截图方式,不是把屏幕切成格子或静态截图,那样在 UI 复杂时效果不好。我们借助 LAM 1 到 4 代的训练数据,能做到动态视觉理解。

第三是“手”,我们不做 ADB 层面的坐标控制,因为对方想封掉你就可以封掉,还需要用户开启权限,体验不好。我们做了一个驱动,能模拟人手在所有键盘、鼠标、触摸屏上的操作,还能执行所有软件的快捷键,然后转化成高效的二进制流,和 agent、大模型无缝衔接、实时协同。

骆轶航:所以 DLAM 的核心优势是通用、跨平台?

吕骋:对。今天的 DLAM,不管是 macOS、Linux、Windows、Android,还是华为鸿蒙,甚至一些研究院、航天的非通用操作系统,只要人能看懂界面,DLAM 就能使用。

比如 Salesforce 的客户,像 Walmart、Target 这些公司,他们的系统 30 年没换过,每个部门、每个门店的逻辑都不一样。DLAM 在这个阶段就有巨大优势,能用人能看懂的方式,让 agent 去改造这些老旧系统,瓦解当下的 SaaS 模式,推开最后一堵墙。

骆轶航:你刚才提到 GUI 的“最后荣光”,而最近 CLI 命令行越来越普及,DLAM 和 CLI 之间是什么关系?

吕骋:CLI 是人与机器沟通最高效的方式,也是比 GUI 更早出现的交互方式,现在它的重要性前所未有地超过了 GUI。但 CLI 也是人跟机器交互的最后一道屏障,如果以后人和机器不需要复杂交互,CLI 的重要性也会下降。

DLAM 和 CLI 的关系很简单。DLAM 解决的是当下 GUI 还未消亡时的自动化问题,而 CLI 是未来的趋势。因为它能打破 APP 的“壳”,打破信息孤岛,让不同软件、服务的信息实现共享。我们内部现在也在往 CLI 方向推进,DLAM 是中间态,等 GUI 完全消亡,DLAM 的价值就会被替代,但现阶段,它是最贴合实际、最实用的方案。

骆轶航:你觉得 GUI 最终会消亡吗?

吕骋:我觉得一定会完全消亡,哪怕在硬件上也是如此。人与任何智能体的首要交流方式,应该是语言和文字。我们现在聊天,不需要跳舞、不需要画图,就能表达所有想法。人跟狗交流,也是用语言,因为人就是这样的物种,习惯用自己的方式和其他事物沟通。

以前需要 GUI,是因为电脑不知道你在做什么,需要把信息可视化,让你手动操作。比如每次视频会议都要手动点“加入”,但电脑其实应该自己知道要做什么。

CLI 的厉害之处,就是打通了 APP 的壳,让上下文和记忆可以共享。而 agent 的发展,就是加速去掉“中间层”。

你说“帮我叫辆出租车,晚上八点去机场”,你不需要知道它用了什么 APP、打了什么电话,只要结果是七点半车到楼下就行。以后,人真正需要的,就是和 AI 系统自然对话,把需求说清楚,剩下的都交给 agent。

骆轶航:所以 LAM 的五代迭代,本质上是一步步靠近“让 AI 自主完成任务”这个目标?

吕骋:对。从第一代只能点击特定 APP 的按钮,到第二代能操作网页,第三代能跨平台控制 Android,第四代做多 Agent 架构,第五代推出 DLAM 解决 GUI 自动化问题,每一步都是在推进 agent 的能力,让它从“需要人指导”,慢慢变成“能自主理解、自主执行”。而且我们每次判断的方向,后来都被行业验证是对的。

比如我们做广泛控制时,后来才有了 Anthropic 的 Computer Use、OpenAI 的 Operator,只是我们没有成为做得最大的那个,但方向没走错,就比什么都重要。

Cyberdeck 与人类最后的护城河

骆轶航:聊完 LAM,大家最关心的就是 rabbit 的下一代硬件。你之前提到,你们在做一个代号叫 Cyberdeck 的产品,能不能详细说说它的定位?

吕骋:我们已经官宣要做 Cyberdeck 了,但没说具体长什么样。它的灵感来自索尼当年的 VAIO P,一款翻盖小黑本,和 r1 的灵感来自宝可梦道具一样,有自己的设计溯源。它的定位是原生 AI 动作计算机,不是给程序员用的,而是面向 AI 原生用户,尤其是年轻人的设备。

骆轶航:它的核心特点是什么?和 r1 有什么不一样?

吕骋:首先,它很小,比笔记本电脑小很多,非常便携。其次,它是 CLI 界面,本质上是一台非常干净的 Linux 设备。第三,它配备了 40%布局的全机械键盘,矮轴设计,用户还能自己换轴,确保长时间打字的舒适度。因为你不可能随时都方便说话,做认真的项目、整理 Markdown 文档时,还是需要好用的键盘。

和 r1 不一样,r1 是概念产品,发布时我们就知道出手太早,用户会疑惑“这东西能用来干嘛”。

但 Cyberdeck 不一样,用户拿到手就能想明白它的用途,即开即用,不会再拿它跟手机对比。它的逻辑和手机、传统笔记本完全不同,不需要装 Windows、macOS、Chrome OS,开机就能和 AI agent 对话,用上所有 CLI 工具、运行所有 agent 项目。

骆轶航:它解决的核心痛点是什么?

吕骋:最核心的痛点是多设备同步和便携性。我自己就有这个困扰,家里有游戏电脑,公司有工作电脑,在电脑上用 Claude 做的工作,到公司还要重新配置,普通消费者没人愿意花半天时间做这件事。

Cyberdeck 就能解决这个问题,它能把你所有设备的文件、任务统一起来,你拿着它,就能远程控制所有设备,随时和 AI agent 交流。

还有一个痛点,就是现在没有一款消费级设备,能兼顾便携性、CLI 交互,还能兼容所有 CLI 工具和 Agent 项目。手机不行,因为 iOS 跑不了 uv、Python 这些第三方库,安卓也只能实现远程控制。传统笔记本太大,而且很多不兼容,闲置率很高。Cyberdeck 就是要做这样一款设备,填补这个市场空白。

骆轶航:价格方面,有什么规划吗?目前市场反馈怎么样?

吕骋:我们希望能做到和 Mac mini 差不多的价格,还能留一些利润。内存价格这段时间涨得很厉害,但我们还是想尽量压低价格,让更多年轻人能买得起。

我们在 Twitter 上公布了早期访问的注册链接,两三周时间,已经有 7000 多人注册了。按照这个价格,我们已经能回本,甚至能实现盈利翻倍。这说明大家看懂了这个产品,知道它能解决自己的问题,和 r1 相比,这款产品的市场风险小了很多。

骆轶航:你觉得它会成为 AI 原生时代年轻人的第一台电脑吗?

吕骋:我觉得会。我们公司有个 16、17 岁的暑期实习生,他的电脑屏幕一打开,就只有 Claude Code。对他来说,用电脑就是跟 AI 讲话,这是很自然的事。现在的年轻人,已经被迫成为 AI 原生用户了,他们对“软件”“浏览器”这些概念,可能都没有我们这一代深刻。

我们问公司的年轻同事,想要什么型号的工作电脑,他们说“我们不在乎,只要能跑 Claude 就行”。

对年轻人来说,Cyberdeck 就是他们需要的第一台电脑。便携、能和 AI 顺畅交互、能解决多设备同步的问题,不需要复杂的配置,开机就能用。而且它足够开放,本质是 Linux 设备,用户可以做任何自己想做的事,这也符合年轻人的需求。

骆轶航:聊到 AI 原生时代,我有个问题。未来是 Agent 驱动的世界,人和人之间的差距,会体现在哪里?你之前提到“没有文化,Agent 就是废的”,能不能展开说说?

吕骋:对,这是最核心的差距。知识是静态的,可以被索引,但文化是活的,可以被构建。

最近流行什么、什么东西代表什么意义,这些都是被建构出来的,很难被索引。美国有句话叫“know your memes”,这就是文化的一部分,很复杂,AI 没法轻易复制。

举个简单的例子,我特别喜欢《新世纪福音战士》,连电子烟都是 EVA 主题的。如果一个没看过 EVA 的人,让 Claude 做一个 EVA 风格的界面,他只会说“帮我做一个符合《新世纪福音战士》审美的网站”。Claude 能做出来,但肯定做不出我想要的效果。因为我作为资深粉丝,对 EVA 视觉语言的理解,不是一句“像它一样”就能说清楚的,这就是文化和审美带来的差距。

我们内部做过一个测试,让工程师只写提示词,不直接写代码,在自己的代码库里测试,结果发现人和人之间的差距非常大。这个差距,不是编码能力的差距,而是知识体系、思维建构的差距。

你的知识体系越完善,每天摄入的知识越多,这些知识在你的记忆宫殿里形成的结构越清晰,你给 Agent 的提示词就越精准,Agent 的表现就越好。

骆轶航:我突然发现,AI 时代,这件事是没法教的。你的 Agent 长什么样,你给它什么样的提示词,取决于你的算力、参数、预训练方式、上下文记忆、RAG,每个人都不一样。

吕骋:确实没法教。这就跟带小孩一样,父母能做的就是身体力行示范、孜孜不倦沟通,不能打骂,只能慢慢引导。Agent 也一样,你说一遍它不一定听,有时候记不住、明知故犯,甚至反着来。

你需要每天对它进行强化学习,就像养小孩、养狗一样。狗前两到四个月就定型了,后面很难纠正,Agent 也一样,你对它的约束能力越高,要求它“别干什么”就越难。

骆轶航:我前两天和 Claude 探讨,为什么给它的上下文一多,结果反而更糟。我问能不能用技能约束上下文,它说“你的技能本身就是上下文”,我当时就懵了。

我也做过一个实验,觉得自己提示词写得不好,就用所有模型,从最快最小的开始,一路用到最顶层的模型,设计了一个游戏。让最顶层的模型产出一个大师级提示词,让 Codex 一看就能执行,结果和我要求的完全一样。中间经过很多层,每一层模型的知识水平都比下一层高。

我用最简单的自然语言描述需求,第一层模型翻译成 Markdown 提示词,再转给更好的模型,一路筛上去。最后 GPT-4.5 输出的 prompt,和我当初说的“人话”相比,差距大到让人振奋。这个差距,就是文化和知识积累带来的。

骆轶航:所以 AI 时代,人类最后的护城河,就是文化和审美?

吕骋:对。三年以后,AI 可能不再需要人类的指导性输入,每个模型都能解决普通人 99.99%的问题。到那个时候,用户真正会为什么买单?就是审美。就像服装,所有人穿不暖的时候,只强调功能性。等大家都穿暖吃饱了,核心就是舒服和审美。AI 能解决功能问题,但没法替代你对世界的理解,没法替代你的文化积累和审美判断。

我之前有个激进的观点,AI 市场可能未来三年就打完了,就是 AI 不再需要人类给予指导性输入的节点。到那个时候,人和人的差距,就全在文化和审美上。哪怕知识层面打平了,谁能在文化上有更有创造力的指导,形成有效的约束落在 Agent 上,最终产生的差距就会很大。没有文化,你的 Agent 就是废的。

骆轶航:我最近有个很惶恐的经历,用 AI 写了一篇五六千字的文章,从和 Claude 讨论到发稿,只用了五十分钟,结果文章爆了。很多人说我想得很深,但其实我想得很草。观点框架是我的,但细节不是,我甚至不知道矿机技术发展到哪个阶段。

那些让文章“火”的点,到底归我还是归 AI,我分不清楚。我唯一觉得自己还有用的,就是建构叙事的能力,找到不同事物之间的强关联,这个能力目前还没被 AI 取代。

吕骋:这就是最核心的东西,建构叙事、文化审美,这些都是 AI 没法替代的。以后,AI 能帮你做所有执行层面的事,但“你想做什么”“你想要什么样的结果”,还是取决于你自己的文化和审美。

我们这一代很幸运,站在从模拟时代到数智时代的转折点,承前启后。而我们能做的,就是坚守方向,给 AI-native 的一代,做出他们想要的计算设备,同时守住人类最后的护城河。

骆轶航:今年是电子计算机诞生 80 年,也可能是新的“Macintosh 时刻”,你觉得 rabbit 能抓住这个机会吗?

吕骋:我们希望能。历史当下可能无法判断对错,但我们希望回头来看,我们是走在时代前面的。我们接受创业的风险,也坚信自己的方向,继续努力,给大家奉献更好的产品,给 AI-native 的一代做出他们想要的计算设备。

骆轶航:好,非常感谢 Jesse 今天的分享,也期待 Cyberdeck 的正式发布,期待 rabbit 能在 AI 硬件的赛道上,走出一条不一样的路。

吕骋:谢谢,也期待之后和大家再分享更多新进展。