对话 rabbit 吕骋：活下来的 AI 硬件先行者，熬出人机交互的下一个时代

Source

沉默一年，rabbit 把一切指向“让 AI 去做事”。

2024 年 1 月，rabbit r1 的发布曾掀起一阵 AI 硬件热潮，却也很快陷入铺天盖地的争议——科技博主给出负面评测，大众也发出“有手机为何还要它”的质疑，rabbit r1 一度被贴上“鸡肋”“不成熟”的标签。

在这一波 AI 硬件创业潮中，许多同行相继折戟，rabbit 成为少数仍在场上的玩家。

这一年里，吕骋见证了许多产品的快速迭代与分化。

去年底，吕骋专程飞回北京，只为拿到一台豆包手机——最终还是通过朋友从闲鱼上辗转购得。拿到手当天，他得出了一个判断：这条技术路径尚未达到 consumer ready 的标准。就在飞机落地前，豆包手机的相关功能已经被某些第三方平台禁用。

几个月后，OpenClaw 上线即爆火。吕骋当即让团队接入，r1 成为全球首款支持小龙虾的硬件设备——发布当周，用户向左滑动，默认界面可以从兔子切换为龙虾。

rabbit 的一个投资人说吕骋 always take a go big or go home approach（要么来票大的，要么完蛋）。这样的创业者，通常都不太有妥协的气质。

吕骋并不急于推出第二代硬件，而是用一整年时间打磨 AI agent 底层技术；他也拒绝跟风传统 SaaS 思路，甚至设计团队都彻底抛弃了 Figma 和 Adobe 等工具，转向 Claude 与内部系统的协同办公；他也坚信 GUI 终将消亡，自然语言才是人与 AI 交互的终极形态。

作为连续创业者，吕骋在做 rabbit 之初就获得了 Khosla Ventures 、Sound Ventures 、Amazon Alexa Fund 以及 Synergist 等知名机构的融资。最近，rabbit 又获得了来自 BAI 资本的一轮支持。

近期，硅星人在旧金山湾区与吕骋进行了一次深入对话。镜头前的吕骋，不避讳谈论曾经的争议，也不掩饰对未来的激进判断；对坚持什么，为什么焦虑，他也很坦率直接。对外界对他把 r1 搞砸了的说法，他不接受，为自己辩护。

他坦言，创业本就是与不确定性为伴。而 rabbit 的每一步，都在把 AI 的能力落到实际操作中。

吕骋说，“历史当下可能无法判断对错，但我们希望回头来看，我们是 ahead of the time。”

以下是与吕骋的对话实录，也敬请期待《硅基立场》的同题视频播客。

rabbit 的坚守与迭代

骆轶航：你们第一波同行里，有一部分已经倒下，你们算是硕果仅存，这件事很有标志性意义。其实我有个误解，去年跟你聊完之后，我一度觉得你们放弃了硬件，转去做 AI agent。这一年 AI agent 的变化也很大，Claude 也给大家带来了很多新的 inspiration。你过去这两年基本上在干什么？是一直围绕着 agent 这件事，还是在想什么时候再做下一步？

吕骋：外界可能会觉得我们有两个让人看不懂的地方。一是 r1 发布后为什么没有推出第二代硬件，二是去年我们的方向看起来很杂乱，一会儿推进国际化、一会儿推出新东西。但从内部来讲，我们从来没有动摇过。从第一代 LAM 到现在，我们核心就是在做 agent 这件事。

硬件方面，我们去年做了理性判断，既然大家都在吐槽，说明整个行业还没有准备好。后来我们发现不只是我们，OpenAI Operator、ChatGPT Search、Apple Intelligence 也都没准备好。

所以去年一整年，我们把全部精力放在推进 agents 技术上，专注做软件，不是从零开始做新软件，而是为现在这个节点做准备，这件事非常值得。

骆轶航：外界很多人觉得你们把硬件搞砸了，你怎么看这个说法？

吕骋：首先我不认同硬件失败的说法。有些人可能觉得卖 10 万台不算什么，但要放在 AI 硬件的语境里看，还要看 r1 整个生命周期的利润。

一般新公司做第一代硬件，很多都是贴钱销售，大公司的硬件项目也一样，比如 Meta 的 Ray-Ban smart glasses 也是贴钱卖的。

从商业角度来说，我们不认为做砸了。我们当时的目标很保守，以为只能卖 3000 台，现在实际卖了十多万台。虽然早期有一些负面评价，但总退货率不到 5%。

骆轶航：退货率这么低，核心原因是什么？

吕骋：比如美国数码博主 MKBHD 前两天做采访时提到，两年前他说 r1“几乎无法评测”但最近很多人让他重新评测，他表示现在完全不一样了。

连当时给出最负面评测的人，观点都发生了反转。而且过去一年半里，我们给 r1 推送了超过 35 个设备端更新，云端更新更是不计其数，设备一直在跟着最新技术进化，本身没有质量问题，这就是退货率低的关键。

当时我们出了货、卖了出去，所以我们是被骂得最多的。

骆轶航：但现在我反过来说，你今天坐在这儿，就说明这么一件事——你们还活着。

吕骋：不光活着，我们还做了好多新的东西。

骆轶航：你们当时为什么一定要做硬件？很多人觉得做软件更简单，也更省心。

吕骋：不是因为我做过硬件、喜欢做硬件，这个理解太肤浅了。

真正的原因是，如果不做硬件，我们只有三种选择，做 APP、卖 API、做网页。网页在移动端的体验不好，做 APP 则有很多限制。比如要支付 App Store 的苹果税，还有各种规则约束，最近很多 web coding 类 APP 被苹果下架，就是因为苹果特别反对别人做“生成 App 的 App”。

之前也有人说，做成 WhatsApp、Telegram 上的套壳方案行不行，但后来这种方案也被禁止了。

更重要的是，话语权不在自己手里，这很危险。你做得再好，也可能变成别人的附属，比如苹果没有理由允许一个比 Siri 更聪明的产品取代自己的 Siri。从商业终点来看，这样最终只会被收购。

我们这次创业，是希望能做得更大，所以宁愿承担额外的风险，做硬件是我们仔细思考后的最佳路径。

骆轶航：所以坚守硬件，本质上是为了掌握行业话语权？

吕骋：对。而且现在硅谷的投资人也有一个共识变化，他们觉得软件没有护城河了。

很多人说，你做一个软件没什么大不了，我可以用 Claude Code 去反向工程。现在 AI coding agent 的效果大幅提升，软件的可复制性越来越强。而硬件能给我们一个输入循环，只要设备能正常运行，用户体验就一定会越来越好，这是软件无法比拟的优势。

骆轶航：总结下来，第一波 AI 硬件浪潮里，你们能活下来，不是靠运气，而是靠正确的选择和坚持？

吕骋：是这样。我们在业界共识形成之前，就确定了做硬件、做 LAM 的方向，而且在关键问题上没有走错路。创业本身就是一件辛苦的事，YC 里 99.99%的创业公司都会失败，我们能活着，本身就是一种能力。

我常跟投资人说，我们现在状态很好，活着，而且产品还挺好用，不用担心生存问题。但这个过程非常艰辛，坚信的路上肯定有无数个濒临失败的阶段。

从 “点按钮” 到 DLAM，AI Agent 的进化之路

骆轶航：其实很多人对 rabbit 的理解，只停留在 r1 这个硬件上，但对我来说，你们一开始的核心是两个东西，r1 和 LAM。LAM 不是具体产品，却是你们的核心底层逻辑。

吕骋：对，LAM 就是 Large Action Model，用动作替换了传统大模型的语言。过去一年，AI agent 进化的主要方向就是动作，我们过去一年的核心工作，就是推进 LAM 的迭代，到今天已经是第五代了。

骆轶航：能不能详细说说 LAM 五代的进化过程，每一代的核心突破是什么？

吕骋：第一代 LAM 现在看很原始，是用特定的数据实验室训练的，有点像 Tesla Autopilot 的屏幕录制方式。比如 Spotify 有个播放按钮，我们就默认它全世界都长这样，找到这个按钮就能点击操作，这也是为什么 r1 上线时只有几个 APP 能用。

第二代 LAM，我们最早实现了更广泛的使用场景。当时有了更成熟的推理模型，我们上线了 playground 功能，能够操作所有网页。我们把这个功能推送到 r1 一个月内，Anthropic 也推出了 Computer Use，不过只能在网页里操作。

半年后，OpenAI 做了 Operator，Perplexity 推出了 Comet 浏览器，其实都是这个方向。但这一代的局限是，只能在无头浏览器里操作网页。

第三代 LAM，我们从去年 2 月份开始研发，核心是研究除了网页之外，能不能跨平台控制其他设备。去年 2 月 19 号我们官网发布的 demo，就是控制 Android 系统。

当时我们用 ADB 坐标、accessibility tree 和 Android Intent 来实现，但这种方法在今天看来，还不是面向消费者的成熟方案，所以我们没有正式发布。我当时还专门回国拿了豆包手机测试，发现它也不是面向消费者的技术路径，后来豆包也确实被部分第三方平台禁用。

第四代 LAM，是我们去年下半年打造的多 Agent 架构。当时我们发现一个问题，比如用 Manus、ChatGPT Pro 做系统性调研或文档处理时，它会把任务拆解成几步，但每一步的上下文窗口和记忆是紧凑在一起的，就像一个老板既要统筹管理，又要做扫地、保安、厨师等基础工作，事情一复杂，执行效果就会很差。

我们意识到，以前所有 AI 助手都是静态问答逻辑，一条线到底。

你问今天天气怎么样，它就回答；你说明天加个日历，它就执行。但在 agent 时代，这种静态问答模式，在长期的上下文窗口和记忆挑战面前，会越来越难满足需求。所以我们做了并行架构，变成蜂群式 Agent，里面每个角色的权重不一样，有的负责计划，有的负责问答，有的负责执行。

最近 GitHub 上有个“三省六部制”的项目，其实我们去年就做过类似的方向，这一切都是为今年发布的 DLAM 做准备。

骆轶航：DLAM 是第五代 LAM 的核心，你说它是中间态产品，能不能用通俗的话解释一下，它到底是什么，工作逻辑又是什么？

吕骋：DLAM 是我们的中间态产品，不是最终形态。我们现在认为它是当下最好用的方案，但再过一段时间，我们就会把它颠覆掉。它解决的是图形界面的问题，是 GUI 的“最后荣光”。

如果图形界面不存在了，DLAM 就没有价值了。但它现在有价值，是因为还有很多“最后一公里问题”。比如让 agent 给你转钱，你还是会想自己确认一下，有些事不能完全交给 OpenClaw 这类工具。这个阶段，自动化是可以实现的，这就是 DLAM 的核心价值。

DLAM 的工作逻辑，完全是从人类用电脑的原始逻辑出发的。人用电脑需要三个部分，大脑、眼睛、手，我们就按照这个逻辑设计 DLAM。

第一是“脑”，用任何大语言模型来理解用户需求。

第二是“眼”，用视觉实时查看屏幕，但不是传统的截图方式，不是把屏幕切成格子或静态截图，那样在 UI 复杂时效果不好。我们借助 LAM 1 到 4 代的训练数据，能做到动态视觉理解。

第三是“手”，我们不做 ADB 层面的坐标控制，因为对方想封掉你就可以封掉，还需要用户开启权限，体验不好。我们做了一个驱动，能模拟人手在所有键盘、鼠标、触摸屏上的操作，还能执行所有软件的快捷键，然后转化成高效的二进制流，和 agent、大模型无缝衔接、实时协同。

骆轶航：所以 DLAM 的核心优势是通用、跨平台？

吕骋：对。今天的 DLAM，不管是 macOS、Linux、Windows、Android，还是华为鸿蒙，甚至一些研究院、航天的非通用操作系统，只要人能看懂界面，DLAM 就能使用。

比如 Salesforce 的客户，像 Walmart、Target 这些公司，他们的系统 30 年没换过，每个部门、每个门店的逻辑都不一样。DLAM 在这个阶段就有巨大优势，能用人能看懂的方式，让 agent 去改造这些老旧系统，瓦解当下的 SaaS 模式，推开最后一堵墙。

骆轶航：你刚才提到 GUI 的“最后荣光”，而最近 CLI 命令行越来越普及，DLAM 和 CLI 之间是什么关系？

吕骋：CLI 是人与机器沟通最高效的方式，也是比 GUI 更早出现的交互方式，现在它的重要性前所未有地超过了 GUI。但 CLI 也是人跟机器交互的最后一道屏障，如果以后人和机器不需要复杂交互，CLI 的重要性也会下降。

DLAM 和 CLI 的关系很简单。DLAM 解决的是当下 GUI 还未消亡时的自动化问题，而 CLI 是未来的趋势。因为它能打破 APP 的“壳”，打破信息孤岛，让不同软件、服务的信息实现共享。我们内部现在也在往 CLI 方向推进，DLAM 是中间态，等 GUI 完全消亡，DLAM 的价值就会被替代，但现阶段，它是最贴合实际、最实用的方案。

骆轶航：你觉得 GUI 最终会消亡吗？

吕骋：我觉得一定会完全消亡，哪怕在硬件上也是如此。人与任何智能体的首要交流方式，应该是语言和文字。我们现在聊天，不需要跳舞、不需要画图，就能表达所有想法。人跟狗交流，也是用语言，因为人就是这样的物种，习惯用自己的方式和其他事物沟通。

以前需要 GUI，是因为电脑不知道你在做什么，需要把信息可视化，让你手动操作。比如每次视频会议都要手动点“加入”，但电脑其实应该自己知道要做什么。

CLI 的厉害之处，就是打通了 APP 的壳，让上下文和记忆可以共享。而 agent 的发展，就是加速去掉“中间层”。

你说“帮我叫辆出租车，晚上八点去机场”，你不需要知道它用了什么 APP、打了什么电话，只要结果是七点半车到楼下就行。以后，人真正需要的，就是和 AI 系统自然对话，把需求说清楚，剩下的都交给 agent。

骆轶航：所以 LAM 的五代迭代，本质上是一步步靠近“让 AI 自主完成任务”这个目标？

吕骋：对。从第一代只能点击特定 APP 的按钮，到第二代能操作网页，第三代能跨平台控制 Android，第四代做多 Agent 架构，第五代推出 DLAM 解决 GUI 自动化问题，每一步都是在推进 agent 的能力，让它从“需要人指导”，慢慢变成“能自主理解、自主执行”。而且我们每次判断的方向，后来都被行业验证是对的。

比如我们做广泛控制时，后来才有了 Anthropic 的 Computer Use、OpenAI 的 Operator，只是我们没有成为做得最大的那个，但方向没走错，就比什么都重要。

Cyberdeck 与人类最后的护城河

骆轶航：聊完 LAM，大家最关心的就是 rabbit 的下一代硬件。你之前提到，你们在做一个代号叫 Cyberdeck 的产品，能不能详细说说它的定位？

吕骋：我们已经官宣要做 Cyberdeck 了，但没说具体长什么样。它的灵感来自索尼当年的 VAIO P，一款翻盖小黑本，和 r1 的灵感来自宝可梦道具一样，有自己的设计溯源。它的定位是原生 AI 动作计算机，不是给程序员用的，而是面向 AI 原生用户，尤其是年轻人的设备。

骆轶航：它的核心特点是什么？和 r1 有什么不一样？

吕骋：首先，它很小，比笔记本电脑小很多，非常便携。其次，它是 CLI 界面，本质上是一台非常干净的 Linux 设备。第三，它配备了 40%布局的全机械键盘，矮轴设计，用户还能自己换轴，确保长时间打字的舒适度。因为你不可能随时都方便说话，做认真的项目、整理 Markdown 文档时，还是需要好用的键盘。

和 r1 不一样，r1 是概念产品，发布时我们就知道出手太早，用户会疑惑“这东西能用来干嘛”。

但 Cyberdeck 不一样，用户拿到手就能想明白它的用途，即开即用，不会再拿它跟手机对比。它的逻辑和手机、传统笔记本完全不同，不需要装 Windows、macOS、Chrome OS，开机就能和 AI agent 对话，用上所有 CLI 工具、运行所有 agent 项目。

骆轶航：它解决的核心痛点是什么？

吕骋：最核心的痛点是多设备同步和便携性。我自己就有这个困扰，家里有游戏电脑，公司有工作电脑，在电脑上用 Claude 做的工作，到公司还要重新配置，普通消费者没人愿意花半天时间做这件事。

Cyberdeck 就能解决这个问题，它能把你所有设备的文件、任务统一起来，你拿着它，就能远程控制所有设备，随时和 AI agent 交流。

还有一个痛点，就是现在没有一款消费级设备，能兼顾便携性、CLI 交互，还能兼容所有 CLI 工具和 Agent 项目。手机不行，因为 iOS 跑不了 uv、Python 这些第三方库，安卓也只能实现远程控制。传统笔记本太大，而且很多不兼容，闲置率很高。Cyberdeck 就是要做这样一款设备，填补这个市场空白。

骆轶航：价格方面，有什么规划吗？目前市场反馈怎么样？

吕骋：我们希望能做到和 Mac mini 差不多的价格，还能留一些利润。内存价格这段时间涨得很厉害，但我们还是想尽量压低价格，让更多年轻人能买得起。

我们在 Twitter 上公布了早期访问的注册链接，两三周时间，已经有 7000 多人注册了。按照这个价格，我们已经能回本，甚至能实现盈利翻倍。这说明大家看懂了这个产品，知道它能解决自己的问题，和 r1 相比，这款产品的市场风险小了很多。

骆轶航：你觉得它会成为 AI 原生时代年轻人的第一台电脑吗？

吕骋：我觉得会。我们公司有个 16、17 岁的暑期实习生，他的电脑屏幕一打开，就只有 Claude Code。对他来说，用电脑就是跟 AI 讲话，这是很自然的事。现在的年轻人，已经被迫成为 AI 原生用户了，他们对“软件”“浏览器”这些概念，可能都没有我们这一代深刻。

我们问公司的年轻同事，想要什么型号的工作电脑，他们说“我们不在乎，只要能跑 Claude 就行”。

对年轻人来说，Cyberdeck 就是他们需要的第一台电脑。便携、能和 AI 顺畅交互、能解决多设备同步的问题，不需要复杂的配置，开机就能用。而且它足够开放，本质是 Linux 设备，用户可以做任何自己想做的事，这也符合年轻人的需求。

骆轶航：聊到 AI 原生时代，我有个问题。未来是 Agent 驱动的世界，人和人之间的差距，会体现在哪里？你之前提到“没有文化，Agent 就是废的”，能不能展开说说？

吕骋：对，这是最核心的差距。知识是静态的，可以被索引，但文化是活的，可以被构建。

最近流行什么、什么东西代表什么意义，这些都是被建构出来的，很难被索引。美国有句话叫“know your memes”，这就是文化的一部分，很复杂，AI 没法轻易复制。

举个简单的例子，我特别喜欢《新世纪福音战士》，连电子烟都是 EVA 主题的。如果一个没看过 EVA 的人，让 Claude 做一个 EVA 风格的界面，他只会说“帮我做一个符合《新世纪福音战士》审美的网站”。Claude 能做出来，但肯定做不出我想要的效果。因为我作为资深粉丝，对 EVA 视觉语言的理解，不是一句“像它一样”就能说清楚的，这就是文化和审美带来的差距。

我们内部做过一个测试，让工程师只写提示词，不直接写代码，在自己的代码库里测试，结果发现人和人之间的差距非常大。这个差距，不是编码能力的差距，而是知识体系、思维建构的差距。

你的知识体系越完善，每天摄入的知识越多，这些知识在你的记忆宫殿里形成的结构越清晰，你给 Agent 的提示词就越精准，Agent 的表现就越好。

骆轶航：我突然发现，AI 时代，这件事是没法教的。你的 Agent 长什么样，你给它什么样的提示词，取决于你的算力、参数、预训练方式、上下文记忆、RAG，每个人都不一样。

吕骋：确实没法教。这就跟带小孩一样，父母能做的就是身体力行示范、孜孜不倦沟通，不能打骂，只能慢慢引导。Agent 也一样，你说一遍它不一定听，有时候记不住、明知故犯，甚至反着来。

你需要每天对它进行强化学习，就像养小孩、养狗一样。狗前两到四个月就定型了，后面很难纠正，Agent 也一样，你对它的约束能力越高，要求它“别干什么”就越难。

骆轶航：我前两天和 Claude 探讨，为什么给它的上下文一多，结果反而更糟。我问能不能用技能约束上下文，它说“你的技能本身就是上下文”，我当时就懵了。

我也做过一个实验，觉得自己提示词写得不好，就用所有模型，从最快最小的开始，一路用到最顶层的模型，设计了一个游戏。让最顶层的模型产出一个大师级提示词，让 Codex 一看就能执行，结果和我要求的完全一样。中间经过很多层，每一层模型的知识水平都比下一层高。

我用最简单的自然语言描述需求，第一层模型翻译成 Markdown 提示词，再转给更好的模型，一路筛上去。最后 GPT-4.5 输出的 prompt，和我当初说的“人话”相比，差距大到让人振奋。这个差距，就是文化和知识积累带来的。

骆轶航：所以 AI 时代，人类最后的护城河，就是文化和审美？

吕骋：对。三年以后，AI 可能不再需要人类的指导性输入，每个模型都能解决普通人 99.99%的问题。到那个时候，用户真正会为什么买单？就是审美。就像服装，所有人穿不暖的时候，只强调功能性。等大家都穿暖吃饱了，核心就是舒服和审美。AI 能解决功能问题，但没法替代你对世界的理解，没法替代你的文化积累和审美判断。

我之前有个激进的观点，AI 市场可能未来三年就打完了，就是 AI 不再需要人类给予指导性输入的节点。到那个时候，人和人的差距，就全在文化和审美上。哪怕知识层面打平了，谁能在文化上有更有创造力的指导，形成有效的约束落在 Agent 上，最终产生的差距就会很大。没有文化，你的 Agent 就是废的。

骆轶航：我最近有个很惶恐的经历，用 AI 写了一篇五六千字的文章，从和 Claude 讨论到发稿，只用了五十分钟，结果文章爆了。很多人说我想得很深，但其实我想得很草。观点框架是我的，但细节不是，我甚至不知道矿机技术发展到哪个阶段。

那些让文章“火”的点，到底归我还是归 AI，我分不清楚。我唯一觉得自己还有用的，就是建构叙事的能力，找到不同事物之间的强关联，这个能力目前还没被 AI 取代。

吕骋：这就是最核心的东西，建构叙事、文化审美，这些都是 AI 没法替代的。以后，AI 能帮你做所有执行层面的事，但“你想做什么”“你想要什么样的结果”，还是取决于你自己的文化和审美。

我们这一代很幸运，站在从模拟时代到数智时代的转折点，承前启后。而我们能做的，就是坚守方向，给 AI-native 的一代，做出他们想要的计算设备，同时守住人类最后的护城河。

骆轶航：今年是电子计算机诞生 80 年，也可能是新的“Macintosh 时刻”，你觉得 rabbit 能抓住这个机会吗？

吕骋：我们希望能。历史当下可能无法判断对错，但我们希望回头来看，我们是走在时代前面的。我们接受创业的风险，也坚信自己的方向，继续努力，给大家奉献更好的产品，给 AI-native 的一代做出他们想要的计算设备。

骆轶航：好，非常感谢 Jesse 今天的分享，也期待 Cyberdeck 的正式发布，期待 rabbit 能在 AI 硬件的赛道上，走出一条不一样的路。

吕骋：谢谢，也期待之后和大家再分享更多新进展。