自变量机器人发布全球首个世界统一模型, 35 天后新一代机器人入驻真实家庭

Source

4 月 21 日自变量机器人举行发布会,推出新一代机器人进家庭计划。一个月后的机器人,将搭载新一代自研具身智能基础模型 WALL-B 。这是全球首个基于世界统一模型架构(World Unified Model,WUM) 的具身智能基础模型,标志着具身基础模型从VLA 架构向原生多模态融合架构的重大跨越。

自变量创始人兼 CEO 王潜 、联合创始人兼 CTO 王昊全面解读了 WALL-B 的技术架构 、数据策略和训练机制等,并宣布 35 天后搭载 WALL-B 的新一代机器人将首批入驻真实家庭,开启机器人服务家庭生活的成长之旅。

家庭场景是具身智能真正的“考场”

“早上七点, 闹钟响了 。你从床上爬起来,走到客厅 。拖鞋不知踢到哪里,厨房的碗还没洗,孩子的书包扔在地上,猫打翻了一杯水。” 王潜以这一日常描述开场,直观揭示了家庭环境的本质——随机 、碎片 、不断变化 。 目前全球没有任何一台机器人可以在无遥控操作的情况下独立完成上述场景中的综合整理任务。

这一现状与公众的普遍认知形成反差 。舞台上的后空翻 、跳街舞 、写毛笔字等机器人演示虽然视觉冲击力强,但这些动作本质是预设轨迹的“命令行机器人”,每一个动作都经过预先编程或遥控操作。工厂中已经部署的工业机器人同样不构成可比案例:工厂环境下,一个动作可以重复一万次且每次条件相同 ;而在家庭中,一万个动作每个可能只做一次,每次的环境条件都不一样。

“硬件已经到位了——双足 、灵巧手 、力控关节都很好。但大脑没有跟上 。当前机器人的核心瓶颈不在本体,而在智能。家庭环境中的每一秒都可能出现全新事件:猫何时跳上桌子 、孩子把玩具扔在哪里 、地毯的摩擦力与实验室地板完全不同 。现有技术无法处理这种随机性和碎片化,机器人进入家庭也被视为“这个时代最难的技术问题之一”。

从 WALL-A 到 WALL-B: VLA 架构的局限与突破

自变量机器人从成立之初便聚焦于为机器人构建“大脑”, 即端到端的具身智能基础模型 。2024 年底,公司发布基于 VLA(视觉-语言-动作)架构的第一代具身基础模型WALL-A,25 年 9 月,将同样思路架构下的轻量化模型版本 WALL-OSS 开源。

应用方面, 自变量与 58 同城合作,将搭载 WALL-AS 模型的机器人送入真实家庭,与保洁阿姨协同作业, 实现全球首次机器人进入家庭,并服务人类复杂的家居生活,这个也是首次机器人在 C 端复杂环境的大规模落地。

正是这些真实家庭的部署,让团队看到了VLA 架构的“天花板” 。王昊解释道,VLA 架构本质上是三个独立模块的拼接:视觉模块负责识别物体,语言模块理解指令,动作模块生成轨迹。

数据在这三个模块之间逐级传递,每经过一次模块边界就会发生信息损耗和延迟。更根本的问题在于,VLA 模型只能模仿训练数据中的轨迹,无法真正理解物理世界的规律 。“ 它不理解杯子为什么会掉,不理解为什么盘子悬在桌边需要推回去。它只是在重复见过的东西 。”

WALL-B 正是对这一困局的回应 。它不是 WALL-A 的下一个版本,而是一次从底层架构到训练范式的全面重写。

世界统一模型 (WUM) : 从“VLA”到“统一整体”

WALL-B 真正区别于行业其他方案的核心,是其从 VLA 到WUM 的架构革命。

该架构的设计思路类似于 Apple Silicon 的统一内存架构:在苹果 M1 芯片之前的 Mac上,CPU 、GPU 、 内存各自独立,数据搬运产生的延迟和损耗成为性能瓶颈 ;苹果通过统一内存架构让所有处理单元共享同一块内存,性能由此大幅提升。

在机器人领域,VLA 就类似于 M1 之前的笔记本电脑架构——视觉模块 、语言模块 、动作模块各自为政,数据在模块之间搬来搬去,每搬一次就丢一次信息 。视觉学到的丰富信息,传到动作模块时只剩一个模糊的摘要。

WALL-B 采用的 WUM 的核心理念与之相同——将视觉 、语言 、动作 、物理预测等所有能力,放在同一个网络中从零开始联合训练 、融为一体,消除模块间的边界和数据搬运损耗。

基于这一架构,WALL-B 实现了三项区别于行业现有模型的核心技术特征:

第一,原生多模态 。 WALL-B 从训练第一天起,即对视觉 、听觉 、语言 、触觉 、动作等多模态数据进行同步标注与联合训练,实现“ 多模态进 、多模态出” 。这意味着模型不需要通过“传话” 的方式在不同模块间转译信息——它看到杯子的同时就已经在准备伸手,感觉到重量的同时就已经在调整力度。

这种架构还首次赋予了模型一种被称为“原生本体感” 的能力:WALL-B 无需持续观察自身全身或依赖大量外部传感器,即可内在地感知自身的空间尺寸,如高度 、宽度 、手臂伸展范围,并判断能否通过某个空间或触及某个物体 。这是一种内生的空间感知能力,而非通过外部测量或建模获得 。王昊指出,这一点甚至许多动物都不具备。

第二,物理世界的“世界观” 。 WALL-B 能够感知并预测重力 、惯性 、摩擦力 、速度等基本物理规律 。在从未见过的场景中——例如一个盘子一半悬空在桌沿外——模型可以推断出盘子掉落摔碎,从而采取预防动作。

这种对物理规律的理解为零样本泛化提供了基础 。 日常生活中,物理规律在不同环境中均保持一致,WALL-B 在任何一个它从未去过的家庭中,都能利用对基本物理常识的理解来应对新场景,不需要针对每个家庭重新训练。

第三, 与世界交互并自我进化。 这是 WUM 架构区别于所有现有 VLA 模型的最根本特征。 目前主流机器人在任务失败后通常直接停止,返回错误信息,无法从失败中学习 。WALL-B 的行为模式则完全不同: 它在失败后会调整策略再次尝试,如果成功,则将这次成功的经验直接更新到模型参数中。

这种机制使模型在真实环境中完成自我迭代,无需工程师重新训练 、无需人工注入新数据 、无需返回实验室 。王昊将其类比为人类学习使用筷子的过程——筷子掉了无数次,但每一次失败都在调整手上的控制,最终形成稳定的技能 。WALL-B 克服了

Transformer 架构难以进行长期内化记忆的问题,所有经验以原生多模态记忆的方式,通过类似人脑记忆的机制实现自我更新。

数据策略: 从“糖水”到“牛奶”

目前,行业内大多数训练模型的数据来自实验室: 实验室中的固定光照 、 固定物体位置 、无干扰环境 。王昊将这类实验室数据比喻为“糖水数据”——干净 、可控 、量大,但与真实世界差距显著,尤其与家庭中随时变化的自然光 、随意摆放的物品 、孩子和宠物的随机动作完全不同 。用这类数据训练出的模型,在真实环境中会迅速失效。

与之相对的,王昊比喻为“牛奶数据”, 即真实家庭环境中采集的嘈杂 、多变 、充满随机性的数据,也是自变量选择的数据道路。

为了获取这类数据, 自变量团队进入了数百个志愿者的真实家庭进行模型训练 。每一户家庭的布局 、灯光 、物品摆放和混乱程度各不相同。有的家庭地面散落着拖鞋 、快递箱 、玩具和袜子 ;有的家庭中猫会突然跳上桌子;有的家庭厨房灯光偏暖色而客厅偏冷色 。这些变量在实验室中无法模拟,但却是家庭环境中的日常,这些恰恰是模型必须学会应对的真实条件。

综合来看, 自变量的数据策略可总结为: 实验数据打底,真实场景提质 。实验室数据用于建立基本能力——识别常见物体 、执行基础动作 ;真实家庭数据用于让模型学会在不确定环境中生存 。真实随机 、不可预测的现实数据所驱动的数据飞轮,才是真正的壁垒。

35 天后新一代机器人入驻真实家庭

机器人进入家庭的同时,隐私问题不容回避 。王潜对此给出了自变量团队明确的解决方案:

视觉脱敏——机器人在设备端对原始图像进行实时打码处理,原始图像不离开设备,机器人看到的已经是去除个人特征的场景数据;

透明授权——用户主动按下同意键后方可开机,不存在“默认同意”,用户不同意则不开机;

用途限定——绝不共享第三方,机器人只认一个主人,发现可疑指令立即锁定。

“承诺是便宜的,用户信任才是最贵的 。”王潜明确表示。

在商业化落地方面, 自变量的时间表也已经明确:35 天后,新一代搭载 WALL-B,并根据家居环境进行硬件升级的新一代机器人将入驻首批用户的家庭。

王潜指出, 当前模型仍处于“实习生”阶段,会犯错,需要远程协助,有时可能把拖鞋放到厨房 、擦桌子擦到一半停下来“思考” 。但其能够实现 24 小时不间断工作,且每工作一天都会因新数据的产生而变得更“聪明”。

从即日起, 自变量开始招募首进家庭机器人的家长,用户可通过官方渠道提交申请。

结尾

具身基础模型的持续进步,是自变量成立以来一直追求的目标 。为机器人打造一个能够真正理解世界 、并在真实世界中持续学习的机器人大脑,进入家庭服务人类每一天是自变量机器人的长久愿景。

“尽管进入家庭的机器人现在还很笨,走得很慢,经常犯错 。人类从婴儿时期迈出的第一步也是如此 。每一个伟大的旅程,都是从踉踉跄跄的第一步开始的 。如今,机器人已经在最复杂的地方开始了它学习和进化的征程 。”

模型一直在迭代,WALL-B 的具体细节及生态基座,将于 4 月 27 日在深圳举办的首届广东省人工智能应用对接大会上全面亮相。