北大团队突破机器人"眼疾手慢"难题：让AI机器人真正看清再动手

Source

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：科技行者）

这项由北京大学多媒体信息处理国家重点实验室领导，联合香港中文大学和Simplexity Robotics公司共同完成的研究发表于2026年，论文编号为arXiv:2603.15618v2。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们看到一个机器人试图抓取桌上的苹果时，你可能会认为这很简单——毕竟人类三岁小孩都能轻松做到。但实际上，让机器人准确地"看清楚"并"抓准确"一直是人工智能领域的重大难题。就像一个视力逐渐模糊的人试图穿针引线一样，现有的视觉-语言-动作模型在执行精密操作时经常会出现"看得见却抓不准"的问题。

北京大学的研究团队经过深入分析发现，这个问题的根源出人意料地简单：现有的AI机器人模型就像一个注意力不集中的学生，在处理信息的过程中，越到后面越容易"走神"。当信息在模型的深层结构中传递时，对关键视觉信息的敏感度会逐渐降低，就好比看书看到后面章节时开始打瞌睡，重要内容都没记住。

为了解决这个"注意力涣散"的问题，研究团队开发了一套名为DeepVision-VLA的创新框架。这个框架的核心思想类似于给一个容易走神的学生配备一个专业的视觉教练。这位"教练"是一个专门的视觉基础模型DINOv3，它擅长捕捉画面中的精细细节。通过一种巧妙的"视觉-语言混合变换器"机制，这位视觉教练会在学生最容易走神的时候及时提醒，确保重要的视觉信息不会被遗漏。

更有趣的是，研究团队还设计了一个"动作引导的视觉筛选"策略。这就像一个智能的注意力过滤器，能够自动识别哪些视觉信息对即将执行的动作最重要，然后重点关注这些关键区域，同时忽略那些无关的背景噪音。这种机制不仅提高了精度，还大大减少了计算负担。

在实际测试中，DeepVision-VLA表现出色。在模拟环境的十项任务中，它比之前最先进的方法提高了9个百分点。更令人印象深刻的是，在真实世界的复杂双臂机械手操作任务中，它的成功率提升了7.5个百分点。这种改进在机器人领域是相当显著的，意味着原本十次操作可能失败三次的机器人，现在基本上每次都能成功完成任务。

一、机器人为什么会"眼疾手慢"

要理解这项研究的重要性，我们首先需要搞清楚机器人操作背后的复杂性。当人类看到桌上有个苹果并想要拿起它时，这个过程对我们来说简单得不需要思考：眼睛看到苹果的位置、形状和大小，大脑瞬间计算出手臂需要如何移动，然后手准确地抓住苹果。整个过程流畅自然，就像呼吸一样自动。

但对于机器人来说，这个看似简单的过程实际上需要处理海量的信息。机器人首先通过摄像头获得图像，然后需要理解语言指令（比如"拿起那个红苹果"），最后将视觉信息和语言指令转换成精确的机械动作。这就像要求一个人同时当翻译、画家和指挥家——翻译理解指令，画家识别物体，指挥家协调动作。

目前的视觉-语言-动作模型可以想象成一个巨大的信息处理工厂，有着几十层的处理车间。信息从第一层开始，逐层向下传递和加工。研究团队发现了一个关键问题：在这个信息工厂的深层车间里，工人们对重要视觉信息的注意力会逐渐分散。

为了验证这个发现，研究团队设计了一系列巧妙的实验。他们分析了三个不同的主流模型：OpenVLA、π0和自己开发的QwenVLA-OFT。这三个模型就像三种不同品牌的智能助手，但都有着相似的内部结构。研究团队使用了1500个来自BridgeV2数据集的机械手操作视频进行分析，这个数据集包含了大量高质量的机器人操作演示。

实验的设计很像医生给病人做视力检查。研究团队首先观察模型在不同层级上的"注意力地图"——也就是模型在做决策时主要关注画面的哪些区域。结果发现，在较浅的层级（相当于信息处理的早期阶段），模型能够很好地关注到机械手、目标物体以及它们的交互区域。但随着信息向更深层级传递，这种关注逐渐变得分散和模糊，就像近视眼摘掉眼镜后看东西一样。

为了更准确地量化这种注意力衰减现象，研究团队采用了一种"视觉遮挡测试"。这个测试类似于眼科医生检查视野时遮住部分视线的方法。他们在模型的不同层级上选择性地遮挡关键的视觉区域，然后观察这种遮挡对最终动作精度的影响程度。

实验结果非常清晰：当在浅层遮挡重要视觉区域时，模型的动作精度会大幅下降，说明这些层级确实在依赖这些关键视觉信息。但当在深层做同样的遮挡时，对精度的影响就小得多，甚至有时候完全遮挡也不会造成明显影响。这就像一个人在专心工作时被打断会很受影响，但在走神时被打断反而没什么感觉。

这个发现揭示了一个重要问题：现有模型采用的串行架构存在固有缺陷。在这种架构中，视觉信息只在最开始被注入模型，然后随着处理层级的增加逐渐衰减。这就像在传话游戏中，信息传递得越远，失真就越严重。到了模型需要做最终决策的深层，重要的视觉细节已经模糊不清了。

二、视觉教练的智慧解决方案

面对这个"注意力涣散"的难题，研究团队提出了一个创新的解决方案：视觉-语言混合变换器框架，简称VL-MoT。这个框架的核心理念可以用一个生动的比喻来解释：如果把原来的模型比作一个容易走神的学生，那么新框架就相当于给这个学生配备了一位专业的视觉教练。

这位"视觉教练"是DINOv3，一个专门训练用来理解视觉细节的AI模型。DINOv3就像一个拥有鹰眼的观察者，能够捕捉到画面中最细微的空间细节和物体特征。它的特长是提供高质量的视觉表征，这些表征比传统视觉编码器产生的信息更加精细和准确。

VL-MoT框架的巧妙之处在于它的协作机制。不同于传统方法只在开始阶段注入视觉信息，这个新框架会在模型的深层——也就是最容易"走神"的地方——持续提供来自视觉教练的指导。这就像在考试时，监考老师会特别关注那些容易开小差的学生，在关键时刻给予提醒。

具体的工作机制类似于双人协作解题。原有的VLA模型负责整体的语言理解和动作规划，而DINOv3视觉专家则专注于提供精确的视觉分析。在模型的深层，这两个"专家"会进行信息交换和协作。视觉专家会将自己观察到的重要视觉特征传递给VLA模型，帮助它在做最终决策时不会遗漏关键的视觉信息。

研究团队在设计这个协作机制时做了许多精心的考虑。他们发现，不是所有层级的视觉特征都同样有用。经过大量实验，他们确定了最佳的特征选择策略：使用DINOv3模型的最后几层特征，而不是早期层或者均匀分布的层级。这个选择背后有深刻的道理：DINOv3的后期层级捕获的是高层次的、语义丰富的视觉表征，这些特征更加抽象和稳定，与VLA模型中与动作相关的特征更加兼容。

整个协作过程可以想象成两个专家在会议室里讨论问题。VLA模型提出自己的理解和初步方案，DINOv3则从视觉角度提供补充信息和修正建议。它们通过一种叫做"共享注意力"的机制进行交流，这种机制允许两个模型在保持各自专业性的同时，有效地交换和整合信息。

为了进一步优化这个协作过程，研究团队还设计了一个智能的"动作引导视觉筛选"策略。这个策略的工作原理类似于一个智能的注意力过滤器。它会利用模型浅层的可靠视觉定位能力，识别出对即将执行的动作最重要的视觉区域，然后只让这些关键区域的信息参与到深层的协作中去。

这种筛选机制带来了双重好处。首先，它确保了传递给深层的视觉信息都是高度相关的，提高了处理的精度。其次，通过减少不相关信息的处理，它大大降低了计算负担。这就像一个高效的秘书，只会把最重要的文件放到老板的桌上，既保证了工作质量，又提高了效率。

更有趣的是，这个筛选策略还支持高分辨率图像的处理。由于筛选掉了大量无关信息，系统可以承受更高分辨率的输入图像，从而获得更丰富的视觉细节。这就像给一个近视的人戴上了放大镜，不仅看得更清楚，还能处理更复杂的视觉任务。

三、真实世界中的卓越表现

要验证一个AI模型是否真正有效，最终还是要看它在真实环境中的表现。研究团队设计了全面的实验来测试DeepVision-VLA的实际能力，这些实验涵盖了从模拟环境到真实世界的各种场景。

在模拟环境的测试中，研究团队选择了RLBench平台上的十项具有代表性的机械手操作任务。这些任务就像机器人的"十项全能"比赛，包括关盒子、合笔记本电脑、放下马桶座圈、扫垃圾到簸箕里、关冰箱门、把电话放到底座上、取雨伞、摘相框、在酒架上放酒瓶，以及给植物浇水。每项任务都需要精确的视觉理解和动作协调，就像要求一个机器人管家完成各种日常家务。

实验结果令人印象深刻。DeepVision-VLA在所有十项任务中平均成功率达到了83%，相比之下，之前的最优方法HybridVLA只有74%的成功率。这9个百分点的提升在机器人领域是相当显著的，因为每一个百分点的改进都代表着大量工程努力的结果。

特别值得注意的是，DeepVision-VLA在一些视觉要求特别高的任务上表现尤为出色。比如在"扫垃圾到簸箕"这个任务上，它的成功率比基线方法提高了80个百分点，从15%跃升到95%。在"在酒架上放酒瓶"这个需要精确定位的任务上，成功率也提高了31个百分点。这些巨大的改进清楚地证明了增强视觉表征对精密操作的重要性。

但真正的考验来自真实世界的实验。研究团队使用了一台Franka Research 3机械臂，这是目前工业界广泛使用的高精度机器人平台。他们设计了四项复杂的操作任务，每项任务都对应不同的现实应用场景。

第一项任务是"堆叠可乐罐"，这个看似简单的任务实际上需要机器人精确判断物体的形状、重量分布和稳定性。机器人必须准确抓取每个可乐罐，并将其稳定地放置在另一个罐子上方，形成稳定的堆叠结构。

第二项任务是"写字母S"，这是一个极具挑战性的精细操作任务。机器人需要握住笔，在白板上画出清晰的字母。这不仅需要精确的力度控制，还需要流畅的轨迹规划。任何微小的偏差都会导致字形扭曲或笔画中断。

第三和第四项任务分别是"摘水果放到盘子里"和"倒可乐到瓶子里"，这两个任务都被进一步分解为多个步骤来进行更细致的评估。比如摘水果任务分为先摘香蕉然后摘胡萝卜两个步骤，而倒可乐任务则分为抓取和倾倒两个阶段。这种多步骤的任务设计能够更好地测试模型在复杂操作序列中保持一致性能的能力。

在这些真实世界的测试中，DeepVision-VLA展现出了卓越的性能。整体平均成功率达到了91.7%，大幅超越了之前最好的方法π0.5的84.2%。更重要的是，在一些最具挑战性的任务上，比如"倒可乐到瓶子里"的两个步骤，DeepVision-VLA都达到了完美的100%成功率。

这种出色的表现可以归因于几个关键因素。首先是视觉精度的显著提升。通过VL-MoT框架，模型能够在执行动作时持续获得高质量的视觉指导，确保每个动作都基于准确的视觉理解。其次是动作引导的视觉筛选策略的贡献，它帮助模型专注于最相关的视觉区域，避免了背景噪音的干扰。

四、深入解析技术创新点

为了全面理解DeepVision-VLA的技术优势，研究团队进行了详细的消融实验，这就像医生做各种专项检查来确定每种治疗方法的具体效果。

首先，他们验证了不同视觉信息融合方式的效果。传统的早期融合方法就像在做菜之前就把所有调料混在一起，虽然简单但效果有限。研究团队发现，这种方法只能将基线性能从65.5%提升到73%。而中层特征对齐的方法，类似于在烹饪过程中逐步添加调料，能够达到67%的成功率。

相比之下，DeepVision-VLA采用的深层混合变换器方法就像拥有一位专业的烹饪顾问，在最关键的时刻提供精准指导，成功率达到了88%。这种显著的性能差异清楚地证明了深层视觉信息注入的重要性。

在视觉特征选择策略的对比实验中，研究团队发现了一个有趣的现象。使用DINOv3的前16层特征只能达到61.5%的成功率，均匀采样16层特征能达到85%，而使用最后16层特征则能达到最佳的88%成功率。这个结果符合视觉表征学习的基本原理：深层特征包含更多高级语义信息，与动作决策的兼容性更好。

研究团队还对比了不同视觉基础模型的效果。当将DINOv3替换为SigLIP时，在相同的均匀采样策略下，成功率下降到77%。这个差异反映了两种模型不同的预训练目标：SigLIP专注于图像-文本对齐，而DINOv3则专注于细粒度的空间表征学习，后者更适合精密的机械手操作任务。

在动作引导视觉筛选策略的验证实验中，研究团队对比了几种不同的筛选指导方法。使用DINOv3的全局特征作为筛选依据没有带来改进，成功率仍然是65.5%。这说明全局的场景语义信息对于识别操作相关区域的帮助有限。

使用指令到视觉的注意力作为筛选依据能够将成功率提升到84%，这表明任务感知的语言指导确实有效。但最佳的效果来自使用动作到视觉的注意力，成功率达到88%。这个结果验证了研究团队的核心假设：浅层的动作tokens能够提供最可靠的视觉定位信息。

关于参考层级的选择，实验显示单独使用第4层、第8层、第12层和第16层的注意力信息分别能达到85%、69%、82.5%和87.5%的成功率。第16层表现最佳，但多层平均（第4-19层）能够达到最优的88%，这说明多层信息融合能够提供更稳定和全面的视觉定位。

五、突破性能表现的深层原因

DeepVision-VLA之所以能够取得如此显著的性能提升，背后有着深层的技术原理。这些原理的理解对于推动整个领域的发展具有重要意义。

首先是信息流动机制的根本性改进。传统的VLA模型采用单向的信息流动，视觉信息只在模型的入口处被注入，然后随着层级的深入逐渐衰减。这就像一条河流，水源只在上游，下游的水量会越来越少。DeepVision-VLA则创造了一种"多源供水"的机制，在模型的深层持续注入高质量的视觉信息，确保决策层始终有足够的视觉依据。

其次是专业化分工的优势。在这个新框架中，原有的VLA模型专注于语言理解和整体的动作规划，而DINOv3视觉专家则专门负责提供精确的视觉分析。这种分工类似于现代工业生产中的专业化协作，每个组件都能在自己最擅长的领域发挥最大效用，然后通过有效的协调机制实现整体性能的最优化。

动作引导的视觉筛选策略的成功也揭示了一个重要的认知原理：相关性比完整性更重要。在处理复杂的视觉场景时，关键不在于获得所有的视觉信息，而在于识别和利用与当前任务最相关的信息。这个策略通过利用浅层网络的可靠视觉定位能力，实现了"智能聚焦"，既提高了处理精度，又降低了计算成本。

多分辨率处理机制也是一个重要的创新点。通过为VLA分支和视觉专家分支分别提供不同分辨率的输入（256×256 vs 512×512），系统实现了计算效率和视觉精度的平衡。VLA分支使用较低分辨率进行整体的语言理解和动作规划，而视觉专家使用高分辨率图像进行精确的细节分析。这种设计类似于人类视觉系统中的中央凹和周边视觉的协作机制。

泛化能力的测试结果也揭示了模型的深层优势。在面对背景变化和光照条件变化等环境扰动时，DeepVision-VLA表现出了更好的鲁棒性。这种鲁棒性来自于视觉表征的增强和任务相关信息的精准筛选。当环境发生变化时，模型仍然能够准确识别和关注关键的操作区域，不会被无关的环境变化所干扰。

六、广泛应用前景与未来发展

DeepVision-VLA的技术突破为机器人应用开辟了广阔的前景，其影响将远远超出实验室的范围，触及我们日常生活的方方面面。

在家庭服务机器人领域，这项技术的应用前景尤为广阔。配备DeepVision-VLA的家用机器人将能够执行更加精细和复杂的家务任务。比如，它们可以精确地整理不同形状和大小的物品，小心地清洁易碎的装饰品，或者准确地摆放餐具。这种精度的提升意味着家庭机器人将从简单的清扫和搬运工具，进化为能够处理复杂家务的真正助手。

在工业制造领域，DeepVision-VLA的影响可能更加深远。精密制造业对机器人操作精度有着极高的要求，微小的偏差都可能导致产品缺陷或安全隐患。这项技术能够显著提高机器人在组装精密零件、质量检测和包装等环节的准确性。特别是在电子产品制造、汽车装配和医疗器械生产等对精度要求极高的行业，DeepVision-VLA将能够胜任更多原本需要人工完成的精细操作。

医疗机器人是另一个极具潜力的应用领域。在手术辅助、药物配置和患者护理等医疗场景中，机器人操作的精度直接关系到患者的安全和治疗效果。DeepVision-VLA的视觉增强能力将使医疗机器人能够更准确地识别医疗器械、定位治疗部位，并执行更加精细的操作。这不仅能够减轻医护人员的工作负担，还能够在一定程度上降低人为操作失误的风险。

在特殊环境作业方面，DeepVision-VLA也展现出巨大的应用价值。在深海探索、太空作业或核设施维护等人类难以直接参与的危险环境中，机器人需要在复杂且不可预测的条件下执行精确操作。增强的视觉理解能力将使这些机器人能够更好地适应环境变化，准确识别目标物体，并完成复杂的操作任务。

从技术发展的角度来看，DeepVision-VLA也为未来的研究方向指明了道路。首先是多模态信息融合的进一步探索。除了视觉信息，触觉、听觉等其他感官信息的整合将为机器人提供更全面的环境感知能力。研究团队提到的未来工作中包括探索不同视觉专家模型的效果，这将有助于找到更适合特定任务的视觉表征方法。

另一个重要的发展方向是实时性能的优化。虽然当前的系统已经在精度方面取得了显著突破，但在一些需要快速响应的应用场景中，计算效率仍然是一个需要持续改进的方面。通过模型压缩、硬件优化和算法改进等手段，未来的系统将能够在保持高精度的同时实现更快的响应速度。

泛化能力的进一步提升也是未来研究的重点。虽然DeepVision-VLA在面对环境变化时表现出了良好的鲁棒性，但在更加多样化和复杂的真实世界环境中，模型的泛化能力仍有提升空间。这需要在训练数据的多样性、模型架构的适应性和学习算法的改进等多个方面继续努力。

长期来看，DeepVision-VLA代表的技术方向可能会推动整个人工智能领域的发展模式转变。从传统的端到端黑盒模型向可解释、可分析的模块化系统转变，从单一模型处理所有任务向专业化模型协作转变。这种转变不仅有助于提高系统性能，还能够为AI系统的安全性和可靠性提供更好的保障。

说到底，DeepVision-VLA的成功证明了一个简单而深刻的道理：解决复杂问题的关键往往不在于构建更加庞大的系统，而在于找到问题的本质并采用针对性的解决方案。通过深入分析现有模型的局限性，并设计巧妙的改进策略，研究团队不仅解决了机器人视觉理解的技术难题，更为整个领域的发展提供了新的思路和方法。

这项研究的价值不仅在于它带来的性能提升，更在于它展示了科学研究中理论分析和实践验证相结合的重要性。从发现问题到提出假设，从设计解决方案到验证效果，整个研究过程体现了严谨的科学方法和创新的工程实践。对于任何对AI机器人技术感兴趣的人来说，这项工作都提供了宝贵的启发和参考。随着技术的不断成熟和应用的不断扩展，我们有理由相信，真正智能和可靠的机器人助手离我们的日常生活已经不再遥远。

Q&A

Q1：DeepVision-VLA是什么？

A：DeepVision-VLA是北京大学团队开发的一种新型机器人AI框架，专门解决机器人"看得见却抓不准"的问题。它通过视觉-语言混合变换器机制，让机器人在执行动作时始终保持对关键视觉信息的准确理解，从而大幅提高操作精度。

Q2：为什么现有的机器人会出现视觉理解衰减问题？

A：现有的机器人AI模型采用串行架构，视觉信息只在开始阶段被注入，随着信息在模型深层传递，对重要视觉细节的注意力会逐渐分散。就像传话游戏一样，信息传得越远失真越严重，到最终决策时关键视觉信息已经模糊不清了。

Q3：DeepVision-VLA在实际应用中表现如何？

A：在测试中表现出色，模拟环境中比之前最好方法提高9个百分点，真实世界任务中提高7.5个百分点。特别是在需要精确操作的任务上改进更明显，比如"扫垃圾到簸箕"任务成功率从15%提升到95%，"倒可乐到瓶子"任务达到100%成功率。