十二个问题解剖VLA，深度对话小米陈龙、上交穆尧

来源：DeepTech深科技

2025 年末，首批 L3 级自动驾驶车型获得准入，标志着中国智能驾驶产业迈入新纪元。与此同时，具身智能机器人领域也在过去一年间经历了 “ 天翻地覆”的变化，从 2024 年初 “ 抓苹果都费劲 ” ，到如今叠衣服已成为行业的入门任务，穿鞋带这样曾被认为遥不可及的精细操作也已被攻克。

在这场技术跃迁的背后，一项被称为 VLA （ Vision-Language-Action ，视觉语言动作大模型）的技术正成为连接自动驾驶与具身智能的关键枢纽。不同于传统端到端模型从视觉直接映射到动作的 “ 条件反射 ” 式决策， VLA 将语言理解与推理能力引入物理世界的决策链路，赋予机器“看了就懂、懂了就做 ” 的认知能力。

然而， VLA 的兴起也伴随着争议。在 2025 年世界机器人大会上，宇树科技创始人王兴兴公开质疑这一技术路线，引发行业热议。这场争论的背后，是软件与硬件、泛化性与可靠性、学术探索与商业落地之间的深层张力。

为深入探讨这一前沿技术的本质、挑战与前景，我们邀请到两位走在 VLA 研究最前沿的嘉宾：小米汽车智能驾驶 VLA 技术负责人陈龙，以及上海交通大学计算机学院助理教授、 ScaleLab 负责人穆尧。他们分别从自动驾驶和具身智能机器人的视角，为我们拆解 VLA 的技术内核，剖析数据困境与安全挑战，并回应来自产业界的质疑。

以下是本次对话的完整内容。

时间线：

0 0:04- 01:20 开场： VLA 是通往下一代通用人工智能的关键路径

01:20-08:13 一、什么是 VLA ？

08:13-12:24 二、 VLA 与端到端自动驾驶的区别

12:24-19:00 三、什么是长尾问题和泛化问题？

19:00-24:33 四、 VLA 不只是加了一层语言

24:33-29:16 五、机器人对语言的要求更高

29:16-32:40 六、自动驾驶与机器人能共用一套底座模型吗？

32:40-42:18 七、数据问题：自动驾驶 vs 机器人

42:18-45:55 八、安全性问题：如何保证 VLA 不出错？

45:55-54:28 九、实时性问题： VLA 的延迟怎么解决？

54:28-01:00:05 十、思考与执行可以并行

01:00:05-01:04:22 十一、世界模型与空间智能：争论还是融合？

01:04:22-01:11:18 十二、如何看待对 VLA 技术的质疑？

一、什么是 VLA ？

DeepTech ：先请两位解释一下什么是 VLA 技术。

陈龙： VLA 是最近几年比较火的一个话题。它本质上是利用大语言模型的泛化能力，包括从互联网数据预训练得到的通识知识，再辅以语言模态的推理能力，来解决现实世界中行为决策的问题。

现在不管是自动驾驶还是机器人， VLA 都非常火。因为自动驾驶面临很多长尾问题，当你在路上开车时，大部分时间遇到的是见过的东西，但有时候会遇到没见过的场景，这时候就需要思考能力，在这些场景下做出更好的决策。

机器人也在利用 VLA 的能力，主要是因为机器人的任务比较复杂，有很多长程任务。它需要利用语言能力来理解人类给它的任务，包括对整体任务的拆解，把它分解成 sub task （子任务）来执行。所以总体来说， VLA 是未来物理世界人工智能发展的趋势，是大模型能力走向物理世界的必要网络架构。

穆尧： VLA 给机器人带来了非常大的机会。具身智能和传统机器人研究的一个很大不同点在于，具身智能更关注泛化性，包括对场景的泛化性、视觉和物理上的泛化性，也包括我们希望交互的物体的不同形状、颜色等更细致的泛化性。

在 VLA 技术下，实际上赋予了机器人几方面的能力：第一，使机器人能够用语言沟通，听懂人类指令；第二，由于 VL （视觉语言模型）在大规模互联网数据上进行了很好的预训练，可以有非常好的场景和视觉上的泛化性，逐渐迈向开放世界；第三是 A （ Action ，动作）这一块，怎么把 VL 对接到 A 上，在机器人领域目前还处于研究探索阶段。当然已经有一些比较好的模型出来，比如 π0 、 π0.6 ，展现了一些精细操作的能力。

VLA 带给机器人的核心机会在于赋予了机器人一个柔性的能力。之前机器人可能要写死一些机械定位，差一点都不行；现在可以根据情况随机应变。当然这部分泛化性目前还没有达到工业上真正四个九的要求，所以不管是学界还是工业界，都在逐渐发力。

DeepTech ：过去训练机器人或者机器人的工作方式是什么？

穆尧：传统机器人大部分面向特定场景、特定任务，在这个任务上达到 SOTA （当前最佳水平）。传统的方法基于规划加柔顺力控，或者基于强化学习，解决的核心问题都是单一场景、单一任务的。当具身智能要求走向多任务、开放世界、开放场景时， VLA 就成为非常重要的实现路径。

DeepTech ：举个例子，现在的机器人更多在工业上应用，未来走入生活场景，是不是就用到了 VLA 的核心技术？因为生活中的场景和指令都是非标准化的。

穆尧：是的，家庭场景最符合具身智能的要求，当然也是最难的。但工业场景的泛化性要求也很高。到现在能通过自动化产线完成的都已经大规模在做了，比如小米汽车的生产线，除了最后的总装车间，其他车间都是 95% 以上自动化。剩下需要人类操作的部分，往往是因为单独搭建产线非常昂贵，而且可能今天来的是这批零件，明天来的是另一批零件，有柔性生产制造的需求。这种需求本质上还是对泛化性的需求，所以工业场景上也有很大的应用空间。

二、 VLA 与端到端自动驾驶的区别

DeepTech ： VLA 技术在自动驾驶上，和现在的端到端自动驾驶有什么区别？

陈龙：自动驾驶研究了几十年，是比较有历史的方向。早期类似穆尧讲的机器人方法，是模块化的方式来实现 —— 区分感知模块、预测模块和规控模块。感知通过计算机视觉模型检测物体，预测会预测每个车的运动轨迹，规划则利用路径规划算法，在知道周围物体和它们未来运动的条件下，规划出自车的运动轨迹。这是自动驾驶的第一阶段，通过规则算法来实现。

端到端是最近几年才兴起的。我之前在 Wayve ，我们从 2018 年就开始做端到端自动驾驶，当时还是比较激进的方式。端到端本质上非常简单，就是使用一个大模型，利用很多收集起来的自动驾驶数据，训练一个端到端的模型，直接把传感器输入映射到驾驶信号上面。

端到端解决了传统算法的很多问题，因为传统算法需要手动设置很多规则，比如红灯情况下怎么样、遇到别的车应该怎么做。端到端不用手动设计这些规则，而是通过数据驱动的方式，利用大量人类驾驶行为，让神经网络学习这些行为并进行拟合。

但它也有很多缺点：首先是黑盒模型，你不知道它的决策是怎么做的，不是特别可控；第二是对长尾问题的泛化性不够好，因为现实生活中有很多场景是收集数据收集不到的，遇到这种场景可能就会做出错误行为。

VLA 本质上就是为了解决这些问题。首先是可解释性， VLA 通过语言可以做出解释，包括决策的原因，你可以通过这些原因了解它是怎么做决策的，透明度会加深。其次， VLA 可以提供比较好的推理能力，特别是 VLM （视觉语言模型）可能经过互联网知识的预训练，对世界的通识知识、人类的价值观都有一定了解，再辅以推理能力，可以在长尾情况下通过推理做出更正确的决策，使自动驾驶更加安全、泛化性更好。这也是为什么 VLA 在最近几年慢慢兴起，成为主流方向。

三、什么是长尾问题和泛化问题？

DeepTech ：两位反复提到长尾和泛化。能不能举一些特殊的例子，帮助我们了解机器人或自动驾驶在某些场景下失效的情况？

穆尧：在机器人上，泛化的圈子会画得比较大。可以细分为：首先是背景，就是操作台以外的所有背景，涵盖各种光照信息、复杂的 layout （布局）分布；再往上是前景，就是当前机器人的操作台和 target （目标）物体；同时桌子上还有各种杂物 —— 我们每个人家庭的桌子不是一尘不染的，有各种东西，所以操作台上有任务相关和任务无关的物体。

最细的层级是任务相关物体本身。比如任务是收拾桌子上的瓶子，瓶子的种类很多 —— 可乐、雪碧是圆柱形的，东方树叶是四棱柱的，形状都不一样。这就是从最粗到最细粒度的泛化。

什么是长尾呢？长尾是一些在预收集数据中很难出现的状况。比如机器人在夹东西时掉下来了，或者夹东西时碰到了某个东西，或者尝试抓取时东西被碰倒了。人类一次尝试没成功，东西倒了之后我们知道怎么抓，但机器人可能完全没见过这个倒下的状态，很难 recover （恢复）。还有更具有挑战性的长尾，比如场景中有第三个可移动的物体 —— 人。一个人直接把你本来瞄准好的物体位置变了，或者把立着的瓶子弄倒了，把茶杯弄翻了，这就是长尾。

专家数据集也会包含泛化部分，包括场景泛化、操作台泛化、任务无关物体泛化、任务相关物体泛化，这些都会有。但有些突发情况是专家数据集很难收集到的，一般要通过真机强化学习这样的方式才能收集到。

DeepTech ：在自动驾驶方面呢？

陈龙：自动驾驶方面定义也类似。你的专家数据集不可能把所有场景都收集完，因为道路上有很多不可预知的事情。比如我们在新的地方开车时，会碰到不一样的交通标识牌或不一样的场景。人在新环境下也会遇到很多长尾问题，有时候也会开慢点或停下来想一想具体应该怎么开。

DeepTech ：就是说有的路口只有本地人才能走对？

陈龙：对，类似这种。 VLA 比较适合解决这些长尾问题。具体例子比如施工场景会有一些标识牌，每个标识牌都不统一，有的画了车辆和箭头示意你应该往哪个方向走，有的是文字形式，有的是其他方式指示你应该怎么走。在这种非结构化信号下，需要 VLA 对整个场景的理解，包括利用互联网预训练知识进行理解和推理，得出在这个长尾问题下应该具体做什么决策。

VLA 还解决了比较长序列的问题。比如开车时拐进了一个死胡同，应该倒车退回去换一个路口。但如果没有 VLA ，你可能开到死胡同里，即使知道退回来，也可能再开到这个死胡同里，因为你不知道刚才已经开到这里了。 VLA 可以在需要长时记忆的情况下，用语言这个比较抽象的模态来做长期路径规划。

四、 VLA 不只是加了一层语言

DeepTech ：传统或现在用的是从视觉直接映射到动作， VLA 是从视觉映射到语言再映射到动作。是不是只是在中间加了一层语言？还是 VLA 中间加入语言能解决一些其他核心问题？

陈龙：肯定不是只加了一层语言。这本质上是一个范式转变。 VLA 利用大模型的范式来训练自动驾驶或机器人算法。 VA （视觉动作）是直接把图像映射到最终的 action （动作）上，不管是自动驾驶的端到端算法还是机器人比较经典的 ACT （动作分块）算法，本质上没有利用模型的思考能力。 VLA 本质上转换到了认知驱动的范式，通过大模型的能力，利用大模型的知识和推理能力来解决路径规划或抓取导航这些问题。

现在自动驾驶领域对 VLA 的理解都不尽一样。我个人理解，本质上 L 这个模态是对图像的补充。 VA 只有图像和传感器信息来做一次决策，而 L 可以通过语言模态不断 sample （采样）下一个 token 。通过这个 sampling 的方式， sample token 的过程其实是信息量增加的过程，熵也是一个减少的过程。

所以通过首先有图像，然后不断 sample 语言 token 带来信息量增加的过程，最终做决策时是通过图像信息辅以语言 sample 之后的信息，共同做出决策。理论上比只用图像做决策会更好。 VLA 是利用了语言的预训练能力和推理能力，进一步增强了决策过程。

DeepTech ：我看到过一些自动驾驶 demo ，会把思考逻辑打在车机屏幕上。在我们看来，它相当于是一个相对滞后的决策逻辑。在语言生成推理逻辑时已经拐过去了，推理逻辑才到屏幕上。这个过程能够被打断吗？或者执行过程中能够沟通吗？

陈龙：这是个很好的问题。现在 VLA 的框架还没有发展到特别成熟、特别拟人的阶段。现在市面上有些产品可能会显示思考过程，但显示这个过程可能已经是几秒前的，做决策时确实利用到了，不管是做 CoT （思维链）还是描述场景来做决策。但这些显示的信息可能更多是为了展示智能化，对整个自驾体验没有特别大影响。

我觉得最终的 VLA ，思考过程可能并不需要用这么口语化的文字来描述场景和做推理，因为这些口语化的词是很冗余的。最终的 VLA 可能更类似人脑的思考方式，我可能不需要说出来也可以去思考，甚至可以利用更简短的 token ，甚至是一些隐式的 token 来做思考。这样会更高效，不需要输出很长的思维链，只需要输出一些精简的 token 就可以最终做决策。而且自驾是一个实时要求比较高的系统，不可能接受你 sample 这么多 token 最终做出决策。

DeepTech ：所以也很难中途打断，比如像现在告诉司机一样说 “ 前面右拐 ” ？

陈龙：对，现在 VLA 范式是没有这个打断功能的，只能是你说出指令之后再重新执行理解指令语义的过程。

五、机器人对语言的要求更高

DeepTech ：在机器人上呢？

穆尧：机器人的 VLA 非常难。大部分机器人 VLA 的训练都是以一个 well pre-trained （预训练好的）的 VL model ，然后后面接 expert （专家模型）。以目前最著名的 Physical Intelligence 提出的 π 系列为例，前面是 Google 提出来的 PaLM （一种大语言模型），是一个 well pre-trained 的视觉语言模型，后面接了一个以 flow matching （流匹配）为原理的 action expert （动作专家）网络。

本质上机器人对 language 的要求非常高。首先，机器人要做任务拆解。自动驾驶可能就是按照固定的期望路线安全行走、不发生碰撞、到达目的地就可以了。但机器人比如听到人类的指令 “ 请你帮我做一杯咖啡 ” ，要具体到动作原语 —— 拿出什么东西、放下什么东西、打开什么东西、把什么东西从左边挪到右边。机器人需要把人类非常抽象的指令分解成动作原语级别，然后每个原语作为一个 language condition （语言条件）去输出对应的 action 。从这个角度来说， language 对机器人意义非常大。

VLA 大部分是 3B 左右的，比较大的会有 7B 、 8B 的，但目前还没有看到 13B 的。所以我觉得它算是一个比较大的 “ 小脑 ” ，可能还没到 “ 大脑 ” 的 level 。但关于机器人大脑的研究也非常多，以视觉语言为主的大脑研究，大家会做更长程任务的推理。大家对机器人的期待是人类都不用说话，机器人通过视觉观察能做逻辑推理 —— 你当前是什么状态，是不是疲惫了、是不是渴了，疲惫困了我给你端来一杯咖啡。所以在机器人这端， language 起到非常重要的作用。

DeepTech ：我们聊机器人时往往会聊 “ 大脑 ” 和 “ 本体 ” 。像宇树做本体，很多实验室或公司专注做大脑，只要采购到强的本体就可以了。你刚才提到研究大脑用到的模型参数量都更大， VLA 是不是把大脑和本体都统一到一个模型里面了？

穆尧： VLA 实际上兼顾了一些大脑的能力，比较简单的逻辑推理是可以做的，比如 pick and place （拾取和放置）这些简单任务。更大更复杂的推理可能还需要更大的大脑。目前一个比较主流的范式是端云协同，大脑跑在云端，一个稍微小一点的模型跑在端侧或边端，最底层比如人形机器人的运动控制属于纯小脑，也跑在端侧。

DeepTech ：相当于 VLA 模型部署在本体上，还有一个更大模型的大脑在云端？

穆尧：对，目前这一块业界解决方案没有特别好。能在端侧芯片部署 VLA 模型的板子也不是很多，大家可能更多是以比如 4090 的服务器来做，属于边端。

DeepTech ：所以在机器人的控制中，目前还是大脑和本体分离的状态。

穆尧： 13B 以上的大脑一般都是跑在云端的。

六、自动驾驶与机器人能共用一套底座模型吗？

DeepTech ：我们看到很多报道说机器人和自动驾驶能共用一套底座模型。小米也刚开源了打通自动驾驶和具身的基础模型。这两者之间有哪些挑战？技术上有哪些解决思路？

陈龙：肯定有很多挑战。本质上我们想要解决一个跨本体的问题。人类不管是在家做家务、操作物体，还是在室外开车，是用一个大脑做这些不同行为的。我们认为最终不管是具身、自驾还是其他任务，都要共用一个大脑模型。这样我们的大脑模型才具有很强的对世界的认知能力，而且统一的模型可能使任务的连续性更好。

我们前段时间发布了一些探索性工作，叫 MiMo Embodied ，和小米集团的 MiMo 模型团队一起做了一些具身大脑的探索。本质上是使用自驾数据和机器人数据，进行融合，通过分阶段训练：第一阶段加入很多空间智能数据，让它学习空间感知和空间推理能力；第二阶段放入自驾和具身的专有数据；第三阶段通过 CoT 微调；第四阶段使用强化学习微调。

通过这四阶段训练，我们发现自驾和机器人的数据是可以融合的。它们共有的能力，也就是空间感知和空间推理能力，是可以互相加强的。一个是室内数据（具身操作），一个是室外数据（自驾场景），如果训练得好是可以互相增强的。这也是我们前期具身基座模型的探索。

这是比较大的模型，大概 7B 。 7B 的模型尺寸在端侧也不能完全部署，而且需要使用很长的思维链方式进行推理，最终可能是一个云端模型。

七、数据问题：自动驾驶 vs 机器人

DeepTech ：陈龙聊到数据问题。我感觉自动驾驶数据可能更好获取，机器人数据更难获取，是这样吗？

穆尧：是的，这也是具身智能行业和自动驾驶产业一个根本性的区别。自动驾驶产业所有跑在路上的车都可以回流作为专家数据，当然要经过大量清洗，但每天可以回流上亿条数据。而具身智能把所有开源的闭源的加在一起，可能也没有 1 亿条数据，数据体量差距很大。

所以具身智能学术界和工业界想了各种办法，包括仿真合成数据，包括用人类更便携的方案比如 UMI 这样的手持式设备采集，本质上都是希望以廉价成本 scale up （扩展）数据。但核心困境还是需要人主动去收集，没有一个自动的飞轮。我们很期待在某一个产线、某一个商业场景下的机器人真正能 24 小时转起来，这样就可以产生源源不断的数据飞轮。自动驾驶天然就有这样的优势。但我觉得大概两年之内，具身也会有一个初步的数据飞轮出来。

DeepTech ：数据方面前期调研时，我看到穆尧有 “ 人 – 数字人 – 机器人 ” 一体的架构，也是为了解决数据问题吗？

穆尧：对，核心就是解决数据问题。人类数据是最本质的，所有机器人都应该向人学习，而且人的数据最廉价、最容易收集 —— 戴个 AI 眼镜，或者头顶上绑个相机就可以采集。但人和机器人确实 gap （鸿沟）比较大，所以我们提出 “ 人 – 数字人 – 机器人 ” 的三位一体管线，希望搭建好从人的行为到机器人行为的调节，把人的数据利用效率大大提升，并且为仿真合成数据注入人类丰富的行为信息，使行为多样性有显著提高。

DeepTech ：机器人和自动驾驶数据的 gap ，陈龙怎么解决？

陈龙：穆尧说得非常好。自驾因为汽车本身是很好的产品，用户会去开车，所以采集数据更方便，每天会有很多数据传上来。而且数据多样性非常好，全国不同省份都有人在开小米汽车。

具身的问题是现在没有成熟的产品在用户侧使用，没有数据飞轮效应。现在大家都是自己建采集场或小规模采集数据，不管数量还是多样性都非常有限。现在有很多人用合成数据来增强真实数据的不足，但本质上量和多样性都跟自驾差得很远。所以为什么 VLA 这么火，其实也是利用了 VLA 的泛化性来解决数据缺少的问题。

当你有了一个很强的 VLA 模型，可能真正需要的数据就不需要那么多了。打个比方，如果你教人一个新任务，不需要很多数据，可能只需要几条 demonstration （演示），人就可以学习出这个任务具体应该怎么做。所以当 VLA 模型做得非常好，它的泛化能力和三种模态的 grounding （接地）做得非常好时，可能并不需要特别多的数据，只需要几条演示数据就可以把任务做得非常好。数据少的时候，模型侧可以做更多优化来弥补。

DeepTech ：这两部分数据的融合，穆尧怎么看？

穆尧：这两部分数据有 gap 。机器人的数据聚焦点主要在操作台上面， focus 一些非常小的物体。自动驾驶可能关注的更多是路况、行人、红绿灯这样的信息。

但两者的交汇点是 World Model （世界模型），这是一个非常好的交汇面。一个通用的对未来数据的推演，自动驾驶的能力能够为机器人赋能。因为机器人也需要导航，也需要 mobile manipulation （移动操作）或 locomotion （运动）。自动驾驶的数据能为机器人提供的服务是空间理解和推理 —— 知道这个车往前走一段，视野会变成什么样，近大远小这些 common sense （常识）是可以获取到的，这种基础知识对机器人学习有很大帮助。

当然二者的 attention 和 focus 各有侧重。自动驾驶会跟车道线、红绿灯、行人、车辆的 feature （特征）更相关；具身可能 focus 在一些具体的起草物体的交互。所以在设计网络时，要能让它们共有的知识得到促进作用，并且有效分离开。对应的网络结构设计也是比较需要的。

八、安全性问题：如何保证 VLA 不出错？

DeepTech ：不管自动驾驶还是机器人和人的交互，都有一个绕不开的话题 —— 安全性。我们都知道语言模型有幻觉问题。在电脑上和大模型交互时，错了我们人为改正就行了。但在自动驾驶和机器人的交互过程中，穆尧也提到工业上还做不到四个九。在这个安全性极高的场景里， VLA 是如何保证它既有泛化能力，又能解决长尾问题，同时又不会出错的？

穆尧：我能想到的路径主要是强化学习。安全分两块：一块是意识层面的安全，不能做出伤害人类的行为、危险的行为；另一块是行为动作上的安全，也就是 safety （安全性）。

在意识层面上，大模型包括 LLM （大语言模型）的安全对齐主要通过强化学习来做。对于操作的精准度、不能发生碰撞等安全性问题，强化学习也是非常好的手段。我们有一篇 paper 叫 Simple VL-RL ，首次在一些标准 benchmark 上达到了两个 99% 的精度。离工业四个九还稍微远一点，但已经看到很大的曙光，强化学习确实在这一块能带来比较好的性能提升。

DeepTech ：陈龙有什么看法？

陈龙：自驾还是不太一样的。具身你是可以试错的，不仅能在虚拟环境中做强化，在真实世界中也可以做强化学习。自驾毕竟安全性是第一位的，更多的是从系统层面上做安全性冗余。大模型可能会有幻觉问题，纯模型可能都会有不可预测的问题。在自驾安全性要求这么高的环境下，肯定需要很多不同的网络做兜底。

比如在运行 VLA 的时候，我们可能还有另一套网络，比如传统的感知和规控网络不断做 safety check （安全检查），做一些简单的安全性检测，比如未来几秒会不会碰撞、会不会有风险。这类传统算法稳定性都非常好，当我们检测到有风险时，可能会用其他模型来做安全操作。

DeepTech ：相当于有一个校验过程或安全兜底的过程？

陈龙：是的，在自驾安全性要求这么高的情况下，肯定需要安全兜底。

九、实时性问题： VLA 的延迟怎么解决？

DeepTech ：另一个我比较关心的点是，如果加入语言的决策逻辑，我们都知道像 DeepSeek 在思考过程中是非常慢的。模型在调用过程中还是有时间响应上的问题。这个问题在自动驾驶和机器人上怎么解决？现在能做到多少毫秒的响应？

陈龙：自动驾驶不仅要求安全性高，对实时的要求也非常高。最少要到 10 赫兹的级别，每秒要做十次决策才能做一些比较快的响应，比如紧急情况下的响应。所以我认为 VLA 模型在自驾上可能还需要一些范式上的转变。

现在有所谓的 “ 双系统 ” ， VLA 作为一个慢通路，还有另一个快系统，可能是端到端模型或其他模型。大语言模型和端到端模型可以运行在不同频率上 —— 大模型可能每秒做一次决策，做比较深度的思考；端到端模型可能运行在十赫兹，做快速响应。但这类方式有个通病：大模型的决策和端到端怎么结合，是比较困难的问题。

另一端是 VLA 本身，往往我可能每一帧都要做一个 CoT 的思考，或者比较高级的是知道什么时候要做 CoT 思考，但这还是有问题。因为当你需要 CoT 思考时，可能是比较紧急的情况，但这时候做很多 CoT 思考，最终做决策的时间就会很长，可能导致安全性问题。

所以不管是双系统还是一端式 VLA 都是两个极端，要不然思考时间过长，要不然双系统区分得太明显。肯定之后会有比较中间的方案。因为人类开车时也是在不断思考，边开车边思考，有时候思考的东西可能跟开车没关系，你可能会走神，但这时候有时候你也可以安全地开车。

最终需要另一种范式转变，更灵活、更紧密、更解耦的双系统结合方式，需要在网络上面做一些探索。

DeepTech ：你提到这个我也有感触。平时开车时如果车比较少，很容易走神，不需要调动特别高的思考能力；但堵车或想超车时，肯定要全神贯注，可能调用了更多的思考能力。

陈龙：对，或者在紧急情况下，你可能来不及思考，可以通过直觉系统来做出决策。

DeepTech ：语言响应延时的问题，穆尧怎么解决或有什么看法？

穆尧：对具身来说，更重要的是 action 的延迟。对于语言，你问它一句话，等一会儿也没什么太大问题，而且完全可以变成并行或异步的部分，当对身体没有明显指令时，完全可以云端处理。

对于需要 VLA 都做推理的任务，实时要求还是比较重要的。像陈龙说的十赫兹，机器人也需要十赫兹以上的推理频率。一个比较好的方案是异步推理，像 Dexterous AI 提出的执行和推理是异步的，没推完的接着推，但该执行的去执行，构建一个异步的 system （系统）来做。

包括推理也可以并行化，特别是如果有云端加持，完全可以做并行化，根据任务是否有依赖性来完成是否并行的处理。

DeepTech ：你刚才提到本体的实时，是目前机器人更大的问题吗？

穆尧：不是本体的实时，而是 VLA 从输入图像到输出 action 开始执行这段时间，是推理时间。因为模型比较大，会比较慢。 3B 的模型差不多将将满足十几赫兹的要求。

DeepTech ：执行效率会比传统方式要慢一些吗？

穆尧：也有很丝滑的，不能一概而论。正常一个 3B 模型 4090 上部署，响应频率差不多 15 赫兹左右。但有很多方法，比如模型轻量化、工程优化，可以使它变得更丝滑。包括插值，可以使真正的本体执行频率很高，甚至可以达到 200 赫兹。像 Figure AI 就号称执行频率是 200 赫兹，但实际上是插值之后的，插值之前其实和大家差不多。

所以有很多工程手段去解决。但更关键的是影响动作最终做出来丝不丝滑、哆嗦不哆嗦、成功率高不高的本质上的控制频率，还是由 VLA 看到图像然后出 action 这段时间来决定的。

十、思考与执行可以并行

DeepTech ：我综合两位的观点，能感觉到它的思考链是一条链路，而执行的过程不一定等思考全部完成了之后再执行。思考链可能会非常长或非常连续，而执行过程在某一个阶段就可以开始执行了。这样在我们体感上，延迟就不会像现在用大语言模型看它思考那么长时间才能给出结果。

这就会面临另一个问题：执行过程中，比如自动驾驶一直在开车，思考一直在进行，一直有 token 产出；机器人执行过程中也是这样。 Transformer 都会面临遗忘的问题，过去不管多长的文本模型都会有遗忘。遗忘的问题对自动驾驶和机器人会是问题吗，包括训练时遗忘与执行时遗忘。

陈龙：训练时更多的是通用能力有一些灾难性遗忘的行为。现在 VLA 如果在实验室做小规模 finetune （微调），可能并没有很大规模的预训练能力，做完 VLA 训练后通用能力就会有一定缺失，遗忘了很多通用知识，模型就变成一个专有的自驾或具身模型了，通用能力几乎就没有了。

举个简单例子，如果你做很小规模的微调，问它一些通用知识比如 “ 一加一等于几 ” ，它会回答一些无关的东西，比如 “ 前面有一辆车 ” 。所以训练时要解决遗忘问题，更多的是要把很多数据加入预训练阶段。预训练时不仅学习通用知识，也学习到自动驾驶或机器人的知识。

推理时更多的是 context window （上下文窗口）的问题。当延时要求非常高时， context （上下文）不能堆得特别长，肯定要做一些选择。但现在有很多大模型技巧，比如 linear attention （线性注意力机制），可以把 context window 做得非常长，但延时也不会变得特别高。还有可以做 context 的压缩和总结。

你不需要把之前所有信息都加入 context ，只需要把关键信息加入。比如在路口选择了往哪边走，这些关键信息可以加入历史 context ；而一些无关紧要的信息比如现在执行开了多少米，这些信息其实不是特别关键，可以忽略掉。所以最终 VLA 的形态肯定类似人，更加智能，可以记忆比较关键的信息，无关紧要的信息不需要做历史记忆。

DeepTech ：在机器人领域呢？

穆尧：在机器人领域一般有两大类方法。一类是用 neural （神经）的方式，就是刚才陈龙讲的压缩方式， embed （嵌入）出来一些关于 memory （记忆）的 token ，然后当前的观测视觉和语言的 token 去 query （查询）这个 memory bank （记忆库）里面的 memory token （记忆令牌）， query 出来一些 historical token （历史令牌）作为 VLA 的 prompt （提示词）。

另一类是显性的总结，有一个额外的 agent system 。举个例子，机器人里很简单的一个任务但非常需要 memory ，就是 “click the bell （按铃） ” ，在桌子上需要按响一个铃。当我的机械臂悬空到这个铃之间的位置时，我只靠单帧的图像根本不知道我是已经按完这个铃了，还是还没有按它要去按它，还是已经按完要回退。所以这里面就需要 memory 。

一种方式是 embedding （嵌入）的方式；另一种是显式 summary （总结），用 VL 的 language 去 summary 一下，比如 “ 我当前已经按过它了，现在是回退状态 ” 。相当于做了一个 CoT ，随着 CoT 把一些重要的信息以文字形式总结下来，作为后面的输入。一种是隐式的，一种是显式的，都是 prompt 的形式。

DeepTech ：如果是更多的记忆，机器人在执行过程中也不需要记忆非常多的信息。

穆尧：其实执行只跟当前有关系，当前任务几个工具。它做过的其他任务，知识是藏在权重里面的，那是学习训练的时候。

DeepTech ：也就是说执行当前任务时，并不需要关注之前做了什么任务。

十一、世界模型与空间智能：争论还是融合？

DeepTech ：我们聊了很多技术上的问题。我在做前期调研时也看到很多开放性的探讨，比如最近比较火的世界模型、空间智能和大语言模型的争论，好几个大佬都在聊空间智能的问题。两位怎么看？

穆尧：我觉得空间智能和语言好像没有什么太多可争论的，它们两个都非常重要。对机器人来说，因为具身智能本身就是计算机视觉、自然语言处理、机器人本体、控制理论几大交叉学科于一体的方向。对于具身智能机器人，空间认知感知能力和语言模型的推理能力都是非常重要的两个部分。

对于空间来讲， World Model 就像你刚刚提到的，是非常好的方式来做具身智能的预训练。为什么呢？因为视频或图像是最丰富的一种形式，人类世界当中有无数人做各种任务的视频，包括自动驾驶的任务 —— 往前走、往后退，形成对世界的三维空间认知，知道走近之后的视野会变成什么样、走远之后的视野会变成什么样。

而且 World Model 天然可以把机器人和自动驾驶的 world model 放在一块训，完全没有问题。数据格式是统一的，不像 VLA 的话，机器人的 pose （姿态）、 action 信息和汽车的方向盘转角、油门开度是完全不一样的。

所以 World Model 是一种更通用的对于空间推理的手段。特别是预测未来帧也好、预测未来的隐藏状态也好，它都是一种通用的、面向全模态所有本体的空间推理预训练的非常有效范式，真正能把所有数据源有效调动起来去训练一个 foundation （基座）的手段。这一块我相信目前学术界和工业界给予了非常大关注，在大家努力下也会有很多 promising （有前景的）的成果出来。

DeepTech ：所以空间智能其实也抛弃不了语言的环节。

穆尧：对，语言也很重要。自动驾驶里向左转、向右转是完全不一样的。

陈龙：我觉得 World Model 和 VLA 解决的是不同的问题。像穆尧讲的， World Model 是通过对下一帧图像或下一个状态的预测，学习到这个世界上的一些本质，比如这个车未来应该如何运动，通过学习预测的能力学习到一些世界本质上的物理规律。

VLA 更多的是学习到一些 high level （高层级）的人类规则，通过互联网上的文字训练学习到人类对这个世界的定义，包括人类的价值观，以及很强的通过文字的推理能力。

World Model 这个 low level （低层级）的预测能力和 VLA 这个 high level 文字推理的能力，本质不冲突，是可以互相结合的。现在也有很多研究在把这两个不同的能力给它结合起来，形成一个更好的模型，既能预测未来的图像，也有视觉语言的能力用语言做推理。我觉得最终肯定要把这两种能力融合。

DeepTech ：目前讨论比较热烈，我感觉更多是语言模型因为只聚焦于语言，很难把世界模型加入进来。加入实践模型之后，这两个模型最终会路线收敛，有相互交叉、相互补齐。

十二、如何看待对 VLA 技术的质疑？

DeepTech ：另外还有一个相对尖锐的问题。前段时间在世界机器人大会上，王兴兴比较质疑 VLA 技术。你们怎么看这个问题？

穆尧：我觉得观点的不同主要是因为从不同的角度。从我们做研究的角度， VLA 看到了很大的机会，所以需要投入。但我相信所有 VLA 的研究者都会坦诚承认，目前达不到工业上四个九的要求。但它是不是 promising 的？我觉得是 promising 的。

王总的观点可能是因为他们做本体，要求非常严格的安全性、准确率、效率。宇树的机器人踹多少脚都不倒，可以做非常复杂的运动。我觉得本身技术就是我们在不同路线上去做，会有一个交汇点。 VLA 很多能力也是受限于本体，比如有些机械臂和灵巧手它就很笨拙，效率跟人是没办法比的。

我觉得也很好，大家努力的方向有从不断完善本体的易用度、可靠性、成本的，我们这边做 VLA 对大多数公司来说属于一个预研的项目。当两方技术逐渐交叠，整个具身智能是一个软硬件协同发展的系统。当软硬件真正发生碰撞在一起的时候，大家的看法都会改变，也都会有新的共识。

像现在来看有一些比较好的 demo ，像字节发出来的 VLA 能够去穿鞋带。这个在我当时读博士的时候，实验室还讨论过这个任务，当时我们认为谁要是能做一个这个，可以说是一个很惊动的话题。但现在已经被实现了，技术发展确实很快。

2024 年的时候，基本上人形机器人都是跌跌撞撞的，上个楼都费劲。现在其实已经起飞了，你看它做很多复杂的动作都可以做。 VLA 这一块，像叠衣服现在甚至都说是具身公司的一个 “MNIST （手写数字数据集） ” ，就相当于图像识别里面最简单的数字，哪家都能叠衣服了。但 2024 年是不可想象的，那时候抓苹果都费劲。整整只过了一年，就是天翻地覆的变化。我觉得很快随着软硬件的交汇，我们会有一些更新的共识出来。

陈龙：当一个技术刚兴起的时候，会有一个类似于新兴技术的曲线。刚开始大家把热度炒得特别高，会有很多 demo 出现。后来发现可能对它期待太高，没有实现人类的期待，这个技术又会跌到谷底。慢慢经过几年发展，才最终达到很好用的状态。

我是一个比较长期主义的人。现在 VLA 可能确实有很多问题，不管是效率还是幻觉问题，虽然它泛化性很好，但最终的成功率可能并没有达到人类的期待。但我觉得不应该因为它现在的问题来全盘否定这个技术，更多的是看到这个技术的潜力，包括它未来的发展方向。

我觉得 VLA 是现阶段最能实现物理世界 AGI 的一个框架。语言也是人类这么多年智慧结晶的体现，互联网上这么多数据融合了人类的很多智慧。最终语言肯定是智能的一个很大的模态，是必不可少的。 VLA 这个架构可能也是最终通往 AGI 必不可少的一个框架。虽然它的网络结构比如 transformer 可能并不是最终理想的架构，但语言这个模态我觉得肯定是一个终局。

不管是物理世界的 AGI 还是 AGI ，我觉得都需要语言这个能力。所以不能因为 VLA 现在有很多问题来否定这项技术。而且 VLA 还有世界模型可能太容易理解了，现在有很多人利用自己对它的理解来做一些推演，来否定这项技术。还是应该真正务实一点，把 VLA 以及世界模型这些技术的底层技术做好，最终才能共同促进这些行业的发展。

DeepTech ：因为这个技术原理在大众看来相对简单，但技术实现上是非常难的。或者说 tr a nsformer 的架构只要研究一段时间都能理解，但具体实现就很难。 VL A 也是一样的，技术原理和逻辑相对简单，但每个人对这个技术的理解不一样，在发展过程中面临的问题的解决方案不一样，跨越某项技术鸿沟的难度和时间也不一样。随着技术发展，这些问题都能一步一步慢慢解决。

排版：olivia

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->

            <!-- 非定向300*250按钮  end -->
        </div>

Source link

相关推荐

评论抢沙发

近期文章

相关推荐

评论 抢沙发

近期文章

评论抢沙发