十二个问题解剖VLA,深度对话小米陈龙、上交穆尧


来源:DeepTech深科技

2025  年末,首批  L3  级自动驾驶车型获得准入,标志着中国智能驾驶产业迈入新纪元。与此同时,具身智能机器人领域也在过去一年间经历了 天翻地覆”的变化,从  2024  年初 抓苹果都费劲 ,到如今叠衣服已成为行业的入门任务,穿鞋带这样曾被认为遥不可及的精细操作也已被攻克。

在这场技术跃迁的背后,一项被称为  VLA Vision-Language-Action ,视觉语言动作大模型)的技术正成为连接自动驾驶与具身智能的关键枢纽。不同于传统端到端模型从视觉直接映射到动作的 条件反射 式决策, VLA  将语言理解与推理能力引入物理世界的决策链路,赋予机器“看了就懂、懂了就做 的认知能力。

然而, VLA  的兴起也伴随着争议。在  2025  年世界机器人大会上,宇树科技创始人王兴兴公开质疑这一技术路线,引发行业热议。这场争论的背后,是软件与硬件、泛化性与可靠性、学术探索与商业落地之间的深层张力。

为深入探讨这一前沿技术的本质、挑战与前景,我们邀请到两位走在  VLA  研究最前沿的嘉宾:小米汽车智能驾驶  VLA  技术负责人陈龙,以及上海交通大学计算机学院助理教授、 ScaleLab  负责人穆尧。他们分别从自动驾驶和具身智能机器人的视角,为我们拆解  VLA  的技术内核,剖析数据困境与安全挑战,并回应来自产业界的质疑。

以下是本次对话的完整内容。

时间线:

0 0:04- 01:20  开场: VLA 是通往下一代通用人工智能的关键路径 

01:20-08:13  一、什么是 VLA ? 

08:13-12:24  二、 VLA 与端到端自动驾驶的区别 

12:24-19:00  三、什么是长尾问题和泛化问题? 

19:00-24:33  四、 VLA 不只是加了一层语言 

24:33-29:16  五、机器人对语言的要求更高 

29:16-32:40  六、自动驾驶与机器人能共用一套底座模型吗?

32:40-42:18  七、数据问题:自动驾驶 vs 机器人 

42:18-45:55  八、安全性问题:如何保证 VLA 不出错? 

45:55-54:28  九、实时性问题: VLA 的延迟怎么解决? 

54:28-01:00:05  十、思考与执行可以并行 

01:00:05-01:04:22  十一、世界模型与空间智能:争论还是融合?

01:04:22-01:11:18  十二、如何看待对 VLA 技术的质疑? 

一、什么是  VLA 

DeepTech 先请两位解释一下什么是  VLA  技术。

陈龙: VLA  是最近几年比较火的一个话题。它本质上是利用大语言模型的泛化能力,包括从互联网数据预训练得到的通识知识,再辅以语言模态的推理能力,来解决现实世界中行为决策的问题。

现在不管是自动驾驶还是机器人,  VLA  都非常火。因为自动驾驶面临很多长尾问题,当你在路上开车时,大部分时间遇到的是见过的东西,但有时候会遇到没见过的场景,这时候就需要思考能力,在这些场景下做出更好的决策。

机器人也在利用  VLA  的能力,主要是因为机器人的任务比较复杂,有很多长程任务。它需要利用语言能力来理解人类给它的任务,包括对整体任务的拆解,把它分解成  sub task  (子任务) 来执行。所以总体来说,  VLA  是未来物理世界人工智能发展的趋势,是大模型能力走向物理世界的必要网络架构。

穆尧: VLA  给机器人带来了非常大的机会。具身智能和传统机器人研究的一个很大不同点在于,具身智能更关注泛化性,包括对场景的泛化性、视觉和物理上的泛化性,也包括我们希望交互的物体的不同形状、颜色等更细致的泛化性。

 VLA  技术下,实际上赋予了机器人几方面的能力:第一,使机器人能够用语言沟通,听懂人类指令;第二,由于  VL  (视觉语言模型) 在大规模互联网数据上进行了很好的预训练,可以有非常好的场景和视觉上的泛化性,逐渐迈向开放世界;第三是  A  Action  ,动作) 这一块,怎么把  VL  对接到  A  上,在机器人领域目前还处于研究探索阶段。当然已经有一些比较好的模型出来,比如  π0   π0.6  ,展现了一些精细操作的能力。

VLA  带给机器人的核心机会在于赋予了机器人一个柔性的能力。之前机器人可能要写死一些机械定位,差一点都不行;现在可以根据情况随机应变。当然这部分泛化性目前还没有达到工业上真正四个九的要求,所以不管是学界还是工业界,都在逐渐发力。

DeepTech 过去训练机器人或者机器人的工作方式是什么?

穆尧: 传统机器人大部分面向特定场景、特定任务,在这个任务上达到  SOTA  (当前最佳水平) 。传统的方法基于规划加柔顺力控,或者基于强化学习,解决的核心问题都是单一场景、单一任务的。当具身智能要求走向多任务、开放世界、开放场景时, VLA  就成为非常重要的实现路径。

DeepTech 举个例子,现在的机器人更多在工业上应用,未来走入生活场景,是不是就用到了  VLA  的核心技术?因为生活中的场景和指令都是非标准化的。

穆尧: 是的,家庭场景最符合具身智能的要求,当然也是最难的。但工业场景的泛化性要求也很高。到现在能通过自动化产线完成的都已经大规模在做了,比如小米汽车的生产线,除了最后的总装车间,其他车间都是  95%  以上自动化。剩下需要人类操作的部分,往往是因为单独搭建产线非常昂贵,而且可能今天来的是这批零件,明天来的是另一批零件,有柔性生产制造的需求。这种需求本质上还是对泛化性的需求,所以工业场景上也有很大的应用空间。

二、  VLA  与端到端自动驾驶的区别

DeepTech VLA  技术在自动驾驶上,和现在的端到端自动驾驶有什么区别?

陈龙: 自动驾驶研究了几十年,是比较有历史的方向。早期类似穆尧讲 的机器人方法,是模块化的方式来实现 ——  区分感知模块、预测模块和规 控模块。感知通过计算机视觉模型检测物体,预测会预测每个车的运动轨迹,规划则利用路径规划算法,在知道周围物体和它们未来运动的条件下,规划出 自车的运动轨迹。这是自动驾驶的第一阶段,通过规则算法来实现。

端到端是最近几年才兴起的。我之前在  Wayve ,我们从  2018  年就开始做端到端自动驾驶,当时还是比较激进的方式。端到端本质上非常简单,就是使用一个大模型,利用很多收集起来的自动驾驶数据,训练一个端到端的模型,直接把传感器输入映射到驾驶信号上面。

端到端解决了传统算法的很多问题,因为传统算法需要手动设置很多规则,比如红灯情况下怎么样、遇到别的车应该怎么做。端到端不用手动设计这些规则,而是通过数据驱动的方式,利用大量人类驾驶行为,让神经网络学习这些行为并进行拟合。

但它也有很多缺点:首先是黑盒模型,你不知道它的决策是怎么做的,不是特别可控;第二是对长尾问题的泛化性不够好,因为现实生活中有很多场景是收集数据收集不到的,遇到这种场景可能就会做出错误行为。

VLA  本质上就是为了解决这些问题。首先是可解释性,  VLA  通过语言可以做出解释,包括决策的原因,你可以通过这些原因了解它是怎么做决策的,透明度会加深。其次,  VLA  可以提供比较好的推理能力,特别是  VLM  (视觉语言模型)可能经过互联网知识的预训练,对世界的通识知识、人类的价值观都有一定了解,再辅以推理能力,可以在长尾情况下通过推理做出更正确的决策,使自动驾驶更加安全、泛化性更好。这也是为什么  VLA  在最近几年慢慢兴起,成为主流方向。

三、什么是长尾问题和泛化问题?

DeepTech 两位反复提到长尾和泛化。能不能举一些特殊的例子,帮助我们了解机器人或自动驾驶在某些场景下失效的情况?

穆尧: 在机器人上,泛化的圈子会画得比较大。可以细分为:首先是背景,就是操作台以外 所有背景,涵盖各种光照信息、复杂的  layout  (布局) 分布;再往上是前景,就是当前机器人的操作台和  target  (目标) 物体;同时桌子上还有各种杂物 —— 我们每个人家庭的桌子不是一尘不染的,有各种东西,所以操作台上有任务相关和任务无关的物体。

最细的层级是任务相关物体本身。比如任务是收拾桌子上的瓶子,瓶子的种类很多 —— 可乐、雪碧是圆柱形的,东方树叶是四棱柱的,形状都不一样。这就是从最粗到最细粒度的泛化。

什么是长尾呢?长尾是一些在预收集数据中很难出现的状况。比如机器人在夹东西时掉下来了,或者夹东西时碰到了某个东西,或者尝试抓取时东西被碰倒了。人类一次尝试没成功,东西倒了之后我们知道怎么抓,但机器人可能完全没见过这个倒下的状态,很难  recover  (恢复) 。还有更具有挑战性的长尾,比如场景中有第三个可移动的物体 —— 人。一个人直接把你本来瞄准好的物体位置变了,或者把立着的瓶子弄倒了,把茶杯弄翻了,这就是长尾。

专家数据集也会包含泛化部分,包括场景泛化、操作台泛化、任务无关物体泛化、任务相关物体泛化,这些都会有。但有些突发情况是专家数据集很难收集到的,一般要通过真机强化学习这样的方式才能收集到。

DeepTech 在自动驾驶方面呢?

陈龙: 自动驾驶方面定义也类似。你的专家数据集不可能把所有场景都收集完,因为道路上有很多不可预知的事情。比如我们在新的地方开车时,会碰到不一样的交通标识牌或不一样的场景。人在新环境下也会遇到很多长尾问题,有时候也会开慢点或停下来想一想具体应该怎么开。

DeepTech 就是说有的路口只有本地人才能走对?

陈龙: 对,类似这种。  VLA  比较适合解决这些长尾问题。具体例子比如施工场景会有一些标识牌,每个标识牌都不统一,有的画了车辆和箭头示意你应该往哪个方向走,有的是文字形式,有的是其他方式指示你应该怎么走。在这种非结构化信号下,需要  VLA  对整个场景的理解,包括利用互联网预训练知识进行理解和推理,得出在这个长尾问题下应该具体做什么决策。

VLA  还解决了比较长序列的问题。比如开车时拐进了一个死胡同,应该倒车退回去换一个路口。但如果没有  VLA  ,你可能开到死胡同里,即使知道退回来,也可能再开到这个死胡同里,因为你不知道刚才已经开到这里了。  VLA  可以在需要长时记忆的情况下,用语言这个比较抽象的模态来做长期路径规划。

四、  VLA  不只是加了一层语言

DeepTech 传统或现在用的是从视觉直接映射到动作, VLA  是从视觉映射到语言再映射到动作。是不是只是在中间加了一层语言?还是  VLA  中间加入语言能解决一些其他核心问题?

陈龙: 肯定不是只加了一层语言。这本质上是一个范式转变。  VLA  利用大模型的范式来训练自动驾驶或机器人算法。  VA (视觉动作)是直接把图像映射到最终的  action (动作)上,不管是自动驾驶的端到端算法还是机器人比较经典的  ACT  (动作分块) 算法,本质上没有利用模型的思考能力。  VLA  本质上转换到了认知驱动的范式,通过大模型的能力,利用大模型的知识和推理能力来解决路径规划或抓取导航这些问题。

现在自动驾驶领域对  VLA  的理解都不尽一样。我个人理解,本质上  L  这个模态是对图像的补充。  VA  只有图像和传感器信息来做一次决策,而  L  可以通过语言模态不断  sample  (采样) 下一个  token 。通过这个  sampling  的方式,  sample token  的过程其实是信息量增加的过程, 熵也是一个减少的过程。

所以通过首先有图像,然后不断  sample  语言  token  带来信息量增加的过程,最终做决策时是通过图像信息辅以语言  sample  之后的信息,共同做出决策。理论上比只用图像做决策会更好。  VLA  是利用了语言的预训练能力和推理能力,进一步增强了决策过程。

DeepTech 我看到过一些自动驾驶  demo  ,会把思考逻辑打在车机屏幕上。在我们看来,它相当于是一个相对滞后的决策逻辑。在语言生成推理逻辑时已经拐过去了,推理逻辑才到屏幕上。这个过程能够被打断吗?或者执行过程中能够沟通吗?

陈龙: 这是个很好的问题。现在  VLA  的框架还没有发展到特别成熟、特别拟人的阶段。 现在市面上有些产品可能会显示思考过程,但显示这个过程可能已经是几秒前的,做决策时确实利用到了,不管是做  CoT  (思维链) 还是描述场景来做决策。但这些显示的信息可能更多是为了展示智能化,对整个自驾体验没有特别大影响。

我觉得最终的  VLA  ,思考过程可能并不需要用这么口语化的文字来描述场景和做推理,因为这些口语化的词是很冗余的。最终的  VLA  可能更类似人脑的思考方式,我可能不需要说出来也可以去思考,甚至可以利用更简短的 token  ,甚至是一些隐式的  token  来做思考。这样会更高效,不需要输出很长的思维链,只需要输出一些精简的  token  就可以最终做决策。而且自驾是一个实时要求比较高的系统,不可能接受你 sample  这么多  token  最终做出决策。

DeepTech 所以也很难中途打断,比如像现在告诉司机一样说 前面右拐

陈龙: 对,现在  VLA  范式是没有这个打断功能的,只能是你说出指令之后再重新执行理解指令语义的过程。

五、机器人对语言的要求更高

DeepTech 在机器人上呢?

穆尧: 机器人的  VLA  非常难。大部分机器人  VLA  的训练都是以一个  well pre-trained  (预训练好的)的  VL model  ,然后后面接  expert (专家模型) 。以目前最著名的  Physical Intelligence 提出的  π  系列为例,前面是  Google  提出来的  PaLM  (一种大语言模型) ,是一个  well pre-trained  的视觉语言模型,后面接了一个以  flow matching (流匹配)为原理的  action expert (动作专家)网络。

本质上机器人对  language  的要求非常高。首先,机器人要做任务拆解。自动驾驶可能就是按照固定的期望路线安全行走、不发生碰撞、到达目的地就可以了。但机器人比如听到人类的指令 请你帮我做一杯咖啡 ”  ,要具体到动作原语  ——  拿出什么东西、放下什么东西、打开什么东西、把什么东西从左边挪到右边。机器人需要把人类非常抽象的指令分解成动作原语级别,然后每个原语作为一个  language condition  (语言条件)去输出对应的  action  。从这个角度来说,  language  对机器人意义非常大。

VLA  大部分是  3B  左右的,比较大的会有  7B  8B  的,但目前还没有看到 13B  的。所以我觉得它算是一个比较大的 小脑 ,可能还没到 大脑  level  。但关于机器人大脑的研究也非常多,以视觉语言为主的大脑研究,大家会做更长程任务的推理。大家对机器人的期待是人类都不用说话,机器人通过视觉观察能做逻辑推理 —— 你当前是什么状态,是不是疲惫了、是不是渴了,疲惫困了我给你端来一杯咖啡。所以在机器人这端,  language  起到非常重要的作用。

DeepTech 我们聊机器人时往往会聊 大脑 本体 。像宇树做本体,很多实验室或公司专注做大脑,只要采购到强的本体就可以了。你刚才提到研究大脑用到的模型参数量都更大,  VLA  是不是把大脑和本体都统一到一个模型里面了?

穆尧: VLA  实际上兼顾了一些大脑的能力,比较简单的逻辑推理是可以做的,比如  pick and place (拾取和放置) 这些简单任务。更大更复杂的推理可能还需要更大的大脑。目前一个比较主流的范式是端云协同,大脑跑在云端,一个稍微小一点的模型跑在端侧或边端,最底层比如人形机器人的运动控制属于纯小脑,也跑在端侧。

DeepTech 相当于  VLA  模型部署在本体上,还有一个更大模型的大脑在云端?

穆尧: 对,目前这一块业界解决方案没有特别好。能在端侧芯片部署  VLA  模型的板子也不是很多,大家可能更多是以比如  4090  的服务器来做,属于边端。

DeepTech 所以在机器人的控制中,目前还是大脑和本体分离的状态。

穆尧: 13B  以上的大脑一般都是跑在云端的。

六、自动驾驶与机器人能共用一套底座模型吗?

DeepTech 我们看到很多报道说机器人和自动驾驶能共用一套底座模型。小米也刚开源了打通自动驾驶和具身的基础模型。这两者之间有哪些挑战?技术上有哪些解决思路?

陈龙: 肯定有很多挑战。本质上我们想要解决一个跨本体的问题。人类不管是在家做家务、操作物体,还是在室外开车,是用一个大脑做这些不同行为的。我们认为最终不管是具身、自驾还是其他任务,都要共用一个大脑模型。这样我们的大脑模型才具有很强的对世界的认知能力,而且统一的模型可能使任务的连续性更好。

我们前段时间发布了一些探索性工作,叫  MiMo Embodied  ,和小米集团的  MiMo  模型团队一起做了一些具身大脑的探索。本质上是使用自驾数据和机器人数据,进行融合,通过分阶段训练:第一阶段加入很多空间智能数据,让它学习空间感知和空间推理能力;第二阶段放入自驾和具身的专有数据;第三阶段通过  CoT  微调;第四阶段使用强化学习微调。

通过这四阶段训练,我们发现自驾和机器人的数据是可以融合的。它们共有的能力,也就是空间感知和空间推理能力,是可以互相加强的。一个是室内数据(具身操作) ,一个是室外数据(自驾场景) ,如果训练得好是可以互相增强的。这也是我们前期具身基座模型的探索。

这是比较大的模型,大概  7B   7B  的模型尺寸在端侧也不能完全部署,而且需要使用很长的思维链方式进行推理,最终可能是一个云端模型。

七、数据问题:自动驾驶  vs  机器人

DeepTech 陈龙聊到数据问题。我感觉自动驾驶数据可能更好获取,机器人数据更难获取,是这样吗?

穆尧: 是的,这也是具身智能行业和自动驾驶产业一个根本性的区别。自动驾驶产业所有跑在路上的车都可以回流作为专家数据,当然要经过大量清洗,但每天可以回流上亿条数据。而具身智能把所有开源的闭源的加在一起,可能也没有  1  亿条数据,数据体量差距很大。

所以具身智能学术界和工业界想了各种办法,包括仿真合成数据,包括用人类更便携的方案比如  UMI  这样的手持式设备采集,本质上都是希望以廉价成本  scale up  (扩展) 数据。但核心困境还是需要人主动去收集,没有一个自动的飞轮。我们很期待在某一个产线、某一个商业场景下的机器人真正能  24  小时转起来,这样就可以产生源源不断的数据飞轮。自动驾驶天然就有这样的优势。但我觉得大概两年之内,具身也会有一个初步的数据飞轮出来。

DeepTech 据方面前期调研时,我看到穆尧有  –  数字人  –  机器人 一体的架构,也是为了解决数据问题吗?

穆尧: 对,核心就是解决数据问题。人类数据是最本质的,所有机器人都应该向人学习,而且人的数据最廉价、最容易收集 —— 戴个  AI  眼镜,或者头顶上绑个相机就可以采集。但人和机器人确实  gap (鸿沟)比较大,所以我们提出  “  –  数字人  –  机器人 ”  的三位一体管线,希望搭建好从人的行为到机器人行为的调节,把人的数据利用效率大大提升,并且为仿真合成数据注入人类丰富的行为信息,使行为多样性有显著提高。

DeepTech 机器人和自动驾驶数据的  gap  ,陈龙怎么解决?

陈龙: 穆尧说得非常好。自驾因为汽车本身是很好的产品,用户会去开车,所以采集数据更方便,每天会有很多数据传上来。而且数据多样性非常好, 全国不同省份都有人在开小米汽车。

具身的问题是现在没有成熟的产品在用户侧使用,没有数据飞轮效应。现在大家都是自己建采集场或小规模采集数据,不管数量还是多样性都非常有限。现在有很多人用合成数据来增强真实数据的不足,但本质上量和多样性都跟自驾差得很远。所以为什么  VLA  这么火,其实也是利用了  VLA  的泛化性来解决数据缺少的问题。

当你有了一个很强的  VLA  模型,可能真正需要的数据就不需要那么多了。打个比方,如果你教人一个新任务,不需要很多数据,可能只需要几条  demonstration  (演示) ,人就可以学习出这个任务具体应该怎么做。所以当 VLA  模型做得非常好,它的泛化能力和三种模态的  grounding  (接地) 做得非常好时,可能并不需要特别多的数据,只需要几条演示数据就可以把任务做得非常好。数据少的时候,模型侧可以做更多优化来弥补。

DeepTech 这两部分数据的融合,穆尧怎么看?

穆尧: 这两部分数据有  gap  。机器人的数据聚焦点主要在操作台上面,  focus  一些非常小的物体。自动驾驶可能关注的更多是路况、行人、 红绿灯这样的信息。

但两者的交汇点是  World Model  (世界模型) ,这是一个非常好的交汇面。一个通用的对未来数据的推演,自动驾驶的能力能够为机器人赋能。因为机器人也需要导航,也需要  mobile manipulation  (移动操作) 或  locomotion  (运动) 。自动驾驶的数据能为机器人提供的服务是空间理解和推理 —— 知道这个车往前走一段,视野会变成什么样,近大远小这些  common sense (常识)是可以获取到的,这种基础知识对机器人学习有很大帮助。

当然二者的  attention   focus  各有侧重。自动驾驶会跟车道线、红绿灯、行人、车辆的  feature (特征)更相关;具身可能  focus  在一些具体的起草物体的交互。所以在设计网络时,要能让它们共有的知识得到促进作用,并且有效分离开。对应的网络结构设计也是比较需要的。

八、安全性问题:如何保证  VLA  不出错?

DeepTech 不管自动驾驶还是机器人和人的交互,都有一个绕不开的话题  ——  安全性。我们都知道语言模型有幻觉问题。在电脑上和大模型交互时,错了我们人为改正就行了。但在自动驾驶和机器人的交互过程中,穆尧也提到工业上还做不到四个九。在这个安全性极高的场景里,  VLA  是如何保证它既有泛化能力,又能解决长尾问题,同时又不会出错的?

穆尧: 我能想到的路径主要是强化学习。安全分两块:一块是意识层面的安全,不能做出伤害人类的行为、危险的行为;另一块是行为动作上的安全,也就是  safety  (安全性) 。

在意识层面上,大模型包括  LLM  (大语言模型) 的安全对齐主要通过强化学习来做。对于操作的精准度、不能发生碰撞等安全性问题,强化学习也是非常好的手段。我们有一篇  paper   Simple VL-RL  ,首次在一些标准  benchmark 上达到了两个  99%  的精度。离工业四个九还稍微远一点,但已经看到很大的曙光,强化学习确实在这一块能带来比较好的性能提升。

DeepTech 陈龙有什么看法?

陈龙: 自驾还是不太一样的。具身你是可以试错的,不仅能在虚拟环境中做强化,在真实世界中也可以做强化学习。自驾毕竟安全性是第一位的,更多的是从系统层面上做安全性冗余。大模型可能会有幻觉问题,纯模型可能都会有不可预测的问题。在自驾安全性要求这么高的环境下,肯定需要很多不同的网络做兜底。

比如在运行  VLA  的时候,我们可能还有另一套网络,比如传统的感知和规控网络不断做  safety check (安全检查) ,做一些简单的安全性检测,比如未来几秒会不会碰撞、会不会有风险。这类传统算法稳定性都非常好,当我们检测到有风险时,可能会用其他模型来做安全操作。

DeepTech 相当于有一个校验过程或安全兜底的过程?

陈龙: 是的,在自驾安全性要求这么高的情况下,肯定需要安全兜底。

九、实时性问题:  VLA  的延迟怎么解决?

DeepTech 另一个我比较关心的点是,如果加入语言的决策逻辑,我们都知道像  DeepSeek  在思考过程中是非常慢的。模型在调用过程中还是有时间响应上的问题。这个问题在自动驾驶和机器人上怎么解决?现在能做到多少毫秒的响应?

陈龙: 自动驾驶不仅要求安全性高,对实时的要求也非常高。最少要到  10  赫兹的级别,每秒要做十次决策才能做一些比较快的响应,比如紧急情况下的响应。所以我认为  VLA  模型在自驾上可能还需要一些范式上的转变。

现在有所谓的  “ 双系统 ”   VLA  作为一个慢通路,还有另一个快系统,可能是端到端模型或其他模型。大语言模型和端到端模型可以运行在不同频率上  ——  大模型可能每秒做一次决策,做比较深度的思考;端到端模型可能运行在十赫兹,做快速响应。但这类方式有个通病:大模型的决策和端到端怎么结合,是比较困难的问题。

另一端是  VLA  本身,往往我可能每一帧都要做一个  CoT  的思考,或者比较高级的是知道什么时候要做  CoT  思考,但这还是有问题。因为当你需要  CoT  思考时,可能是比较紧急的情况,但这时候做很多  CoT  思考,最终做决策的时间就会很长,可能导致安全性问题。

所以不管是双系统还是一端式  VLA  都是两个极端,要不然思考时间过长,要不然双系统区分得太明显。肯定之后会有比较中间的方案。因为人类开车时也是在不断思考,边开车边思考,有时候思考的东西可能跟开车没关系,你可能会走神,但这时候有时候你也可以安全地开车。

最终需要另一种范式转变,更灵活、更紧密、更解耦的双系统结合方式,需要在网络上面做一些探索。

DeepTech 提到这个我也有感触。平时开车时如果车比较少,很容易走神,不需要调动特别高的思考能力;但堵车或想超车时,肯定要全神贯注,可能调用了更多的思考能力。

陈龙: 对,或者在紧急情况下,你可能来不及思考,可以通过直觉系统来做出决策。

DeepTech 语言响应延时的问题,穆尧怎么解决或有什么看法?

穆尧: 对具身来说,更重要的是  action  的延迟。对于语言,你问它一句话,等一会儿也没什么太大问题,而且完全可以变成并行或异步的部分,当对身体没有明显指令时,完全可以云端处理。

对于需要  VLA  都做推理的任务,实时要求还是比较重要的。像陈龙说的十赫兹,机器人也需要十赫兹以上的推理频率。一个比较好的方案是异步推理,像  Dexterous AI  提出的执行和推理是异步的,没推完的接着推,但该执行的去执行,构建一个异步的  system  (系统) 来做。

包括推理也可以并行化,特别是如果有云端加持,完全可以做并行化,根据任务是否有依赖性来完成是否并行的处理。

DeepTech 刚才提到本体的实时,是目前机器人更大的问题吗?

穆尧: 不是本体的实时,而是  VLA  从输入图像到输出 action  开始执行这段时间,是推理时间。因为模型比较大,会比较慢。 3B  的模型差不多将将满足十几赫兹的要求。

DeepTech 执行效率会比传统方式要慢一些吗?

穆尧: 也有很丝滑的,不能一概而论。正常一个  3B  模型 4090  上部署,响应频率差不多  15  赫兹左右。但有很多方法,比如模型轻量化、工程优化,可以使它变得更丝滑。包括插值,可以使真正的本体执行频率很高,甚至可以达到  200  赫兹。像  Figure AI  就号称执行频率是  200  赫兹,但实际上是插值之后的,插值之前其实和大家差不多。

所以有很多工程手段去解决。但更关键的是影响动作最终做出来丝不丝滑、哆嗦不哆嗦、成功率高不高的本质上的控制频率,还是由 VLA  看到图像然后出  action  这段时间来决定的。

十、思考与执行可以并行

DeepTech 我综合两位的观点,能感觉到它的思考链是一条链路,而执行的过程不一定等思考全部完成了之后再执行。思考链可能会非常长或非常连续,而执行过程在某一个阶段就可以开始执行了。这样在我们体感上,延迟就不会像现在用大语言模型看它思考那么长时间才能给出结果。

这就会面临另一个问题:执行过程中,比如自动驾驶一直在开车,思考一直在进行,一直有  token  产出;机器人执行过程中也是这样。  Transformer  都会面临遗忘的问题,过去不管多长的文本模型都会有遗忘。遗忘的问题对自动驾驶和机器人会是问题吗,包括训练时遗忘与执行时遗忘。

陈龙: 训练时更多的是通用能力有一些灾难性遗忘的行为。现在  VLA  如果 在实验室做小规模  finetune (微调) ,可能并没有很大规模的预训练能力,做完  VLA  训练后通用能力就会有一定缺失,遗忘了很多通用知识,模型就变成一个专有的自驾或具身模型了,通用能力几乎就没有了。

举个简单例子,如果你做很小规模的微调,问它一些通用知识比如 一加一等于几 ,它会回答一些无关的东西,比如 前面有一辆车 。所以训练时要解决遗忘问题,更多的是要把很多数据加入预训练阶段。预训练时不仅学习通用知识,也学习到自动驾驶或机器人的知识。

推理时更多的是  context window (上下文窗口) 的问题。当延时要求非常高时,  context (上下文) 不能堆得特别长,肯定要做一些选择。但现在有很多大模型技巧,比如  linear attention (线性注意力机制) ,可以把  context window  做得非常长,但延时也不会变得特别高。还有可以做  context  的压缩和总结。

你不需要把之前所有信息都加入  context  ,只需要把关键信息加入。比如在路口选择了往哪边走,这些关键信息可以加入历史  context  ;而一些无关紧要的信息比如现在执行开了多少米,这些信息其实不是特别关键,可以忽略掉。所以最终  VLA  的形态肯定类似人,更加智能,可以记忆比较关键的信息,无关紧要的信息不需要做历史记忆。

DeepTech 在机器人领域呢?

穆尧: 在机器人领域一般有两大类方法。一类是用  neural  (神经) 的方式,就是刚才陈龙讲的压缩方式,  embed  (嵌入) 出来一些关于  memory  (记忆) 的  token  ,然后当前的观测视觉和语言的  token   query  (查询) 这个  memory bank  (记忆库) 里面的  memory token  (记忆令牌) ,  query  出来一些  historical token  (历史令牌) 作为  VLA   prompt  (提示词) 。

另一类是显性的总结,有一个额外的  agent system 。举个例子,机器人里很简单的一个任务但非常需要  memory  ,就是 “click the bell (按铃) ,在桌子上需要按响一个铃。当我的机械臂悬空到这个铃之间的位置时,我只靠单帧的图像根本不知道我是已经按完这个铃了,还是还没有按它要去按它,还是已经按完要回退。所以这里面就需要  memory 

一种方式是  embedding (嵌入)的方式;另一种是显式 summary (总结) ,用  VL   language   summary  一下,比如 我当前已经按过它了,现在是回退状态 。相当于做了一个  CoT  ,随着 CoT  把一些重要的信息以文字形式总结下来,作为后面的输入。一种是隐式的,一种是显式的,都是  prompt  的形式。

DeepTech 如果是更多的记忆,机器人在执行过程中也不需要记忆非常多的信息。

穆尧: 其实执行只跟当前有关系,当前任务几个工具。它做过的其他任务,知识是藏在权重里面的,那是学习训练的时候。

DeepTech 也就是说执行当前任务时,并不需要关注之前做了什么任务。

十一、世界模型与空间智能:争论还是融合?

DeepTech 我们聊了很多技术上的问题。我在做前期调研时也看到很多开放性的探讨,比如最近比较火的世界模型、空间智能和大语言模型的争论,好几个大佬都在聊空间智能的问题。两位怎么看?

穆尧: 我觉得空间智能和语言好像没有什么太多可争论的,它们两个都非常重要。对机器人来说, 因为具身智能本身就是计算机视觉、自然语言处理、 机器人本体、控制理论几大交叉学科于一体的方向。 对于具身智能机器人,空间认知感知能力和语言模型的推理能力都是非常重要的两个部分。

对于空间来讲,  World Model  就像 刚刚提到的,是非常好的方式来做具身智能的预训练。为什么呢?因为视频或图像是最丰富的一种形式,人类世界当中有无数人做各种任务的视频,包括自动驾驶的任务  ——  往前走、往后退,形成对世界的三维空间认知,知道走近之后的视野会变成什么样、走远之后的视野会变成什么样。

而且  World Model  天然可以把机器人和自动驾驶的  world model  放在一块训,完全没有问题。数据格式是统一的,不像  VLA  的话,机器人的  pose (姿态)、 action  信息和汽车的方向盘转角、油门开度是完全不一样的。

所以  World Model  是一种更通用的对于空间推理的手段。特别是预测未来帧也好、预测未来的隐藏状态也好,它都是一种通用的、面向全模态所有本体的空间推理预训练的非常有效范式,真正能把所有数据源有效调动起来去训练一个  foundation  (基座)的手段。这一块我相信目前学术界和工业界给予了非常大关注,在大家努力下也会有很多  promising  (有前景的)的成果出来。

DeepTech 所以空间智能其实也抛弃不了语言的环节。

穆尧: 对,语言也很重要。自动驾驶里向左转、向右转是完全不一样的。

陈龙: 我觉得  World Model   VLA  解决的是不同的问题。像穆尧讲的,  World Model  是通过对下一帧图像或下一个状态的预测,学习到这个世界上的一些本质,比如这个车未来应该如何运动,通过学习预测的能力学习到一些世界本质上的物理规律。

VLA  更多的是学习到一些  high level  (高层级) 的人类规则,通过互联网上的文字训练学习到人类对这个世界的定义,包括人类的价值观,以及很强的通过文字的推理能力。

World Model  这个  low level (低层级)的预测能力和  VLA  这个  high level  文字推理的能力,本质不冲突,是可以互相结合的。现在也有很多研究在把这两个不同的能力给它结合起来,形成一个更好的模型,既能预测未来的图像,也有视觉语言的能力用语言做推理。我觉得最终肯定要把这两种能力融合。

DeepTech 目前讨论比较热烈,我感觉更多是语言模型因为只聚焦于语言,很难把世界模型加入进来。加入实践模型之后,这两个模型最终会路线收敛,有相互交叉、相互补齐。

十二、如何看待对  VLA  技术的质疑?

DeepTech 另外还有一个相对尖锐的问题。前段时间在世界机器人大会上,王兴兴比较质疑  VLA  技术。你们怎么看这个问题?

穆尧: 我觉得观点的不同主要是因为从不同的角度。从我们做研究的角度,  VLA 看到了很大的机会,所 以需要投入。但我相信所有  VLA  的研究者都会坦诚承认,目前达不到工业 四个九的要求。但它是不是 promising  的?我觉得是  promising  的。

王总的观点可能是因为他们做本体,要求非常严格的安全性、准确率、效率。宇树的机器人踹多少脚都不倒,可以做非常复杂的运动。我觉得本身技术就是我们在不同路线上去做,会有一个交汇点。  VLA  很多能力也是受限于本体,比如有些机械臂和灵巧手它就很笨拙,效率跟人是没办法比的。

我觉得也很好,大家努力的方向有从不断完善本体的易用度、可靠性、成本的,我们这边做  VLA  对大多数公司来说属于一个预研的项目。当两方技术逐渐交叠,整个具身智能是一个软硬件协同发展的系统。当软硬件真正发生碰撞在一起的时候,大家的看法都会改变,也都会有新的共识。

像现在来看有一些比较好的  demo ,像字节发出来的  VLA  能够去穿鞋带。这个在我当时读博士的时候,实验室还讨论过这个任务,当时我们认为谁要是能做一个这个,可以说是一个很惊动的话题。但现在已经被实现了,技术发展确实很快。

2024  年的时候,基本上人形机器人都是跌跌撞撞的,上个楼都费劲。现在其实已经起飞了,你看它做很多复杂的动作都可以做。  VLA  这一块,像叠衣服现在甚至都说是具身公司的一个 “MNIST (手写数字数据集) ”  ,就相当于图像识别里面最简单的数字,哪家都能叠衣服了。但  2024  年是不可想象的,那时候抓苹果都费劲。整整只过了一年,就是天翻地覆的变化。我觉得很快随着软硬件的交汇,我们会有一些更新的共识出来。

陈龙: 当一个技术刚兴起的时候,会有一个类似于新兴技术的曲线。刚开始大家把热度炒得特别高,会有很多 demo 出现。后来发现可能对它期待太高,没有实现人类的期待,这个技术又会跌到谷底。慢慢经过几年发展,才最终达到很好用的状态。

我是一个比较长期主义的人。现在  VLA  可能确实有很多问题,不管是效率还是幻觉问题,虽然它泛化性很好,但最终的成功率可能并没有达到人类的期待。但我觉得不应该因为它现在的问题来全盘否定这个技术,更多的是看到这个技术的潜力,包括它未来的发展方向。

我觉得  VLA  是现阶段最能实现物理世界  AGI  的一个框架。语言也是人类这么多年智慧结晶的体现,互联网上这么多数据融合了人类的很多智慧。最终语言肯定是智能的一个很大的模态,是必不可少的。  VLA  这个架构可能也是最终通往  AGI  必不可少的一个框架。虽然它的网络结构比如  transformer  可能并不是最终理想的架构,但语言这个模态我觉得肯定是一个终局。

不管是物理世界的  AGI  还是  AGI  ,我觉得都需要语言这个能力。所以不能因为  VLA  现在有很多问题来否定这项技术。而且  VLA  还有世界模型可能太容易理解了,现在有很多人利用自己对它的理解来做一些推演,来否定这项技术。还是应该真正务实一点,把  VLA  以及世界模型这些技术的底层技术做好,最终才能共同促进这些行业的发展。

DeepTech 因为这个技术原理在大众看来相对简单,但技术实现上是非常难的。或者说  tr a nsformer  的架构只要研究一段时间都能理解,但具体实现就很难。 VL 也是一样的,技术原理和逻辑相对简单,但每个人对这个技术的理解不一样,在发展过程中面临的问题的解决方案不一样,跨越某项技术鸿沟的难度和时间也不一样。随着技术发展,这些问题都能一步一步慢慢解决。

排版:olivia

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->
            <!-- 非定向300*250按钮  end -->
        </div>



Source link

未经允许不得转载:紫竹林-程序员中文网 » 十二个问题解剖VLA,深度对话小米陈龙、上交穆尧

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的