点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

一名经验丰富的司机上路,不需要一秒一秒地思考“现在踩刹车还是踩油门”——路口转弯的动作,早已变成了肌肉记忆,流畅而自然。但遇到陌生路况,他会立即放慢速度,用大脑仔细判断、权衡后再做决策。
快速的本能反应(快系统),与缓慢的深度思考(慢系统),两套系统并行运转的机制,让人类能够既灵活又稳定地行动于世界。
如今,具身智能机器人也在走向同样的架构。
感知-决策-行动:一个动态闭环
具身智能的行动逻辑,可以归纳为三个环节的持续循环:
感知:通过各种传感器获取环境信息与自身状态信息,建立对当前物理世界的理解。
决策与规划:基于感知结果,进行逻辑推理和路径规划,决定下一步做什么、怎么做。
行动:将决策指令转化为电机驱动和执行机构的具体动作,作用于物理世界,改变环境状态。
环境状态的改变又会产生新的感知输入,驱动下一轮循环。这个动态闭环,是具身智能一切行为的基础。
无人驾驶:从“流水线”到“黑箱”
无人驾驶,是这套闭环逻辑最典型的大规模应用之一,也是感知-决策-行动技术演进最清晰的观察窗口。
早期阶段:模块化流水线
传统自动驾驶采用模块化设计架构,将感知、预测、规划和控制等任务严格拆分:传感器采集数据→感知模块识别障碍物和车道→定位模块确定位置坐标→规划模块计算路径→控制模块操控刹车和方向盘。
每个模块各司其职,逻辑清晰,便于工程师分别优化。但这种流水线结构也有明显短板:模块间的信息传递存在延迟,各模块单独优化不代表整体最优,且面对未训练过的新场景路况时,系统极易整体失效。
新阶段:端到端大模型
随着大模型技术的成熟,研究者开始尝试一种截然不同的方案——端到端(E2E)驾驶模型。
所谓“端到端”,是指从传感器输入(一端),直接映射到控制指令输出(另一端),中间是一个整体训练的神经网络,不再人为切分模块。数据喂进去,驾驶指令直接出来,中间如何运作,不做预设干预。
这种方案通过对海量真实驾驶数据的大规模训练,实现了感知、预测、规划、控制的联合优化,在复杂路况下也能灵活操控。
再进一步:加入“副驾驶”
端到端模型仍有弱点,它能学会驾驶动作,但听不懂语言、缺乏高级推理能力,难以理解人类的指令、路边的指示牌、道路施工提示或交通规则背后的逻辑。
于是,研究者引入了视觉语言大模型(VLM)作为“副驾驶”或“认知皮层”:它能看懂图像、理解语义,将视觉信息转化为文字,帮助自动驾驶系统“读懂”路面上的语义信息,及时进行提醒,同时也让系统具备了一定的可解释性。
VLA:视觉-语言-动作的完整闭环
更进一步,视觉语言动作模型(VLA,Vision-Language-Action)应运而生,成为具身智能领域的核心架构。
VLA将视觉、语言和动作三种能力整合为一体:它能看(处理视觉输入),能理解(处理语言指令),能行动(输出控制动作)。从多模态感知输入,到大模型内部推理,到行动指令解码,形成完整的感知-决策-行动闭环。
这一闭环不局限于无人驾驶:机器人听到“把桌上的草莓放到我手心里”的指令,能够看清目标物体,规划抓取路径,控制手指精准夹取并移动,整个过程依托同一套VLA模型完成。
快慢双系统:像人一样思考与反应
如何让这套闭环既有速度,又有深度?英伟达提出的GR00T通用基础模型给出了一种有启发性的解答:快慢双系统架构。
快系统(System 1):是一个基于扩散模型(Diffusion Transformer)的控制网络,负责将慢系统的规划高速转化为流畅的、高频的实时动作——对应人的小脑和肌肉反射,负责快速执行。
慢系统(System 2):是一个视觉语言大模型(VLM)。它负责理解环境、接受语言指令、进行高层推理和任务规划,预测未来的行为轨迹——对应人的大脑皮层,负责思考。
两套系统协同运作:慢系统想清楚要做什么,快系统迅速落实动作。正是这种“大脑-小脑-肌肉”的分工,让机器人既能处理需要推理的复杂任务,又能以接近人类的流畅度完成精细操作。
未来已来,但路还长
从模块化流水线,到端到端大模型,再到VLA与快慢双系统,这条演进路径清晰地展示了具身智能感知-决策-行动闭环的技术发展轨迹。
今天,相关技术已经开始逐步落地应用,在工厂里精准作业的机械臂、在道路上自主行驶的无人驾驶汽车、在实验室中学习操作的人形机器人,都是这套闭环架构的具体落地。它让机器人不只是死板地执行模式匹配,而是真正理解并介入我们所生活的、复杂而真实物理世界。
本文系浙江大学教授、博士生导师、浙江大学具身智能感知与控制实验室(ZEAL Lab)负责人、中国仪器仪表学会科普专家、浙江省仪器仪表学会监事长侯迪波在“智感世界·仪创未来”系列科普直播之从感知到控制:读懂具身智能新科技的主题分享,光明网记者肖春芳整理
