从开车说起，看懂具身智能的行动闭环进化

来源：光明网2026-06-05 13:49

一名经验丰富的司机上路，不需要一秒一秒地思考“现在踩刹车还是踩油门”——路口转弯的动作，早已变成了肌肉记忆，流畅而自然。但遇到陌生路况，他会立即放慢速度，用大脑仔细判断、权衡后再做决策。

快速的本能反应（快系统），与缓慢的深度思考（慢系统），两套系统并行运转的机制，让人类能够既灵活又稳定地行动于世界。

从开车说起，看懂具身智能的行动闭环进化

如今，具身智能机器人也在走向同样的架构。

感知－决策－行动：一个动态闭环

具身智能的行动逻辑，可以归纳为三个环节的持续循环：

感知：通过各种传感器获取环境信息与自身状态信息，建立对当前物理世界的理解。

决策与规划：基于感知结果，进行逻辑推理和路径规划，决定下一步做什么、怎么做。

行动：将决策指令转化为电机驱动和执行机构的具体动作，作用于物理世界，改变环境状态。

环境状态的改变又会产生新的感知输入，驱动下一轮循环。这个动态闭环，是具身智能一切行为的基础。

无人驾驶：从“流水线”到“黑箱”

无人驾驶，是这套闭环逻辑最典型的大规模应用之一，也是感知－决策－行动技术演进最清晰的观察窗口。

早期阶段：模块化流水线

传统自动驾驶采用模块化设计架构，将感知、预测、规划和控制等任务严格拆分：传感器采集数据→感知模块识别障碍物和车道→定位模块确定位置坐标→规划模块计算路径→控制模块操控刹车和方向盘。

每个模块各司其职，逻辑清晰，便于工程师分别优化。但这种流水线结构也有明显短板：模块间的信息传递存在延迟，各模块单独优化不代表整体最优，且面对未训练过的新场景路况时，系统极易整体失效。

从开车说起，看懂具身智能的行动闭环进化

新阶段：端到端大模型

随着大模型技术的成熟，研究者开始尝试一种截然不同的方案——端到端（E2E）驾驶模型。

所谓“端到端”，是指从传感器输入（一端），直接映射到控制指令输出（另一端），中间是一个整体训练的神经网络，不再人为切分模块。数据喂进去，驾驶指令直接出来，中间如何运作，不做预设干预。

这种方案通过对海量真实驾驶数据的大规模训练，实现了感知、预测、规划、控制的联合优化，在复杂路况下也能灵活操控。

再进一步：加入“副驾驶”

端到端模型仍有弱点，它能学会驾驶动作，但听不懂语言、缺乏高级推理能力，难以理解人类的指令、路边的指示牌、道路施工提示或交通规则背后的逻辑。

于是，研究者引入了视觉语言大模型（VLM）作为“副驾驶”或“认知皮层”：它能看懂图像、理解语义，将视觉信息转化为文字，帮助自动驾驶系统“读懂”路面上的语义信息，及时进行提醒，同时也让系统具备了一定的可解释性。

VLA：视觉－语言－动作的完整闭环

更进一步，视觉语言动作模型（VLA，Vision-Language-Action）应运而生，成为具身智能领域的核心架构。

从开车说起，看懂具身智能的行动闭环进化

VLA将视觉、语言和动作三种能力整合为一体：它能看（处理视觉输入），能理解（处理语言指令），能行动（输出控制动作）。从多模态感知输入，到大模型内部推理，到行动指令解码，形成完整的感知－决策－行动闭环。

这一闭环不局限于无人驾驶：机器人听到“把桌上的草莓放到我手心里”的指令，能够看清目标物体，规划抓取路径，控制手指精准夹取并移动，整个过程依托同一套VLA模型完成。

快慢双系统：像人一样思考与反应

如何让这套闭环既有速度，又有深度？英伟达提出的GR00T通用基础模型给出了一种有启发性的解答：快慢双系统架构。

快系统（System 1）：是一个基于扩散模型（Diffusion Transformer）的控制网络，负责将慢系统的规划高速转化为流畅的、高频的实时动作——对应人的小脑和肌肉反射，负责快速执行。

慢系统（System 2）：是一个视觉语言大模型（VLM）。它负责理解环境、接受语言指令、进行高层推理和任务规划，预测未来的行为轨迹——对应人的大脑皮层，负责思考。

两套系统协同运作：慢系统想清楚要做什么，快系统迅速落实动作。正是这种“大脑－小脑－肌肉”的分工，让机器人既能处理需要推理的复杂任务，又能以接近人类的流畅度完成精细操作。

未来已来，但路还长

从模块化流水线，到端到端大模型，再到VLA与快慢双系统，这条演进路径清晰地展示了具身智能感知－决策－行动闭环的技术发展轨迹。

今天，相关技术已经开始逐步落地应用，在工厂里精准作业的机械臂、在道路上自主行驶的无人驾驶汽车、在实验室中学习操作的人形机器人，都是这套闭环架构的具体落地。它让机器人不只是死板地执行模式匹配，而是真正理解并介入我们所生活的、复杂而真实物理世界。

本文系浙江大学教授、博士生导师、浙江大学具身智能感知与控制实验室（ZEAL Lab）负责人、中国仪器仪表学会科普专家、浙江省仪器仪表学会监事长侯迪波在“智感世界·仪创未来”系列科普直播之从感知到控制：读懂具身智能新科技的主题分享，光明网记者肖春芳整理

[ 责编：张梦凡 ]

阅读剩余全文（）

您此时的心情

新闻表情排行日/周

开心

0
难过

0
点赞

0
飘过

0

视觉焦点

甘肃渭源突发山洪已致10人死亡
福建长汀中复村：红色热土绘新卷

全部导航

从开车说起，看懂具身智能的行动闭环进化

相关阅读

您此时的心情

视觉焦点

最热文章

独家策划