“缸中之脑”的突围，为什么AI需要一个身体？

来源：光明网2026-06-05 13:49

有人曾向最先进的语言模型发出一个请求：“帮我把桌上那杯茶端过来。”

模型的回答洋洋洒洒，关于如何端茶的步骤分析得头头是道。但它没有手，没有眼睛，没有身体。那杯茶，一厘米都不会移动。

这个荒诞的场景，揭示了传统人工智能一个无法回避的根本局限。

悬空的智慧

哲学上有一个著名的思想实验，叫作“缸中之脑”（Brain in a Vat）：假设一个大脑被切除后放进盛有营养液的容器，由计算机给它发送各种感官信号——光线、声音、触感。这颗大脑以为自己仍然活在真实世界，但它的一切认知都来自外部输入的数据，与物理现实彻底隔绝。

传统AI，就是这样一颗“缸中之脑”。

它没有真实的物理实体，无法介入现实空间；它感受不到触碰的温度，不知道物体的重量；它对世界的认知，完全依赖人类输入的文字、像素图像或视频。纵然算力滔天，能作诗写码，它也建立不起真正的物理常识——永远无法在现实中稳稳端起一杯热茶。

能力再强，也只是悬空的智慧。

什么是具身智能

要让AI走出“缸”，就需要给它一个身体，或者更准确地说，一个能与物理世界交互的载体。这便是具身智能（Embodied AI）的核心理念。

“缸中之脑”的突围，为什么AI需要一个身体？

具身智能是指一种基于物理载体进行感知和行动的智能系统。它通过智能体与环境的持续交互来获取信息、理解问题、做出决策，并将决策转化为行动，从而产生智能行为和适应性。

与传统AI最根本的区别在于：具身智能强调，智能行为是通过身体与环境的直接相互作用产生的，而不仅仅是大脑内部的计算过程。

一个安装了大模型的机器人，能够识别地面上的障碍物并规划绕行路径，伸手拾起一个苹果，并根据手指感受到的压力实时调整握力。这一系列行为中的每一步，都需要感知、理解、决策、行动的实时闭环，而这种“手脑协同”的实时物理互动，正是具身智能的本质所在。

三要素：环境、本体、智能

理解具身智能，需要把握它的三个核心要素：

第一是环境。具身智能体必须能够与外部环境交互。这个环境可以是复杂的物理空间（如家庭、工厂、医院），也可以是高保真度的虚拟仿真平台，甚至是人机协作的混合场景。

第二是本体。具身智能必须拥有物理实体。这个实体不一定是人形机器人，一辆无人驾驶汽车、一台配备机械臂的扫地机器人、一架自主飞行的无人机，都可以是具身智能的本体。本体的作用，是感知环境信息，并最终将决策转化为真实的物理动作。

“缸中之脑”的突围，为什么AI需要一个身体？

多形态的“具身”载体

第三是智能。这是具身指引最核心的要素。它通常依托大语言模型（LLM）或视觉-语言-动作模型（VLA），赋予本体大小脑协同的能力：能让机器以“第一人称”主动进行感知、理解、推理和规划，并将思维转化为行动，自主完成复杂任务。

一个重要的澄清

在关于具身智能的讨论中，有一个常见的概念误区需要澄清：具身智能不等于人形机器人。

“本体”可以是任何物理实体。正在工厂里精准执行焊接任务的机械臂，在仓库中自主规划路径、搬运货物的轮式机器人，在复杂地形中穿越的四足机器狗，这些都是具身智能的表现形式。形态不是关键，关键在于智能是否真正嵌入了物理交互的过程中。

当然，人形机器人因其接近人类的形态，能够天然适应人类已经建造好的物理世界（如楼梯、门把手、工具），在服务业、医疗和人机协作领域具有独特优势，也因此成为具身智能目前最受关注、最具想象空间的终极形态。

由“虚”入“实”

具身智能不是凭空而来。它建立在大模型技术积累的基础上，是AI从数字空间向物理空间延伸的必然方向。

大语言模型解决了“理解”的问题——理解语言、理解图像、理解指令；而具身智能要解决的是“行动”的问题——把理解转化为与物理世界的真实互动。

“缸中之脑”的突围，为什么AI需要一个身体？

这个转化的过程，依赖一系列关键技术：能感受光线、测量距离的3D视觉传感器，能感知力量和形变的触觉传感器，能维持姿态平衡的惯性传感器，以及将多种传感信号融合为完整环境认知的多模态算法。正是这些技术，让AI拥有了不只是“想”而且能“做”的能力。

从“缸中之脑”到真正拥有身体的智能体，人工智能正在走出它最深刻的局限，迈向与物理世界的真实相遇。

本文系浙江大学教授、博士生导师、浙江大学具身智能感知与控制实验室（ZEAL Lab）负责人、中国仪器仪表学会科普专家、浙江省仪器仪表学会监事长侯迪波在“智感世界·仪创未来”系列科普直播之从感知到控制：读懂具身智能新科技的主题分享，光明网记者肖春芳整理

[ 责编：张梦凡 ]

阅读剩余全文（）

您此时的心情

新闻表情排行日/周