点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

有人曾向最先进的语言模型发出一个请求:“帮我把桌上那杯茶端过来。”
模型的回答洋洋洒洒,关于如何端茶的步骤分析得头头是道。但它没有手,没有眼睛,没有身体。那杯茶,一厘米都不会移动。
这个荒诞的场景,揭示了传统人工智能一个无法回避的根本局限。
悬空的智慧
哲学上有一个著名的思想实验,叫作“缸中之脑”(Brain in a Vat):假设一个大脑被切除后放进盛有营养液的容器,由计算机给它发送各种感官信号——光线、声音、触感。这颗大脑以为自己仍然活在真实世界,但它的一切认知都来自外部输入的数据,与物理现实彻底隔绝。
传统AI,就是这样一颗“缸中之脑”。
它没有真实的物理实体,无法介入现实空间;它感受不到触碰的温度,不知道物体的重量;它对世界的认知,完全依赖人类输入的文字、像素图像或视频。纵然算力滔天,能作诗写码,它也建立不起真正的物理常识——永远无法在现实中稳稳端起一杯热茶。
能力再强,也只是悬空的智慧。
什么是具身智能
要让AI走出“缸”,就需要给它一个身体,或者更准确地说,一个能与物理世界交互的载体。这便是具身智能(Embodied AI)的核心理念。
具身智能是指一种基于物理载体进行感知和行动的智能系统。它通过智能体与环境的持续交互来获取信息、理解问题、做出决策,并将决策转化为行动,从而产生智能行为和适应性。
与传统AI最根本的区别在于:具身智能强调,智能行为是通过身体与环境的直接相互作用产生的,而不仅仅是大脑内部的计算过程。
一个安装了大模型的机器人,能够识别地面上的障碍物并规划绕行路径,伸手拾起一个苹果,并根据手指感受到的压力实时调整握力。这一系列行为中的每一步,都需要感知、理解、决策、行动的实时闭环,而这种“手脑协同”的实时物理互动,正是具身智能的本质所在。
三要素:环境、本体、智能
理解具身智能,需要把握它的三个核心要素:
第一是环境。具身智能体必须能够与外部环境交互。这个环境可以是复杂的物理空间(如家庭、工厂、医院),也可以是高保真度的虚拟仿真平台,甚至是人机协作的混合场景。
第二是本体。具身智能必须拥有物理实体。这个实体不一定是人形机器人,一辆无人驾驶汽车、一台配备机械臂的扫地机器人、一架自主飞行的无人机,都可以是具身智能的本体。本体的作用,是感知环境信息,并最终将决策转化为真实的物理动作。
多形态的“具身”载体
第三是智能。这是具身指引最核心的要素。它通常依托大语言模型(LLM)或视觉-语言-动作模型(VLA),赋予本体大小脑协同的能力:能让机器以“第一人称”主动进行感知、理解、推理和规划,并将思维转化为行动,自主完成复杂任务。
一个重要的澄清
在关于具身智能的讨论中,有一个常见的概念误区需要澄清:具身智能不等于人形机器人。
“本体”可以是任何物理实体。正在工厂里精准执行焊接任务的机械臂,在仓库中自主规划路径、搬运货物的轮式机器人,在复杂地形中穿越的四足机器狗,这些都是具身智能的表现形式。形态不是关键,关键在于智能是否真正嵌入了物理交互的过程中。
当然,人形机器人因其接近人类的形态,能够天然适应人类已经建造好的物理世界(如楼梯、门把手、工具),在服务业、医疗和人机协作领域具有独特优势,也因此成为具身智能目前最受关注、最具想象空间的终极形态。
由“虚”入“实”
具身智能不是凭空而来。它建立在大模型技术积累的基础上,是AI从数字空间向物理空间延伸的必然方向。
大语言模型解决了“理解”的问题——理解语言、理解图像、理解指令;而具身智能要解决的是“行动”的问题——把理解转化为与物理世界的真实互动。
这个转化的过程,依赖一系列关键技术:能感受光线、测量距离的3D视觉传感器,能感知力量和形变的触觉传感器,能维持姿态平衡的惯性传感器,以及将多种传感信号融合为完整环境认知的多模态算法。正是这些技术,让AI拥有了不只是“想”而且能“做”的能力。
从“缸中之脑”到真正拥有身体的智能体,人工智能正在走出它最深刻的局限,迈向与物理世界的真实相遇。
本文系浙江大学教授、博士生导师、浙江大学具身智能感知与控制实验室(ZEAL Lab)负责人、中国仪器仪表学会科普专家、浙江省仪器仪表学会监事长侯迪波在“智感世界·仪创未来”系列科普直播之从感知到控制:读懂具身智能新科技的主题分享,光明网记者肖春芳整理
