具身智能（Embodied Artificial Intelligence）或将引领人工智能下一波浪潮

AIGC行业资讯2年前 (2023)更新管理员

当前，具身智能（Embodied Artificial Intelligence）作为人工智能领域的一个分支，正在成为学术界和产业界备受关注的一个焦点。

所谓具身智能Embodied AI，指的是有身体并支持物理交互的智能体。英伟达（Nvidia）创始人兼CEO黄仁勋在ITF World 2023半导体大会上称，具身智能将引领下一波人工智能浪潮。在产业界，谷歌DeepMind推出首个控制机器人的视觉语言动作（VLA）模型RT-2；凭借ChatGPT取得巨大成功的OpenAI，曾经解散机器人团队，如今投资挪威机器人初创公司One X Technologies，推出名为Neo的新型人工智能机器人。

国内政策也在推进具身智能的发展。5月，北京市发布《北京市促进通用人工智能创新发展的若干措施》，提出探索通用智能体、具身智能和类脑智能等通用人工智能新路径，包括推动具身智能系统研究及应用，突破机器人在开放环境、泛化场景、连续任务等复杂条件下的感知、认知、决策技术。

01 什么是具身智能？

根据中国计算机学会专家的定义，具身智能（Embodied Artificial Intelligence）是指一种基于物理身体进行感知和行动的人工智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。

具身智能植根于认知科学“具身认知”的概念，该概念强调身体在主体的思想和认知能力的形成中发挥的重要作用，认为身体与周围环境之间的互动是发展认知能力的基础。具身视角带来了人工智能系统与物理世界交互的必要性。

机器人技术给了具身智能身体，因为相对于计算机定义输入，机器人可以与物理世界互动。机器人技术为人工智能系统提供了具有感官和运动能力的身体。通过集成摄像头、麦克风和触觉传感器等一系列传感器，配备轮子、电动关节、夹具等执行器，人工智能能够像人类一样依靠感官来感知世界，与环境进行交互和探索，实现具身智能体的“看”“说”“听”“动”等。

人工智能系统是具身智能的“头脑”。随着深度学习的不断进步，具身智能的“头脑”通常由深度神经网络模型驱动，尤其是随着大语言模型（LLM）的发展，结合视觉等多种传感器的复杂多模态模型，成为一大趋势。具有通用能力的LLM和VLM（视觉语言模型）等模型，赋予了强大的泛化能力，使得机器人从程序执行导向转向任务目标导向，不再受限于特定的程序执行，而能够根据任务目标智能地采取行动。从丰富的数据和任务中学习决策和控制，它们不断演化以适应更复杂的任务和环境。

具身智能的目标是让具有感知和行动能力的智能体（如机器人），在与环境的交互中持续演进，逐渐产生认知能力，能够理解、推理、学习、规划和决策，甚至具备常识和情感，从而实现更复杂的功能。

02 弥合数字AI与物理世界的距离

截至目前，人工智能取得了令人兴奋的进展，但仍存有一个尚未克服的基本限制——它仅限于数字领域。现有的多数人工智能系统纯粹以数字形式存在，没有“身体”，缺乏与物理世界的直接连接。这种局限性具体体现为以下几点：

缺乏实际存在

数字人工智能系统本质上是代码、算法和数据。虽然它擅长处理信息和解决数字领域的复杂问题，但它缺乏有意义的与现实世界交互所需的感官输入和物理存在。

环境意识有限

由于缺乏视觉、触觉或声音等感官体验，理解物理世界的复杂性对数字人工智能系统提出了挑战。因此，它很难有效地应对现实世界的情况。

情境理解

在物理世界中，上下文对于语义理解起着至关重要的作用。然而，主要依赖于数据和算法的数字人工智能系统在处理上下文方面经常遇到挑战。因此，它很难理解微妙的细节并根据态势感知做出明智的判断。

数据依赖性

数字人工智能严重依赖历史数据，这会降低其对不可预见情况的适应性。这种以数据为中心的方法可能会限制其在不断变化的现实环境中有效响应的能力。

具身智能通过创建与现实世界交互的人工智能系统，为这些限制提供了一个解决方案。可以说，具身智能弥合了数字AI与现实世界的距离。

03 具身智能：通用人工智能（AGI）新路径

ChatGPT虽然能生成符合人类逻辑的语句，但是它的原理是基于模型运算，会把大概率有用的字词留下，无用的字词撇去，而它对于自己生成的内容并不理解。

“ChatGPT和其他大型神经网络模型是人工智能领域令人兴奋的发展，这表明学习人类语言结构等真正困难的挑战是可以解决的。然而，如果继续使用相同的方法进行设计，这些类型的人工智能系统不太可能发展到可以完全像人脑一样思考的程度。”谢菲尔德大学认知机器人学教授托尼·普雷斯科特（Tony Prescot）明确表示。

在《科学机器人（Science Robotics）》杂志上发表的一篇论文中，普雷斯科特和斯图尔特·威尔逊博士提出，模拟生物智能（例如人脑），将人工智能融入机器人中，使它们能够与周围的世界互动并像人脑一样进化，这是人工智能获得类人认知的最有可能的方式。

通用人工智能AGI是“智能代理理解或学习人类可以完成的任何智力任务的能力”，是人工智能领域的长期目标之一。具身智能越来越被视为实现AGI的可行路径。

斯坦福大学以人为本人工智能研究院（HAI）的李飞飞团队，2021年在《自然通讯》上发表《通过学习和进化实现具身智能（Embodied Intelligence via Learning and Evolution）》，在研究中创造了简单的虚拟节肢动物“Unimal”，并将它们放置在模拟的游乐场中，来研究它们的学习和发展能力。实验结果表明，具身化对智能进化的重要性：身体形态会影响虚拟生物在复杂环境的适应和学习能力，复杂环境也会促进虚拟生物形态和智能上的进化。

当被问及“人工智能发展下去能不能成为与人类相似的独立智能行为者？”时，清华大学电子工程系教授李星提出了类人的人工智能形成的两个要素：实体化和繁殖能力，实体化是首要要素。“人工智能必须实现实体化并具备主体性。类似于人类需对自己的行为负责，人工智能也需要一个独立实体来承担责任。这种实体化并不仅仅是给人工智能一个外形，还要建立人工智能思考和推理机制与实体之间的紧密联系，类似于人的身体与头脑之间的联系。”

上海交大教授卢策吾认为，相对于非具身而言，具身智能具有可达性、可检验性、可解释性，基本要素可测量，可用任务检验，可通过具身学习推断概念，“可能是迈向通用人工智能的一个很好的起点”。

Google DeepMind机器人和机器学习工程师基尔萨娜·戈帕拉克里希南（PG Keerthana Gopalakrishnan）明确称对于AGI来说，具身实体是绝对不可缺少的。

04 具身智能的发展成果

大多数具身智能都集中在机器人训练和自动驾驶汽车技术上，自动驾驶车辆需要在物理空间中行动，并根据它们所看到的东西做出可能的判断。具身智能在各种现实世界场景中证明了其有效性，一些关键的实际应用包括自动驾驶汽车、制造和组装、卫生保健、搜寻及救援、太空探索、动力外骨骼等。

近期具身智能领域的创新进一步凸显了其潜力，以下是一些显著的成果：

Google Deepmind发布了机器人模型RT-2（Robotic Transformer 2），是一个全新的视觉一语言一动作（VLA）模型，可以从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令，它具有很强的泛化能力，可以对机器人数据中从未见过的物体或场景执行操作任务。

具身智能（Embodied Artificial Intelligence）或将引领人工智能下一波浪潮

Meta推出了VC-1和ASC。VC-1是一种人工视觉皮层，其灵感源自人类视觉皮层将视觉转化为行动的能力。VC-1使用日常任务视频进行训练，在虚拟环境中的17项感觉运动任务中表现出色，超越了其前辈。自适应性技能协调（ASC）是一种通过协调和调整学习的视觉运动技能来完成机器人移动操作任务的方法。令人印象深刻的是，ASC在现实环境中涉及机器人移动和操纵的复杂任务中取得了98%的成功率。

麻省理工学院和斯坦福大学的研究人员设计了一种新的机器学习方法，可用于在条件快速变化的动态环境中更有效地控制机器人，例如无人机或自动驾驶汽车。将控制理论与机器学习相结合，使这些机器人无需单独的指令即可学习如何移动，并且可以用更少的数据获得更好的性能。

麻省理工学院和其他地方的研究人员开发了一种技术，使人类能够有效地微调未能完成所需任务（例如拿起一个独特的杯子）的机器人，简化了机器人教学过程。当机器人遇到故障时，系统会生成反事实解释，例如建议可能导致成功的替代行动。

用户提供有关机器人失败原因的反馈，系统利用该反馈来提高机器人的性能。这种方法显著减少了教授机器人新任务所需的时间和精力，使其成为帮助老年人或残疾人的通用机器人的理想选择。

斯坦福大学李飞飞团队发布VoxPoser系统，将大模型接入机器人，把复杂指令转化成具体行动规划，人类可以很随意地用自然语言给机器人下达指令。更重要的是，通过结合大语言模型（LLM）和视觉语言模型（VLM），构建3D值地图，可以让机器人在零样本学习的情况下，理解指令，分解任务，规划路径，并最终实现操作任务。在该方法下进行机器人操控时，不需要做数据投喂和预训练。

具身智能具有强大的产业潜力。2023世界机器人大会上，2000年图灵奖获得者、中国科学院院士、清华大学交叉信息研究院院长姚期智在谈及机器人发展时表示：未来的AGI需要有具身的实体，同真实的物理世界相交互来完成各种任务，这样才能给产业带来真正更大的价值。

达成具身智能还有很多问题要克服。姚期智指出，具身智能目前遇到的四大主要挑战：第一，机器人不能够像大语言模型一样有一个基础大模型直接一步到位，做到最底层的控制；第二，计算能力的挑战。哪怕谷歌研发的Robotics Transformer模型，要做到机器人控制，距离实际需要的控制水平仍有许多事情要做；第三，如何把机器人多模态的感官感知全部融合起来，仍面临诸多难题需要解决；第四，机器人的发展需要收集很多数据，其中也面临很多安全隐私等方面的问题。

具身智能虽然面临众多挑战，但是其潜力不可估量。克服这些问题将可能通往通用人工智能（AGI），并且产生巨大的产业价值。我们正站在一个令人兴奋的时刻，具身智能领域的不断创新和突破，将会把智能引向新的高度，推动科技不断迈向未来，为人类社会带来更广泛、更深远的变革。