具身认知

具身认知（Embodied Cognition），从最初的哲学思辨，随着心理学的不断思考，正逐渐转向实证研究，并影响了人工智能的演进。

（题图来自 Jelle van Dijk）
摘自：具身认知学习笔记（20220227）

具身智能

什么是具身智能

具身智能是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性

等价的定义

Embodied AI = Embodied Intelligence = 具象AI = 具身智能
Internet AI = Disembodied AI = 非具身智能

像人一样能与环境交互感知、自主规划、决策、行动、执行能力的机器人/仿真人（指虚拟环境中）是AI的终极形态，暂且称之为“具身智能机器人”。

具身智能的实现包含了人工智能领域内诸多的技术，例如：计算机视觉、自然语言处理、机器人学等。

李飞飞：

“具身的含义不是身体本身，而是与环境交互以及在环境中做事的整体需求和功能。”

结合李飞飞和上海交大卢策吾的说法，具身指的不仅仅是具有物理身体，而且是具有与人一样的身体体验能力。如图中的猫一样，主动猫是具身的智能，它可以在环境中自由行动，从而学习行走的能力。被动猫只能被动的观察世界，最终失去了行走能力。

图源：上海交通大学教授卢策吾在机器之心 AI 科技年会上，发表的主题演讲《具身智能》

基础概念

【2023-10-25】具身智能 (Embodied AI)概述

概念

具身（Embodiment)：指具有支持感觉和运动（sensorimotor）的物理身体。
具身的（Embodied）：具有身体的，可参与交互、感知的。
具身智能(Embodied AI)：有身体并支持物理交互的智能体，如家用服务机器人、无人车等。 —— “身体力行”
非具身智能（Disembodied AI）：没有物理身体，只能被动接受人类采集、制作好的数据。—— “纸上谈兵”或者说 “运筹帷幄”
具身智能机器人：满足具身智能的能力的机器人。
具身任务：像人类一样通过观察、移动、说话和与世界互动从而完成的一系列任务。
多模态：是指一个模型或系统能够处理多种不同类型的输入数据并融合它们生成输出。这些数据类型可能包括文本、图像、音频和视频等。
主动交互：机器人或智能体与环境的实时交互，从而提高智能体的学习、交流和应对问题的能力。

给AI模型喂的数据，是人类整理，打过标签的，将其定义为 Internet AI，与Embodied AI相对应。

Internet AI（Disembodied AI）和Embodied AI的辨析

旁观型标签学习方式 v.s. 实践性概念学习方法

Internet AI从互联网收集到的图像、视频或文本数据集中学习，这些数据集往往制作精良，其与真实世界脱节、难以泛化和迁移。
- 1）数据到标签的映射。
- 2）无法在真实世界进行体验学习。
- 3）无法在真实世界做出影响。
Embodied AI通过与环境的互动，虽然以第一视角得到的数据不够稳定，但这种类似于人类的自我中心感知中学习，从而从视觉、语言和推理到一个人工具象（Artificial Embodiment），可以帮助解决更多真实问题。

1950年，图灵在他的论文 ——《Computing Machinery and Intelligence》中首次提出了具身智能的概念。在之后的几十年里，大家都觉得这是一个很重要的概念，但具身智能并没有取得很大的进展，因为当时的技术还不足以支撑其发展。

We may hope that machines will eventually compete with men in all purely intellectual fields. But which are the best ones to start with? Even this is a difficult decision. Many people think that a very abstract activity, like the playing of chess, would be best. It can also be maintained that it is best to provide the machine with the best sense organs that money can buy, and then teach it to understand and speak English. This process could follow the normal teaching of a child. Things would be pointed out and named, etc. Again I do not know what the right answer is, but I think both approaches should be tried. ——Alan Turing

上面图灵所说的下围棋和使机器具备感官、能说英语、能学习就分别代表了非具身智能和具身智能，而两种智能形态的此消彼长也贯穿了人工智能研究这跌宕起伏的七十年。

“非具身智能聚焦于智能中表征与计算的部分。早在符号主义大行其是的六七十年代，非具身智能就占据了绝对的优势。不需要物理交互、不考虑具体形态、专注抽象算法的开发这一系列有利条件使得非具身智能得以迅速地发展。今天在算力和数据的支持下，深度学习这一强有力的工具大大推进了人工智能研究，非具身智能已经如图灵所愿、近乎完美地解决了下棋、预测蛋白质结构等抽象的独立任务。互联网上充沛的图片和语义标注也使得一系列视觉问题取得了突出的成果。

然而这样的智能显然是有局限的。非具身智能没有自己的眼睛，因此只能被动地接受人类已经采集好的数据。非具身智能没有自己的四肢等执行器官，无法执行任何物理任务，也缺乏相关的任务经验。即使是可以辨识万物的视觉大模型也不知道如何倒一杯水，而缺乏身体力行的过程，使得非具身智能体永远也无法理解事物在物理交互中真实的意义。

相比而言，具身智能具有支持感觉和运动的物理身体，可以进行主动式感知，也可以执行物理任务，没有非具身智能的诸多局限性。更重要的是，具身智能强调“感知—行动回路”（perception-action loop）的重要性，即感受世界、对世界进行建模、进而采取行动、进行验证并调整模型的过程。这一过程正是“纸上得来终觉浅，绝知此事要躬行”，与我们人类的学习和认知过程一致。

符号主义带来的人工智能寒冬中，很多学者开始反思符号主义，MIT 的 Rodney Brooks 等人抨击了非具身智能主张的先思考再做事的发展路径。Rodney Brooks 认为智能是在与环境的交互作用中表现出来的，因此是行为产生了智能。其基本观点是让机器人到环境中去，进行物理交互，从而积累和发展初级的智能。他因此将研究的重心放在了具身智能，研究如何让机器人移动和适应环境，于 1986年诞生了第一个基于感知行为模式的轮式机器人。该机器人不需要中枢控制，实现了避让、前进和平衡等功能。Rodney Brooks 也成为了人工智能和机器人学中行为主义的代表性人物。今天对如何发展真正的智能仍然是一个开放的问题，而具身智能作为符合人类认知规律的一种发展途径也受到了广泛的讨论。

除了在路线层面的探讨外，当下具身智能的重点放在了机器人如何智能地执行物理任务上，如发展无人车、家用服务机器人等等。这些任务在现实世界中有着广泛的需求，为具身智能的发展起到了重要的助推作用。

除了工业界的大力推动，在学术上具身智能也是大放异彩。围绕着具身智能，众多学科领域各显其能：

机器人学为具身智能提供了机械的身体和基本的运动控制；

深度学习中的神经网络仍然是具身智能中主要的工具；

基于试错的强化学习成为了具身智能中机器人技能的一种主要学习手段；

计算机视觉给具身智能提供了处理视觉信号的能力；

计算机图形学开发的物理仿真环境给具身智能提供了真实物理世界的替代，大大加快了学习的速度并降低了成本；

自然语言给具身智能带来了与人类交流、从自然文本中学习的可能；

认知科学进一步帮助具身智能体理解人类、构建认知和价值。”

这些领域分别对应了具身智能所需要的能力模块：

总的来说，具身智能机器人：首先，要能够听懂人类语言，然后，分解任务，规划子任务，移动中识别物体，与环境交互，最终完成相应任务。理想很丰满，现实中的机器人止步于“听懂人类语言”，人们依然严重依赖手写代码来实现对机器人的控制。很明显，人-机器人交互是首当其冲的问题。

英伟达机器人研究高级主管、华盛顿大学教授 Dieter Fox : 机器人研究的一个关键目标是构建在现实世界中对人类有帮助的机器人。但要做到这一点，它们必须首先接触并学习如何与人类交互。

发展历史

时间线：

2015年，伊尔亚·苏茨克维（Ilya Sutskeve）离开谷歌参与创办了OpenAI。
2017年，谷歌AlaphaGo（2014年启动研究计划）先后击败世界排名第二、第一的李在石、柯洁。
2017年，A股科大讯飞（语音处理、自然语言处理）实现了122%的涨幅，值得一提的是，在近期ChatGPT等大语言模型引起的新一轮AI浪潮下，科大讯飞已经从去年底（22年11月28日）的30元涨到65元（2023年4月7日）。
2017.10 海康威视成为深市最大市值公司（图像处理），代表事件：抓到张学友演唱会逃犯。
2018年，亚马逊Alexa语音助手开始大卖，Lennar Corporation将Alexa配套加入建造的35,000套新房屋中。
2022年11月，OpenAI发布ChatGPT，两个月后，月活用户突破1亿，是史上用户增长速度最快的消费级应用程序。

具身智能已经成为国际学术前沿研究方向，包括美国国家科学基金会在内的机构都在推动具身智能的发展，今年的 IROS将具身智能作为一个很重要的主题提了出来，谷歌公司 Everyday Robot 的SayCan已经将机器人和对话模型结合到一起[6]，能够让机器人在大型语言模型的帮助下，完成一个包含 16 个步骤的长任务。UC 伯克利的 LM Nav 用三个大模型（视觉导航模型 ViNG、大型语言模型 GPT-3、视觉语言模型 CLIP）教会了机器人在不看地图的情况下按照语言指令到达目的地

智能体（可以是生物或机械），通过与环境产生交互后，通过自身的学习，产生对于客观世界的理解和改造能力。

具身智能假设: 智能行为可以被具有对应形态的智能体通过适应环境的方式学习到。因此，地球上所有的生物，都可以说是具身智能。
具身智能是提升当前的“弱人工智能”认知能力的重要方式。人工智能可以通过与环境交互的渠道，从真实的物理或虚拟的数字空间中学习和进步。同时，具身智能是产生超级人工智能的一条可能路径。
“具身”（Embodiment）首先是一个心理学概念，具身的基本含义是认知对身体的依赖性，即身体对于认知具有影响。具身还分为“弱具身”和“强具身”
- 弱具身认为：认知依赖于身体，但保留了认知自身的计算和表征功能
- 强具身则主张：“认知是被身体作用于世界的活动所塑造出来的，身体的特殊细节早就了认知的特殊性。”
具身的性质和特征可以表现在四个方面：
1. 身体参与了认知，影响了思维、判断、态度、情绪等心智过程；
2. 对于客观的认知依赖于身体作用于世界的活动；
3. 意义源于身体——有着身体的“感觉——运动系统”的基础；
4. 身体的不同特征倾向，造就了不同的思维和认识方式。
“具身”相对的概念是“离身”（Disembodiment），指的是认知与身体解耦。
具身智能是产生超级人工智能的一条路径。
- 未来3年，基于虚拟世界、实时时空环境训练的具身模型会取得较大的发展，如自动驾驶、机器人、游戏中数字人等······
- 未来5~10年，超大规模预训练模型（信息模型）和具身模型将会结合，成为‘数字超人’，在知识能力以及跟环境的互动程度上，将比以往的人类都要强······
- 具身模型和机器人也将结合，在物理世界出现能力比人类还要强的无人系统，即‘具身超人’。
  - 乐观估计，在未来30年，数字超人和具身超人可能会结合，最终诞生超级人工智能。
- —— 摘自《智源人工智能前沿报告》，p21
参考：每日AI前沿术语：具身智能（Embodied Intelligence）

具身智能为什么难

朱松纯：全面认识人工智能之所以困难，是有客观原因的。

其一、人工智能是一个非常广泛的领域。当前人工智能涵盖很多大的学科，我把它们归纳为六个：

（1）计算机视觉（暂且把模式识别，图像处理等问题归入其中）、
（2）自然语言理解与交流（暂且把语音识别、合成归入其中，包括对话）、
（3）认知与推理（包含各种物理和社会常识）、
（4）机器人学（机械、控制、设计、运动规划、任务规划等）、
（5）博弈与伦理（多代理人agents的交互、对抗与合作，机器人与社会融合等议题）。
（6）机器学习（各种统计的建模、分析工具和计算的方法），

这些领域目前还比较散，目前它们正在交叉发展，走向统一的过程中。我把它们通俗称作“战国六雄”，中国历史本来是“战国七雄”，我这里为了省事，把两个小一点的领域：博弈与伦理合并了，伦理本身就是博弈的种种平衡态。最终目标是希望形成一个完整的科学体系，从目前闹哄哄的工程实践变成一门真正的科学Science of Intelligence。

大模型与具身智能

如何实现更加便利的人机交互？

GPT等大模型的出现提供了新思路——已有不少研究者尝试将多模态的大语言模型与机器人结合起来，通过将图像、文字、具身数据联合训练，并引入多模态输入，增强模型对现实中对象的理解，帮助机器人处理具身推理任务。

谷歌、微软的AI团队走在前列，试图以大模型为机器人注入灵魂。

Sim2Real

训练具身智能的一种直接方法是将它们直接放置在物理世界中。这很有价值，但在现实世界中训练机器人速度慢、危险（机器人可能会摔倒并摔坏）、资源密集型（机器人和环境需要资源和时间）并且难以重现（尤其是罕见的边缘情况）。另一种方法是在逼真的模拟器中训练具身代理，然后将学到的技能转移到现实中。模拟器可以帮助克服物理世界的一些挑战。模拟器可以比实时运行快几个数量级，并且可以在集群上并行化；模拟培训安全、便宜。一旦在模拟中开发和测试了一种方法，就可以将其转移到在现实世界中运行的物理平台。

很大概率，具身智能是通向通用人工智能的更Promising的一条路。

【2023-10-25】具身智能 (Embodied AI)概述

其它视角

1 哲学视角：最初的哲学思辨，身心是一元还是二元？

笛卡尔：「我思故我在」
- 主体vs客体。
- 认知独立于身体。
梅洛·庞蒂：知觉现象学
- 认为人知觉的主体是身体，而身体是镶嵌在世界的里面，就好比人的心脏镶嵌在身体里面一样。
- 知觉、身体和世界三者是一个统一整体，人可以产生知觉和认识世界，是通过人的身体和世界中的其他的物体发生互动的结果。

2 心理学视角：行为主义的回归，还是认知主义的新取向？

什么是认知？
- 是个体认识客观世界的信息加工活动，是概念在大脑中形成的过程。
- 如果把大脑比做计算机「硬件」，那么认知就是其上运行的「软件」。
传统认知主义：
- 符号主义（Symbolism）：
  - 以计算机模拟为基础的符号加工模式，基本信条是「认知是可计算的」。
    - 认知过程类似于计算机对信息的处理、操作和加工。尽管两者的结构和动因可能不同，但功能上都是一种「计算」。
    - 计算机和人脑都是符号加工的形式系统，计算机依据逻辑规则，认知过程依据先天或后天的理性规则，以形式化的方式对大脑接收到的信息进行处理和操作。
    - 典型例子： Alan Turing在1936年提出的图灵机概念，有限的符号最终可生成无限的信息。
    - 总之，认知虽然表现在包括大脑在内的身体上, 但是却不依赖于身体, 其功能是独立的。
- 联结主义（Connectionism）：
  - 以神经的网状结构和并行加工原理为基础的联结主义模式（Connectionism）。
    - 受神经科学发展推动。
    - 试图找寻认知是如何在复杂的联结和并行分布加工中得以涌现的。
    - 典型例子：深度神经网络（DNN）取得了巨大的成功。
新阶段/思潮：
- 具身认知（Embodied Cognition）：
  - 强调「身体在认知的实现中发挥着关键作用」：
    - 认知是包括大脑在内的身体的认知，身体的解剖学结构、身体的活动方式、身体的感觉和运动体验决定了我们怎样认识和看待世界，我们的认知是被身体及其活动方式塑造出来的。
    - 认知是具体的个体在实时的环境中产生的，储存在记忆里的认知信息并非抽象的符号，而是具体、生动的，同身体的特殊感觉通道相联系。
    - 认知、身体、环境是一体的，认知存在于大脑，大脑存在于身体，身体存在于环境。
    - 它不是一个运行在「身体硬件」之上并可以指挥身体的「心理软件」。
  - 假设：如果我们拥有蝙蝠的生理结构, 我们所感知到的世界就完全不是现在的样子。我们感知到的世界同我们身体的解剖学结构是密切相关的。
  - 实证研究：
    - Wells & Petty (1980)：点头的身体运动增强了积极的态度，而摇头的身体运动强化了消极的态度。
    - Stepper & Strack (1993)：情绪是具身的，认知并不是情绪形成的唯一因素，身体及其活动方式对情绪与情感的形成有着重要作用。
    - Spence & Nicholis & Driver (2001)：实验者考察被试在使用不同感觉通道加工信息时, 从一个通道转向另一个通道所耗费的反应时，身体的感觉运动系统在认知过程中发挥了重要作用。
    - ……
  - 传统认知主义vs具身认知：
    - 传统认知主义：视身体仅为刺激的感受器和行为的效应器。
    - 具身认知：赋予身体在认知的塑造中以一种枢轴的作用和决定性的意义，在认知的解释中提高身体及其活动的重要性。
行为主义vs认知主义
- 行为主义：否认或贬低认知过程，或者把高级心理过程归结为「肌肉收缩」和「腺体分泌」，或者认为发生在中枢神经系统中的高级心理过程只不过是一些生理性的「中介变量」。
- 认知主义：认知心理学的产生推翻了行为主义的假设，把思维、记忆、推理等高级心理过程置于一个重要地位，认为决定行为的正是这些内部的认知机制。
- 争议：
  - 钟摆似乎又转向了相反的方向，正在回归到行为主义的假设。
  - 具身认知仍然是认知，只不过这种认知并非纯精神的，而是一种通过身体及其活动方式而实现的适应环境的活动。
以Lawrence Shapiro为代表的学者提出的具身主义浪潮会在不远的将来到来。
- 主体身体的属性限制或约束了主体能够习得的概念。
- 认知过程的核心在于主体和环境的交互而不是表征和算法操作。
- 身体和世界在认知过程中起到构成而非仅因果作用。

3 神经科学视角：具身认知的生物学机制，更为客观？

具身认知观：
- 心智是具身的神经生物现象。
镜像神经元：被认为是具身认知的根源之一
- 灵长类大脑中的镜像神经元组则储存了特定行为模式的编码。这种特性不单让我们可以想都不用想，就能执行基本的动作，同时也让我们在看到别人进行某种动作时，自身也能做出相同的动作。
- 由于有镜像神经元的存在，人类才能学习新知、与人交往，因为人类的认知能力、模仿能力都建立在镜像神经元的功能之上。
- 有些研究者甚至断言：镜像神经元之于心理学，犹如DNA之于生物学。
具身模仿论：为具身认知提供全局性解释理论
- Galese & Fogassi等(2005)提出。
- 各种各样的镜像神经元匹配系统在我们所持有的关于自我和他人身体的经验性知识中起协调作用。
- 这种与身体紧密联系的「经验性知识」使得我们能够直接理解他人动作的意义。
- 这种「共享簇」在功能层面可以定义为具身模仿。
两者结合，通过有效地共享他人动作表征、意义与意图，为认知具身化的合理性奠定了基础，并重新赋予「身体」在科学心理学研究中的重要地位。

4 人工智能视角：具身智能与强化学习，是认知世界的最佳方式？

传统智能：
- 由于程序从功能上是独立于硬件的，那么理论上，认知独立于大脑在内的身体。
- 对应于信息处理认知「软件」和大脑「硬件」的划分，出现了「离身的」（disembodied）心智/认知（mind）。
- 「离身的心智表现在人脑上，就是人的智能，表现在电脑上，就是人工智能」。
- 人工智能的几次繁荣和低谷都与符号主义和联结主义认知科学的发展密切相关。
具身智能（Embodied Intelligence）：假设智能行为可以被具有对应形态的智能体通过适应环境的方式学习到
- 背景：距离AGI还有相当的距离
  - 样本量小、泛化能力差、能耗大、语义理解欠缺等瓶颈。
  - 近年来，深度学习在封闭环境和静态规则领域取得了巨大的进步，但面对开放环境和动态规则，仍面临巨大挑战。
- 前提：具身认知，认为人的认知过程无法脱离身体而进行。
- 推广：具身智能，整个环境和个体的行为同样是认知的重要组成部分，智能体（Agent）通过感知外部环境，产生思想并通过计算后，生成相应动作与环境交互，以此改变和影响环境，这个过程周而复始，产生智能。
- 假设：在自然界中，动物利用其形态来学习复杂的任务，获得显着程度的具身智能。
具身认知与强化学习：Reward is Enough? 基于强化学习取得了前所未有的突破
- 李飞飞等：深度进化强化学习框架DERL
  - 在强化学习中，创建具有特定形态的智能体，使其通过具身性获得智能能力是一大挑战。
  - 提出的DERL框架，可以让智能体通过在复杂的任务和环境中，仅依赖低层次自我中心传感信息的方式，逐步进化出多样的智能体形态，在平地、多变地形等不同环境中执行巡视、导航、避障、探索、逃脱、爬坡、推箱子和控球等多种不同的任务。
  - 通过 DERL，研究者发现了一些环境复杂性和形态智能，控制学习能力等之间的关系。

DERL

DeepMind：Open-Ended Learning中的开放环境XLand
- 前期：：《Reward is Enough》论文，假设智力及其相关能力能够被认为是为了奖励的最大化，建议通过试错经验来最大化奖励的智能体能够学习到表现出绝大多数甚至所有的这些能力的行为，因此强大的强化学习智能体可望成为AGI解决方案。
- 通过自动生成大量不同的环境和游戏目标，智能体可以接受各种各样任务的训练，在大规模的开放环境中，智能体甚至学会了举一反三，做到了现有深度神经网络难以做到的零样本学习。

XLand

BAAI：信息模型、具身模型和脑模拟机器人的结合将诞生超级人工智能
- 基于虚拟世界、实时时空环境训练的具身模型会取得较大的发展，如自动驾驶、机器人、游戏中数字人。
- 从更长远的角度出发，将人类大脑、生物大脑、机器人等研究方向结合，形成物理世界中具有真正实体性的机器人技术也会取得大发展。
  - 未来三年，这些技术将持续演变。
  - 未来五到十年，信息模型和具身模型将会结合，成为「数字超人」，在知识能力以及跟环境的互动程度上，将比以往的人类都要强。在元宇宙中，我们甚至不知道面对的是人工智能的化身还是真正的人类。具身模型和机器人也将结合，在物理世界出现能力比人类还要强的无人系统，即「具身超人」。
  - 乐观估计，在未来三十年，数字超人和具身超人可能会结合，最终诞生超级人工智能，这是人工智能的终极梦想，实现超越人类的智能系统。
具身智能&元宇宙：
- 智能体和人类代理同时在元宇宙内互动，共建元宇宙内容。
- AI&元宇宙：
  - AIGC促进了内容元宇宙内容的生成，弥补了数字内容需求与供给的差距。
  - 元宇宙通过无数人类和智能体的建设和互动，为AGI的诞生和进化提供一个足够开放和巨大的环境和生态。
  - 「过去做AI是为了更好的游戏，现在做游戏是为了更好的AI」。

具身认知 - Embodied Cognition

具身认知

具身智能

什么是具身智能

基础概念

发展历史

具身智能为什么难

大模型与具身智能

其它视角

1 哲学视角：最初的哲学思辨，身心是一元还是二元？

2 心理学视角：行为主义的回归，还是认知主义的新取向？

3 神经科学视角：具身认知的生物学机制，更为客观？

4 人工智能视角：具身智能与强化学习，是认知世界的最佳方式？

结束

Related Posts

Comments

具身认知 - Embodied Cognition

具身认知

具身智能

什么是具身智能

基础概念

发展历史

具身智能为什么难

大模型与具身智能

其它视角

1 哲学视角：最初的哲学思辨，身心是一元还是二元？

2 心理学视角：行为主义的回归，还是认知主义的新取向？

3 神经科学视角：具身认知的生物学机制，更为客观？

4 人工智能视角：具身智能与强化学习，是认知世界的最佳方式？

结束

Share

Related Posts

Comments