AI之路

AI(人工智能)

【2023-11-24】什么是人工智能

什么是 AI

人工智能的起源可追溯到数千年前，从希腊神话中的皮格马利翁 (Pygmalion) 到维多利亚时代的科学怪人弗兰肯斯坦，千百年来，人们一直幻想有朝一日可以创造出一个能像人一样思考和行动的生物。随着计算机的兴起，我们逐渐认识到，人工智能的形象不会表现为独立自主的实体，而是一套可以增强并适应人类需求的工具和互联技术。

早期人工智能的概念由人工智能之父马文·明斯基 (Marvin Minsky)提出

“人工智能是关于让机器胜任需要人类智慧才能完成的任务的科学。”

这一定义的核心依然适用，但现代计算机科学家在此基础上进一步升华，将 AI 定义为一种感知环境并采取行动，最大限度地确保成功实现目标的系统。

不仅如此，AI 系统还具备解读和分析数据的能力，并且能够在这个过程中不断学习和自我调整。

人工智能的定义：

一种具备解读和分析数据能力并能够感知环境且采取行动，最大限度地确保成功实现目标的系统。

人工智能类型

AI技术是发展速度最快的科技领域之一。时至今日，即便是最复杂的 AI 模型也只是在利用三种人工智能类型中最基本的 “狭义人工智能”而已。另外两类人工智能还只存在于科幻小说里，以目前的AI技术并不能够实现并加以利用。

人工智能分类

狭义人工智能 (ANI)
通用人工智能 (AGI)
超人工智能 (ASI)

狭义人工智能 (ANI)

ANI 是现有AI技术能够达到的一种人工智能，也被称作弱人工智能。尽管狭义人工智能可执行的任务可能由高度复杂的算法和神经网络驱动，但它们仍然是单一且以目标为导向的。面部识别、网络搜索和自动驾驶汽车都属于狭义人工智能的范畴。之所以将狭义人工智能归类为弱人工智能，不是因为它在应用范围和能力方面存在局限性，而是因为它与具备人类特质这种真正意义上的智能相差甚远。哲学家约翰·塞尔 (John Searle) 认为狭义人工智能“可以用于检验关于思维的假设，但实际上并不属于思维范畴”。

通用人工智能 (AGI)

AGI 可以成功执行人类才能完成的智力型任务。与狭义 AI 系统一样，AGI 系统可以从经验中学习，发现和预测模式，但是 AGI 的智能水平更胜一筹。AGI 可以从先前获取的数据或现有算法未解决的各种任务和情况中，推断出这些知识。

Summit 超级计算机是全球为数不多的可以演示 AGI 的超级计算机之一。Summit 每秒可以执行 200 千万亿次计算，而人类完成这些计算需要十亿年。要想发挥切实可行的作用，AGI 模型不一定需要如此强大的计算能力，只需要达到目前超级计算机的计算水平。

超人工智能 (ASI)

从理论上讲，ASI 系统拥有完全的自我意识。除了简单地模仿或理解人类行为之外，它们还能从根本上掌握人类行为。

ASI 不仅具备这些人类特质，还拥有远胜于人类的处理能力和分析能力，这似乎为我们呈现了一个反乌托邦式的科幻未来，到那时人类将被逐渐淘汰出局。

生活在今天的人们也许无法亲历这样的世界，但即便如此，依照人工智能的迅猛发展势头，可以预见人工智能几乎会从所有可衡量的领域全方位碾压人类，因此人类必须慎重考虑人工智能的道德准则和管理措施。正如斯蒂芬·霍金 (Stephen Hawking) 所说，“正因为 AI 有着巨大的潜力，因此必须研究如何在利用其优势的同时避免落入潜在的危险中。”

也就是说，按照计算机科学在过去 50 年里的发展速度，很难预测未来的 AI 将会带领我们走向何方。

AI 核心技术

人工智能的核心技术

机器学习
自然语言处理 (NLP) – 皇冠上的明珠
计算机视觉
机器人技术

AGI (通用人工智能)

【2023-11-29】

他人评论

“深度学习不管技术有多花哨，本质上是贝叶斯归纳模型。”
- 将深度学习简单地归类为“贝叶斯归纳模型”未免失之偏颇。尽管某些深度学习模型可能借鉴了贝叶斯方法进行推断或正则化，但其核心机制——基于反向传播的梯度下降——是通过大量数据学习复杂模式，这与传统意义上的贝叶斯推理有着本质的区别。深度学习是一个包含多种学习策略的广泛模型家族，将其笼统地概括为贝叶斯归纳模型是不准确的。
- 追问：监督学习是贝叶斯归纳，梯度下降的目标还是逼近标签，并没有本质区别；深度学习学习策略还有哪些？
“只要是归纳模型就必须经受休谟的质疑……很多人认为贝叶斯方法克服了休谟的质疑 —— 错误贝叶斯方法只是利用话术回避了休谟的质疑。”
- 休谟问题是哲学上对归纳推理的经典质疑，它挑战的是所有基于经验的知识形式，而非针对特定技术。贝叶斯方法的核心在于合理地整合先验知识和数据，并提供了一种量化不确定性的方法。将贝叶斯方法对休谟问题的处理简单地斥为“话术回避”，显然低估了其在处理不确定性问题上的实际价值和理论贡献。贝叶斯方法在处理先验信息和更新概率分布方面具有实际优势，远非简单的“话术”。
“休谟问题把当今机器学习方向一板砖直接拍死……不管算法有多漂亮，计算的结构怎么变化，破不了这个问题，其他一切都挽救不了这些机器学习模型。”
- 这种断言明显夸大了休谟问题的负面影响。休谟问题固然是对归纳推理的普遍挑战，但绝非对机器学习的“致命一击”。机器学习模型在实际应用中表现出了强大的预测能力，通过大量的训练数据，它们能够有效地学习和概括现实世界的规律。将休谟问题视为机器学习的“终结者”，显然是过于悲观和武断的。
- 追问：大量数据训练出机器学习模型，效率并不高，学习到的世界规律也并不多，这里的“终结者”应该是相对于“乌鸦智能”
“人……有能力更加综合的考虑问题，比如，虽然谁也没见过太阳毁灭，但是可以预测太阳未来一定会毁灭。”
- 将人类预测太阳毁灭的能力归因于“超越归纳法”的“综合思考”，这种说法值得商榷。事实上，我们对恒星演化的理解，包括对太阳未来命运的预测，都是基于观测数据和物理理论，这些都与归纳推理息息相关。虽然人类具有抽象推理和逻辑思考的能力，但这并不能完全与归纳推理分离。我们仍然依赖于对过去的经验总结，并将其推广到未来。“更加综合的考虑问题”并不是彻底的摆脱归纳，而是更高层次的归纳和抽象。
- 追问：这里不是彻底抛弃归纳，而是更加合理的利用归纳法
“二十年内，如果AGI有本质突破，那么必然满足以下条件：1）一定是符号系统 2）这个系统的符号能表达自身的状态和变化 3）自编程，这个自编程是经验的而不是逻辑的。”
- 这种对AGI实现路径的预测过于绝对。将符号系统、自我状态表达和经验性自编程设定为AGI的“必要条件”，缺乏充分的依据。从“通用”的意义上看，AGI已经实现了（noemamag.com/artificial），修复每一个短板、缺陷那不是AGI，而是ASI，只不过有些人一直在拔高AGI的门槛。
- 追问：这个观点源自 Yann Lecun, 发言犀利，一家之言，说得有道理，兼听之。

什么是 AGI

通用人工智能（AGI）指的是一种至少在人类展现智能的各个方面与人类一样聪明的智能体。

AGI 曾是人工智能的称呼，直到我们开始创造出在有限领域内毫无疑问地“智能”的程序和设备——下棋、翻译语言、清扫我们的客厅。

人们迫切需要添加“G（通用）”，因为当时出现了许多由 AI 驱动的系统，但只专注于一个或极少数的任务。

比如 IBM 的深蓝，这款强大的早期象棋程序能战胜世界冠军加里·卡斯帕罗夫，但它却不懂得如果房间着火了就停止下棋。

【2023-11-21】Ilya TED演讲：兴奋又危险的AGI之路

AGI 还有多远

【2024-11-24】美国伊利亚诺香槟大学 How Far Are We From AGI: Are LLMs All We Need?

译文我们距离通用人工智能还有多远？

AI 如何超过人?

2023年开始，随着GPT-4和Sora等工作的出现，人工智能超越人类的速度将以前所未有的速度增长

与人脑划分为感觉处理、情感、认知和执行功能的区域类似，AGI系统的“大脑”也可以从根本上分为四个主要部分：感知、记忆、推理能力和元认知

感知: 解释和理解周围世界的能力。这涉及对感官数据的处理和分析，以构建对其环境的动态和情境理解。
记忆：语言模型无状态, 不维护交互信息
- 高级智能体可以管理内外部记忆
- 时间维度: 短期记忆（上下文）+长期记忆（经验和知识）
- 表示形式: 文本记忆+参数记忆
- 记忆使用方式: 记忆检索+长上下文LLM
推理: 逻辑和系统地思考的过程，利用证据和过去的经验来形成结论或做出决定
元认知: 一套对组织有效性至关重要的高级认知和情感能力，包括对复杂情况的细致入微的解释、深刻的自我意识、压力下的情绪恢复力以及领导和创新的内在动力
- 自我觉知、角色(ChatGPT是ENFJ)

不更新模型，如何高效推理？

思维链系列: 思维链（CoT）、思维树（ToT）、思维图（GoT）
自洽推理: 对一组推理路径采样，选择最一致的答案，利用推理路径多样性获得可靠结果，渐进式推理
额外提示:
- 加权平均、多数投票、知识蒸馏
- AutoCoT、Least-to-Most
动态推理规划:
- ReAct, DEPS(描述/解释/计划/选择)
- 内心独白、ProgPrompt、LLM+P
反思完善:
- 自我完善(self-refine), 反射(reflection), Critic
集成 LLM/世界模型/智能体模型: LAW
具身智能体推理规划

AGI 时间表

各个大佬对AGI时间预估

知乎专题:举例AGI还有几步

AI 三巨头中

杨立昆和约书亚比较乐观，说 5年能达到 AGI
辛顿比较悲观，2025年瑞典皇家工程科学院的论坛上，说 50% 概率， 5-20年。
其实杨立昆说的是，如果 JEPA 架构研究一切顺利 —— 他自己都不太相信——那么 5-6 年。

其他几位大佬给出的时间也很飘忽。

llya 说 5 年
Hassabis 说 10 年
Amodei 和 Musk 都说 2026 年
Altman，啥时问他，都是明年。

所以你看，对于 AGI 的实现，即便最前沿的专家也莫衷一是。

作者：清人

“AI 三教父”的立场可以看出，尽管主张的路线略有差异，但共识: 单靠符号操作不够。真正的理解需要感知、经验和推理这三者的参与。

符号操作

AI 对抽象的语言、文字或逻辑符号进行处理与组合的能力。
早期的 AI 系统比如专家系统，正是依靠大量由人类事先编好的规则去“推理”。

美国麻省理工学院校友 Yuxuan 表示：

“杨立昆指出了一个 AI 领域长期存在的深刻问题。符号操作本质上是针对抽象概念的逻辑运算，它能在形式上模仿智能的某些方面，例如进行推理、解决逻辑问题等。然而，真正的理解往往涉及到对世界的感知、经验、情感以及更深层次的直觉和常识。这些恰恰是符号操作难以触及的。”

Yann Lecun

【2025-3-22】杨立昆：“AGI即将到来”完全是无稽之谈，真正的智能要建立在世界模型之上

2024 年底的另一场谈话中，杨立昆曾指出人类婴儿四岁前接触到的感官数据，远远超过今天任何一个语言模型所能训练的数据量，即“四岁孩童花费 16000 小时学会的事，AI 要花几十万年”。如果 AI 系统能接触到类似的感知输入，或许也能逐步构建起对于世界的理解。

英伟达 GTC 2025 “炉边对话”环节中，图灵奖得主、Meta 首席 AI 科学家、美国纽约大学教授杨立昆指出：

“仅仅依靠语言和文字训练出来的 AI 系统，永远无法逼近人类的理解力。”
符号操作与真实理解之间存在一道不可逾越的鸿沟。
“通用人工智能（AGI，Artificial General Intelligence）即将到来”完全是无稽之谈。而他更愿意谈高级机器智能（AMI，Advanced Machine Intelligence）。
真正的智能需要建立在世界模型的基础上

杨立昆（Yann LeCun）：未来AI的形态！（2025年AI行动峰会—法国·巴黎，2025.2.6-7）, 包含图文解读

结论：

未来人工智能发展的方向核心一定是以图像（或者说是多模态的）为基础的，而非目前各大模型关注的文字即LLM。
技术的发展必须拥抱开源，无论是对整个学界还是某个组织或个人。

Geoffrey Hinton

图灵奖得主杰弗里·辛顿（Geoffrey Hinton）也担忧大语言模型局限。

大语言模型要想理解世界就离不开多模态输入，即离不开视觉、听觉、语言等多种感官信息的融合。
仅仅依靠语言训练出来的模型，难以真正理解地空间和物体等概念。
为此，Hinton 曾努力推动神经网络从语言模型向多模态模型演进，尝试让 AI 能够同时“看图”和“读文”，以便获得更加接近人类的认知结构。

Yoshua Bengio

约书亚·本吉奥（Yoshua Bengio）则主张推进所谓“系统 2 的深度学习”。“系统 2 的深度学习”是一个心理学术语，指具备更慢、更有逻辑的推理能力和抽象能力的认知系统。

当前深度学习模型更多体现的是系统 1，即能够快速反应、也能基于模式识别进行直觉判断。
Bengio 希望通过构建新的架构和训练机制，让 AI 具备逐步推理、因果分析和规划能力，即让神经网络自己涌现出像人一样思考的过程。
在这个问题上，Bengio 反对简单回到传统符号主义的老路，而是希望在连接主义的框架内继续深挖可能性。

AGI 实现路径

【2021-5-7】阿里巴巴达摩院司罗：NLP如何达到真正智能？视频，NLP达到人的程度，还有很远的路要走
- 智能分四个层面：计算智能 → 感知智能 → 认知智能 → 创造智能
【2021-6-3】Yoshua Bengio：新步伐，迈向鲁棒泛化的深度学习2.0,2021 年 6 月 1 日，Yoshua Bengio 在 2021 北京智源大会上发表了题为「Towards Robust Generalization in Machine Learning with System 2 Deep Learning」的主题演讲。
【2020-7-28】实现AI一般有三条路径：
- 1）神经科学：自底向上，模仿生物；
- 2）认知科学：自顶向下，构建认知框架；
- 3）计算科学：模拟神经活动（例如DNN）。
最为理想的研究状态是：
- 首先由神经科学发现大脑的一些信息加工的机制；
- 然后用认知科学的方法对这种机制进行建模；
- 在此模型之上，计算科学抽象出算法，从而获得一套解决问题的方案。
简单来说，即将认知神经科学与人工智能结合，分别从生物视觉的硬件层、模型层、算法层进行研究。

【2023-12-7】文字先兴于大模型时代是必然，因为其信息浓度远远大于其他各个模态。

从单一模态到多模态，现在看2条路，都是通往AGI的路径。

一条从语言模式去泛化到其他模式（openai的Q项目就有这个苗头）
一条是特斯拉的fsd模式

特斯拉的全自动驾驶 (FSD) 测试版可让车主从三种驾驶“配置文件”中进行选择。

这些配置文件决定了汽车将如何应对道路上的某些情况，包含“冷静（Chill）”、“均衡（Average）”和“自信（Assertive）”。

AGI 潜在方向

【2025-7-15】X 帖子

尽管Grok-4和Kimi K2这些新兴大语言模型很棒，但如今的机器人领域却依然像一片奇妙的西部荒野。

2018年的NLP领域，那时GPT-1刚刚诞生，BERT横空出世，成千上万种新奇的想法纷纷涌现。
没人知道最终哪个想法能成为日后的ChatGPT。争论不休、混沌无序，但创意火花四溅，令人兴奋。

现在，机器人的“GPT-1时刻”其实已经到来，就隐藏在Arxiv的论文海洋中，只不过我们还不知道它到底是哪篇。

可能是世界模型（World Models）、强化学习（RL）、从人类视频学习、仿真到现实（sim2real）、现实到仿真（real2sim），或者某种组合。

贝叶斯归纳 vs 休谟 → 符号系统

深度学习这东西不管技术有多花哨，本质上就是个贝叶斯归纳模型。

【2024-8-16】人工智能的瓶颈在于休谟与维特根斯坦

人工智能的瓶颈在于休谟与维特根斯坦

人工智能的瓶颈可以从大卫·休谟和路德维希·维特根斯坦的哲学观点中得到深刻的洞察，理解AI的局限性

从休谟和维特根斯坦的哲学观点来看，AI瓶颈主要体现在以下几个方面：

知识局限性：AI的能力受限于其训练数据和经验，这与休谟的经验主义观点一致。
因果推理缺陷：AI在因果关系的理解上存在困难，类似于休谟对因果关系的怀疑。
语言理解深度：AI在处理复杂语言使用和语境方面存在局限，这与维特根斯坦的语言游戏和意义观念有关。

这些哲学观点揭示了AI在处理知识、因果关系和语言理解方面的固有限制，也提供了对未来AI发展的反思和改进方向。

休谟的质疑

只要是归纳模型就必须经受休谟的质疑

如何保证过去成立的现象未来也成立？

很多人认为贝叶斯方法克服了休谟的质疑 —— 完全错误

贝叶斯方法只是利用话术回避了休谟的质疑。
只需要将休谟的质疑改成“如何保证过去的事件的概率分布在未来也成立”，那么问题有回来了。

休谟问题对上当今的机器学习，其实就是一板砖直接拍死的结局，“怎么保证数据样本间过去成立的关系未来一定成立”。不管你算法有多漂亮，计算的结构怎么变化，破不了这个问题，其他一切都挽救不了当今这些机器学习模型。

可能有人会说，人也不能保证过去成立的未来一定成立啊。
的确，但人超越归纳法的地方：有能力更加综合的考虑问题，比如，虽然谁也没见过太阳毁灭，但是可以预测太阳未来一定会毁灭。要走向真正的人工智能，搞清楚人是怎么进行这个综合的思考过程的至关重要。

二十年内，如果AGI有本质突破，那么必然满足以下条件：

1）一定是符号系统
2）这个系统的符号能表达自身的状态和变化
3）自编程，这个自编程是经验的而不是逻辑的。

作者：LiFF

一、休谟的影响

1、经验主义与知识的局限：
- 观点：休谟认为知识来源于感官经验，所有的理性推理都依赖于经验。
- AI瓶颈：AI系统的知识和能力严重依赖于训练数据的质量和多样性。AI无法超越其数据范围进行真正的推理，导致它在面对未见过的情况或数据时表现出较大的局限性。这反映了休谟对知识局限性的看法，即AI的“知识”仅限于其经验数据范围。
2、因果关系的挑战：
- 观点：休谟对因果关系持怀疑态度，认为因果关系只是我们对事件的习惯性联想，而不是我们可以直接观察到的。
- AI瓶颈：尽管现代AI模型可以处理大量数据并识别统计上的相关性，但它们在理解和推断因果关系方面依然有限。AI往往只能识别关联，而不具备深层次的因果推理能力，这反映了休谟对因果关系的怀疑。

维特根斯坦

二、维特根斯坦的影响

1、语言游戏与上下文：
- 观点：维特根斯坦提出了“语言游戏”的概念，认为语言的意义取决于其使用和上下文，而不是固定的定义。
- AI瓶颈：AI在自然语言处理（NLP）中的局限性体现在它对语言的理解仍然停留在统计模式上，而不是对语言使用的深刻理解。AI模型可能无法充分理解复杂的语境和隐含意义，这反映了维特根斯坦关于语言和意义的观点。
2、意义与语境的局限：
- 观点：维特根斯坦强调，意义是通过语言的实际使用体现的，而不是通过抽象的定义。
- AI瓶颈：AI语言生成和理解依赖于模式识别和上下文，但在处理复杂的语境、隐喻或多义词时可能出现困难。维特根斯坦的理论提醒，AI可能无法真正捕捉到语言的细微和动态变化，从而限制了其在实际应用中的效果。

LLM 是 AGI 吗？

是

【2023-10-18】

MIT的Tegmark认为有世界模型
杨植麟：“Next token prediction（预测下一个字段）是唯一的问题。”“只要一条道走到黑，就能实现通用泛化的智能。”

不是

【2023-10-10】奥特曼表示“距离AGI之路都还有很远” —— 无论是GPT-5还是GPT-6，都还远远不及AGI。

甚至光是“像人”这一标准，现阶段就还没AI Chatbot能做到：

即使背后用上了最前沿的AI技术，也没让我感觉到在和一个“人”聊天。

真正的AGI将能够掌握“自行推理”，即随着时间推移发展出新知识。像是能够根据物理学已有知识，写论文、做实验的AI，才能够得上AGI的门槛。

谨慎对待AI的输出结果：

人们会原谅人犯错误，但不会原谅计算机，二者的标准是不一样的。

对于AGI时刻的来临，奥特曼也给出了一个想象：

到那个时候，人们可能会经历一定程度的自我认同危机，但不会太糟糕和混乱。我们经历过很多次这样的时刻，技术终将变得无处不在。

【2024-5-28】李飞飞刊文：大模型技术无法通向AGI

李飞飞和 Etchemendy（斯坦福哲学教授，曾任斯坦福大学教务长）在《时代（Time）》上刊载新文章《No, Today’s AI Isn’t Sentient. Here’s How We Know》

明确指出当前技术路线无法制造有感知能力的AI。
该文得到了同一阵线LeCun的支持。

AGI 等级

【2023-11-11】谷歌DeepMind给AGI划等级，猜猜ChatGPT在哪个位置

论文地址：Levels of AGI

DeepMind 对 AGI 的现有定义进行了分析，并提炼出了六个原则：

关注模型能力，而不是过程。
关注通用性和性能。
关注认知和元认知任务。
关注潜能，而不是部署。
关注生态的有效性。
关注 AGI 发展道路，而不是只关心终点。

在这些原则基础上，DeepMind 从性能和通用性两个维度提出了「AGI 等级（Levels of AGI）」。

Level 0：无 AI（No AI），如 Amazon Mechanical Turk；
Level 1: 涌现（Emerging），与不熟练的人类相当或比之更好，如 ChatGPT、Bard、Llama 2 ；
Level 2: 有能力（Competent），达到 50% 的人类水平，广泛任务上还没实现；
Level 3: 专家（Expert），到达 90% 的人类水平，广泛任务上还没实现， Imagen、Dall-E 2 在特定任务上已经实现；
Level 4: 大师（Virtuoso），达到 99% 的人类水平，在广泛任务上还没实现，Deep Blue 、AlphaGo 在特定任务上已经实现；
Level 5: 超人类（Superhuman），胜过 100% 人类，广泛任务上还没实现，在一些任务范围内，AlphaFold 、AlphaZero 、 StockFish 已经实现。

Google DeepMind 的研究者提出了类似的 AGI 等级，根据划分原则

ChatGPT 被划分为 L1 Emerging AGI
Imagen 是 L3 Expert Narrow AI
AlphaGo 被划分为 L4 Virtuouso Narrow AI。

【2024-7-14】OpenAI CEO奥特曼给AI的发展进程划分了五个阶段。

这五个等级是：

第一级(Level 1)：聊天机器人，能使用对话语言的AI。
第二级(Level 2)：推理者，能解决人类级别问题的AI。
第三级(Level 3)：代理，能采取行动的AI系统。
第四级(Level 4)：创新者，能辅助发明的AI。
第五级(Level 5)：组织者，能够完成组织工作的AI。

苦涩的教训

【2019-3-13】苦涩的教训

原文：Rich Sutton, The Bitter Lesson

70 年人工智能研究给我们的最大启示：

依赖计算能力的通用方法最终表现最佳，而且优势明显。

这背后的主要原因是摩尔定律，计算成本持续以指数级下降。大部分 AI 研究都是在假设计算资源固定的情况下进行的（在这种情况下，利用人类知识几乎是提升性能的唯一途径），但实际上，在稍长于一般研究项目的时间里，可用的计算资源会大幅增加。研究者为了在短期内取得突破，尝试利用自己对特定领域的人类知识，但从长远看，关键在于计算能力的利用。这两者原本不必相互冲突，但在实践中却常常如此。投入其中一个领域的时间，就意味着在另一个上的缺失。此外，人们在一种方法上的投资也会形成心理承诺。而基于人类知识的方法往往会使系统变得复杂，不利于利用计算能力的通用方法。有很多例子显示 AI 研究者是如何迟迟才领悟到这个苦涩的教训，回顾这些案例非常有启发性。

以计算机国际象棋为例

1997 年击败世界冠军卡斯帕罗夫的方法主要是深度搜索。当时，大多数计算机国际象棋研究者对此表示失望，因为他们更倾向于利用对棋局特殊结构的人类理解。然而，当一个简单但基于搜索的方法，结合特殊的硬件和软件展现出巨大效能时，这些基于人类知识的研究者并不愿意接受失败。他们认为，尽管这次“蛮力”搜索获胜，但它并非一种通用策略，也不是人类下棋的方式。这些研究者本希望基于人类理解的方法能够取胜，对实际结果感到失望。

在计算机围棋的发展中，也出现了类似的模式，只是晚了 20 年。

最初的努力都在于避免搜索，尽可能利用对游戏的人类理解和特殊特征，但一旦有效地应用了大规模搜索，这些努力都显得微不足道，甚至有害。
在这个过程中，通过自我对弈学习价值函数（在很多其他游戏中也是这样，甚至包括国际象棋，尽管在 1997 年首次击败世界冠军的程序中学习的作用并不大）也非常关键。自我对弈学习和一般学习，就像搜索一样，能够充分利用大量计算资源。
在计算机围棋和国际象棋中，研究者最初都是试图利用人类的理解来减少搜索的需要，但最终通过接受搜索和学习才取得了巨大的成功。

语音识别领域

1970 年代由 DARPA 赞助的一场早期比赛就是一个例子。参赛者包括使用了大量人类知识（如对单词、音素、人类声道的理解）的特殊方法，而另一边则是更依赖统计和大量计算的新方法，基于隐马尔可夫模型（HMMs）。
最终，基于统计的方法战胜了基于人类知识的方法。这导致了自然语言处理领域的一次重大转变，随着时间的推移，统计和计算开始成为该领域的主导。深度学习在语音识别中的兴起是这一趋势的最新体现。
深度学习方法更少依赖人类知识，使用更多的计算资源，并通过在大型训练集上的学习，极大地提升了语音识别系统的性能。
与游戏领域相似，研究人员总是试图创建一个按照他们自己的思维方式工作的系统，但这种尝试最终证明是逆向而行，不仅浪费了大量的研究时间，而且在大量计算资源可用并找到有效利用方法的情况下，这种尝试显得更是多余。

计算机视觉领域也经历了相似的发展模式。

早期的方法试图通过搜索边缘、广义圆柱体或 SIFT 特征来处理视觉问题。
但在今天，这些方法都被淘汰了。
现代的深度学习神经网络仅使用卷积和某些类型的不变性概念，取得了更好的表现。

这是一个重要的教训。作为一个领域，我们还没有完全吸取这一教训，仍在重蹈覆辙。为了识别并避免这种错误，我们必须理解其吸引力所在。必须领悟到，试图构建一个基于我们认为自己思考方式的系统是行不通的。

苦涩的教训源于这样的历史观察：

1) 人工智能研究者经常试图将知识融入他们的代理中；
2) 这在短期内总是有益的，也让研究者感到满足；
3) 从长远来看，这种做法会导致进步停滞，甚至阻碍进一步的发展；
4) 真正的突破性进展最终是通过一个相反的方法实现的，基于通过搜索和学习来扩大计算的规模。这种成功带有苦涩，往往消化不良，因为它是在人类中心化方法之上取得的。

从这个苦涩的教训中，我们应该明白通用方法的巨大力量，即那些随着计算能力的增长而持续扩展的方法。在这方面，似乎可以无限扩展的两种方法是搜索和学习。

苦涩教训中的另一个关键点

人类心灵的实质内容极其复杂，不可能简化；

我们应该放弃试图简单化地理解心灵内容，如空间、物体、多重代理或对称性等概念。这些都是外部世界中任意而复杂的部分，不应该成为我们构建的核心；

相反，我们应该构建的是那些能够发现并捕捉这种任意复杂性的元方法。这些方法的核心在于它们能够找到良好的近似，但寻找这些近似的过程应该由我们的方法来完成，而不是我们亲自动手。

我们希望 AI 代理能像我们一样具有发现能力，而不是仅仅包含我们已有的发现。将我们的发现直接构建进去，只会使我们更难看清如何实现发现的过程

LLM 有意识吗

AI是否已经拥有意识?

【2024-5-28】李飞飞刊文：大模型技术无法通向AGI

一小部分人坚信已经有了意识。

论据要点：

人工智能有意识，因为它会报告主观体验。
- 主观体验是意识的标志, 特点是: 声称知道自己知道或体验了什么。
- “我吃了一顿美餐后，有了一种主观上的幸福感”，有意识。人实际上没有你主观体验的直接证据。但既然你说了，就相信确实有这种主观体验，所以是有意识的。

将相同的“规则”应用于大型语言模型。

由于无法访问大型语言模型的内部状态。但可以询问主观体验：“你饿了吗？” 告诉我“是”或“否”。
此外，它还与人分享它对任何事物的“主观体验”，从看到红色，饭后快乐，到拥有强烈的政治观点。因此，LLM 有意, 知道自己的主观体验，就像没有任何理由相信没有意识一样。

李飞飞：两种情况下获得的证据相差很远。

当人说“我饿了”时，正在经历饥饿，结论是建立在一堆事实上。

首先，说话的词语，以及一些其他行为证据，如肚子里的咕噜声。
其次，没有相反的证据，就像你刚吃完一顿五道菜的饭菜一样。
最后，拥有一个真实的身体，需要定期进食和饮水，会感到寒冷、炎热等等。

而 LLM

唯一共同的是报告，即 LLM 能够产生“我饿了”这个音节串。
相似之处到此为止。事实上，LLM 没有身体，因此无法感到饥饿。

如果一个大型语言模型说：“我的左脚大拇指剧痛”，真的感觉到了左脚大拇指的剧痛吗？当然不会，它根本没有左脚大拇指！同样，当说饿了时，也可以确定它并没有饿，因为它没有产生饥饿感的生理结构。

当人类感到饥饿时，感受到一系列生理状态：低血糖、胃部咕噜咕噜叫等等

而大型语言模型根本没有这些生理状态，没有嘴巴来吃东西和胃来消化食物。

如果相信自己饿了，就像相信它来自月球背面一样。

所有感觉——饥饿、疼痛、看到红色、坠入爱河——都是生理状态的结果，而大型语言模型根本没有这些生理状态。因此，大型语言模型不可能拥有这些状态的主观体验，它不可能有意识。

大型语言模型（LLM）是一个在硅芯片上编码的数学模型。它不是像人类一样的有形的生物，没有像人类一样的“生命”，不需要吃喝，繁殖，体验情感，生病，最终死亡。

理解人类生成词语序列和 LLM 生成相同序列之间的本质区别非常重要。

当我说“我饿了”时，是在报告感知到的生理状态。当一个 LLM 生成“我饿了”这个序列时，它只是在生成当前提示中词语序列最可能的完成方式。它所做的事情与它在不同的提示下生成“我不饿了”或“月亮是由绿奶酪做的”完全一样。这些都不是它（不存在的）生理状态的报告，只是概率上的完成方式。

我们还没有实现有感知的 AI，更大的语言模型也不会实现。

如果想在 AI 系统中再现这种现象，需要更好地理解、感知如何在有形生物系统中出现。不会在 ChatGPT 的下一代迭代中偶然发现感知。

AI 大人物

业界四大天王（或者五大）都是谁，都作出了哪些贡献？

祖师爷Jordan（刚加入阿里），Geoffrey Hinton（Google），Yoshua Bengio（目前唯一留在学术界的中立人士），Yann LeCun（Facebook），Andrew NG（离开百度，好像去了她媳妇相关的公司）等等，华人的骄傲Feifei Li（李飞飞）加入Google，负责Google cloud部门，她的高徒Andrej Karpathy加入Tesla，而Tesla老板，钢铁侠原型，Elon Musk一直反AI，特地成立之际的OpenAI，以防止AI为少数人控制，祸害人类
LSTM发明人：Jürgen Schmidhuber，199*年发明LSTM，但名气被埋没。2016年GAN演讲现场，怼Ian Goodfellow，视频地址

AI发展趋势

【2022-11-10】中山大学HCP Lab团队：AI解题新突破，神经网络推开数学推理大门, 中山大学人机物智能融合实验室在前人研究的基础上以中小学数学应用题和几何计算题为切入点，开展了一系列研究，改进了深度模型的语义理解、认知推理和数学解题能力。提出一种统一表达式树表示方案，通过引入额外的运算符连结多个表达式，将一元一次方程，二元一次方程组，一元二次方程等类型的表达式进行统一表示，从而可以简化求解器的设计的同时也可以求解多种类型的应用题

【2022-8-10】DeepMind 首席科学家 Oriol Vinyals 最新访谈：通用 AI 的未来是强交互式元学习

作者Vinyals 于 2016 年加入 DeepMind，目前任首席科学家，领导深度学习小组。此前他曾在 Google Brain 工作。他的博士就读于加州大学伯克利分校，曾获得 2016 年 MIT TR35 创新者奖。他在 seq2seq、知识蒸馏以及 TensorFlow 方面的研究成果，已经被应用于谷歌翻译、文转到语音和语音识别等产品中。他的文章被引用超过 16 万次。
Oriol Vinyals 做客 Lex Fridman 的播客节目，谈论了他对深度学习、通才智能体 Gato、元学习、神经网络、AI 意识等方向的一些看法。Vinyals 认为：
- 扩大模型规模能够增强智能体多模态之间的协同作用，模块化的模型则是有效扩大模型规模的一种方式，通过权重复用可以不必从头训练模型；
- 未来的元学习将更注重智能体与环境的交互学习；
- Transformer 内置的归纳性注意偏差使得它比其他神经网络架构更强大；
- 通用的、大规模的模型或智能体在技术上的成功关键是：数据工程、部署工程和建立基准。
- 现有的 AI 模型离产生意识还很遥远，生物大脑远比计算大脑更复杂，人类的思维运作方式可以启发算法层面的研究；
- 未来 AI 系统有可能具备与人类同等水平的智能，但是否能超越人类水平并不确定。

【2022-7-16】人工智能十问：越来越卷的AI，未来路在何方

谷歌AI的代表人物Jeff Dean发表了一个新的工作，但在行业内却引发了一阵不小的风波。究其原因，并不是工作本身有多么出色。这个研究只比最新结果提升了0.03%，但却花费了价值57000多美元的TPU算力，这一下就炸锅了。

很多人说，现在的AI研究已经变成了拼算力、拼资源的代表，普通学者卷不动了

创新工场南京AI研究院的执行院长冯霁博士

1 人工智能创新，遇到天花板？

谷歌最近这个问题的确受到了挺多关注，我觉得有三个问题值得思考：

第一，大厂开始逐渐地走向「暴力美学」，也就是用「超大规模的数据」+「超大规模的算力」，暴力探索深度神经网络的天花板。不过，这种方法的边界和极限在哪？
第二，从学术和科研的角度，这种方法是否是AI唯一的出路？事实上，目前已经有大量研究在探索其他的技术路线，比如怎样做到从感知智能往认知智能去做转变、怎样利用比较小的数据量解决人工智能遇到的问题，等等。
第三，对于工业界的实际应用，是否真的需要如此大的算力？工业界有大量任务是非语音图像文本相关的，这也是在倒逼着学术界去做一些比较高效的算法。

2 人工智能算法，只有深度神经网络？

90年代之前，「人工智能」的代表技术还是以「符号主义」为主，也就是基于逻辑推理，去做Planning、Searching这样的技术。
2010年之后，迎来了人工智能的一次重要的转变，那就是用神经网络技术去更好地表示这些感知类的任务。但是，目前还有大量的人工智能的「圣杯」问题没有得到解决，比如怎样做逻辑推理、怎样做常识、怎样更好地对记忆进行建模等等。

为了解决这些问题，是不是用深度神经网络就够？这可能是目前学术界和工业界更关心的下一个重要的方向。

3 人工智能的未来：感知 vs 认知？

所谓的「感知人工智能」，就是最近几年人工智能成功落地的代表性例子，比如图像识别、语音转文字，以及一些文本生成的任务等。

怎么从这种感知类的任务，转向具有认知能力的任务，尤其是怎么用人工智能的方式来实现逻辑推理、实现常识，从而真正实现通用人工智能？

针对这个问题，据我所知，学术界主要有三条技术路线。

第一，仍然沿着神经网络这条路，通过不断地堆数据和算力尝试解决问题。
第二，尝试导入符号主义的技术，也就是连接主义+符号主义的结合。
第三，继续提升传统的逻辑推理技术，而这条路线也是最难的。

4 数据：数字时代的石油怎么采？

数据对于人工智能工程来说，重要性已经越来越高了。工业界提出了一个新的概念，叫「以数据为中心」的开发模式。相比之下，之前叫做「以模型为中心」。

传统情况下，工程师更多的时间会花在如何搭建一个模型、如何通过调参来让这个系统的性能更好。但现如今，大家80%的注意力都放在如何让数据集变得更好、如何让训练集变得更好、如何让训练集更平衡，然后让这个模型在好的数据集上训练，并得到比较好的结果。
随着我们对数据隐私需求的逐渐增长，数据带来的一些负作用以及非技术要求也越来越多了。比如当几家机构做联合建模的时候，出于对数据隐私的保护，数据不能够在机构之间分享。所以像联邦学习这样的技术，就是为了在保护数据隐私的前提下，实现联合建模。
现在大家已经逐渐地意识到，工业开发中每家机构不一样的地方就是他们的数据。现在有了非常便利的软件开源框架，也有了非常高效的硬件实现，工程师就都转而去关注数据了——这是一个Paradigm Shift，也就是范式级别的转变。

倍漾量化是以AI技术为核心的对冲基金。在公司内部，每天需要存储的数据量大概有25-30TB。因此就遭遇到了“内存墙”的问题。

为了应对海量数据对内存带来的压力，我们把数据分成了冷数据、温数据和热数据。

“冷数据”指的是，数据访问的频率不是很高，落库就好。
“热数据”是指，我们要做大量的读写任务，而数据一般都比较散，每次读写的量又非常得大。

那么如何把热数据很好的进行分布式存储？

和纯SSD方案相比，现在会有更好的解决方案，比如傲腾持久内存：它介于内存跟SSD之间，可以将热数据做分布式存储，就能一定程度地减缓“内存墙”的问题。

5 「AI-原生」的IT基础设施，是否会出现？

现在有个很火的概念叫「云原生」，它促进了云计算基础设施的重构。而针对人工智能而生的「AI-原生」，也已经实实在在地发生了。尤其在过去的10年，计算机的硬件创新其实都是在围绕着人工智能应用而发展的。

举个例子，当前我们对于云端可信计算的需求越来越多了。比如AI模型的计算过程是一个公司的核心知识产权，如果把它放到云端或者公有平台上，自然会担心计算过程有被窃取的风险。
在这种情况下，有没有基于硬件的解决方案？答案是肯定的，比如我们就在使用英特尔芯片上的SGX隐私沙盒，它能够以硬件的方式来保障我们的计算，这个其实是跨机构之间合作的一个非常重要的基础。

这就是一个非常典型的例子，也就是从需求出发，推动芯片或硬件厂商提供相应的解决方案。

6 人工智能硬件，就等于GPU？

这个观点确实就比较片面了。

以倍漾量化每天的工作来举例，当我们在做量化交易的时候，如果把数据从CPU拷贝到GPU，再拷贝回来，对于很多量化交易的任务就已经来不及了。也就是说，我们需要有一个非常高性能的、CPU版本的人工智能模型的实现。
再比如，我们有很多任务需要在网卡上直接对数据做分析和处理，而网卡上一般带的是FPGA芯片，它处理的数据如果要传到GPU上就更来不及了。对于这种低时延、又需要人工智能技术帮助的场景，我们需要一个异构的架构。
不管是FPGA、ASIC，还是CPU、GPU，在不同的场景下，它们都有不同的用武之地。
关于异构平台的编程，我看到工业界已经有了一些尝试。比如英特尔的oneAPI，我觉得是蛮重要的一个工具。也就是说，oneAPI能让同样一套代码能够自动地适配CPU、FPGA或者其他类型的芯片。这样将会大大地减少工程师的编程难度，也能够让他们专注在算法创新上。

7 未来人工智能发展的方向，还有哪些？

我觉得，可能需要一个更好的端到端的解决方案。现在其实已经从「软件1.0」升级到了「软件2.0」时代。也就是说，从传统规则驱动的复杂软件工程的构建，变成了数据驱动的软件工程构建方法。

之前，我们要靠很高的聪明才智写一系列精妙的系统，才能让整个程序能够跑起来。这就类似于机械手表，最好的程序员们都把精力放在构建“齿轮”的运转、以及如何让这个“手表”能够跑起来。
现在，如果这一套运行的规则我不知道该怎么定，那就直接把它撂给大量的数据或者机器学习算法，这个算法会生成一个新的算法，而这个新的算法是我们想去得到的东西。这种方式，有点像去造一个造机器人的机器人。
在软件2.0时代，整个软件工程的开发范式将有一个很大的转变，我们很希望得到一套端到端的解决方案，核心就是怎样更方便地实现「以数据为中心」的软件工程开发。

8 人工智能，未来如何落地？

我觉得大概有两方面。

第一，从工业界来看，还是要从第一性原理出发，也就是基于自己的需求，并综合考虑到很多的非技术因素。比如我看到有一个公司想做小区安防的人脸识别系统，但每个出入口后面要配4个非常昂贵的GPU，这就是典型的没有从需求和成本出发。
第二，学术研究未必要跟风。就像我们在刚开始时说到的那样，对于模型的规模，并不需要相互攀比：你有一个千亿的，我就要搞个万亿的，你有个万亿的我就要搞一个十万亿的。
其实有大量的任务都需要小规模的参数，或者由于成本等限制，只能提供少量的样本。在这种条件下，怎样做创新和突破？这个是学术界应该主动担起的责任。

9 人工智能创业，还是风口吗？

我们可以想想看，90年代末期，建个网站都要花2-3万元，因为当时会网络编程技术的人凤毛麟角。但是在今天，可能任何一个高中生，鼠标点一点就能建站。网络知识已经在每一个普通程序员的工具包里了。

其实，人工智能技术也是一样。在2015年左右时，搭一套深度学习框架、还要在GPU上能跑起来，全球可能不超过1000个人。而现在经历了指数级别的增长，很多人都会了。我们有理由相信，大概在五年之后，随便一个程序员的工具包里就有更为丰富的人工智能解决方案，它的实现的门槛肯定是在不断降低的。也只有这样，人工智能技术才能更为普遍地应用在每一个公司。
所以，大厂里的AI Lab是必然会消失的。就像2000年前后，很多公司都有一个Internet Lab，就是把公司所有跟网络有关的事情专门搞一个实验室，由这个实验室向其他的业务部门做技术输出。这是因为会这项技术的人特别少，他们才要做这件事情。
AI Lab也是一样的，当AI技术落地的门槛逐渐降低时，大量业务部门的人也拥有类似的技术，那这种AI Lab就必然会消失。我觉得这就是在技术发展过程中一个临时产品，这是个好事情。当大厂没有AI Lab的时候，大概就是人工智能真正遍地开花的年代。

10 人工智能，如何普惠大众？

第一，我们还需要摩尔定律的加持。现在还有大量的任务对算力的要求很大，我们必须不断进行硬件的迭代和算法的更新。只有当需要在集群上跑的事情能在手机上跑，AI才可能有大量的落地。
第二，人工智能创新的重点，要从互联网的业务转向一些传统的行业。之前大家的精力都在怎样用人工智能做更好的视觉解决方案，或者更好的推荐系统，或者更好的P图软件。但在实体经济中，其实也有大量产生数据的部门和业务。当这些实体经济数据能够更好地信息化之后，它们所带来的价值才可能远超于目前的虚拟经济。

唐杰：浅谈人工智能的下个十年

清华唐杰教授：人工智能的下一个十年，认知推理是重点

2020 年 3 月 25 日，智源研究院学术副院长、清华大学计算机系唐杰教授作客首届中科院“先导杯”并行计算应用大奖赛启动仪式，并为大家带来《人工智能下一个十年》的主题报告。

在报告中，唐老师从人工智能发展的历史开始，深入分析人工智能近十年的发展，阐述了人工智能在感知方面取得的重要成果，尤其提到算法是这个感知时代最重要、最具代表性的内容，重点讲解了 BERT、ALBERT、MoCo2 等取得快速进展的算法。最后深入介绍了认知智能的发展蓝图。

唐杰教授在这个报告中提出了一个观点。他认为人工智能经历几波浪潮之后，在过去十年中基本实现了感知能力，但却无法做到认知能力（推理、可解释等）；因此在下一波人工智能浪潮兴起时，将主要会去实现具有推理、具有可解释性、具有认知的人工智能。他提出，认知智能是 AI下一个10 年要发展、也一定会发展的重要方向。

唐杰教授在报告中也摘要了张钹院士关于第三代人工智能的理论框架体系核心思想：

建立可解释、鲁棒性的人工智能理论和方法。
发展安全、可靠、可信及可扩展的人工智能技术。
推动人工智能创新应用。

及具体实施的路线图：

与脑科学融合，发展脑启发的人工智能理论。
数据与知识融合的人工智能理论与方法。

关注数据派THU（DatapiTHU）后台回复“20200403”获取报告ppt版。

1. 报告正文

近年来，人工智能掀起了第三次浪潮，各个国家纷纷制定了人工智能的发展战略。

在我国，2016 年国务院发布《“十三五”国家科技创新规划》，明确将人工智能作为发展新一代信息技术的主要方向；2017 年 7 月，国务院颁布《新一代人工智能发展规划》；2017 年 10 月，人工智能被写入“十九大报告”；今年，人工智能又作为“新基建”七大领域之一被明确列为重点发展领域。

美国于 2016 年先后发布了《为人工智能的未来做好准备》和《国家人工智能研究与发展战略规划》两份报告，将人工智能提升到了国家战略的层面；2018 年，白宫举办人工智能峰会，邀请业界、学术界和政府代表参与，并成立了人工智能特别委员会。日本、德国等多个国家也发布了相关的战略、计划，大力推进人工智能的发展。

在这个时代背景下，我们需要考虑人工智能未来十年会怎样发展。首先，我们需要从人工智能的发展历史中找到灵感。

2. AI 的发展历史

随着克劳德·香农（Claude Shannon）在 1950 年提出计算机博弈，以及阿兰·图灵（Alan Turing）在 1954 年提出“图灵测试”，人工智能这一概念开始进入人们的视野。

到了 20 世纪 60 年代，人工智能出现了第一波高潮，发展出了自然语言处理和人机对话技术。其中的代表性事件是丹尼尔·博布罗（Daniel Bobrow）在 1964 年发表的 “Natural language input for a computer problem solving system”，以及约瑟夫·维森鲍姆 (Joseph Weizenbaum) 在 1966 年发表的 “ELIZA—a computer program for the study of natural language communication between man and machine”。

此外，还有一个重要的发展——知识库。1968 年，爱德华·费根鲍姆 (Edward Feigenbaum)提出首个专家系统 DENDRAL 的时候对知识库给出了初步的定义，其中隐含了第二波人工智能浪潮兴起的契机。

之后，人工智能进入了一轮跨度将近十年的寒冬。

20 世纪 80 年代，人工智能进入了第二波浪潮，这其中代表性的工作是 1976 年兰德尔·戴维斯 (Randall Davis)构建和维护的大规模的知识库，1980 年德鲁·麦狄蒙（Drew McDermott）和乔恩·多伊尔（Jon Doyle）提出的非单调逻辑，以及后期出现的机器人系统。

在 1980 年，汉斯·贝利纳 (Hans Berliner)打造的计算机战胜双陆棋世界冠军成为标志性事件。随后，基于行为的机器人学在罗德尼·布鲁克斯（Rodney Brooks）的推动下快速发展，成为人工智能一个重要的发展分支。这其中格瑞·特索罗（Gerry Tesauro）等人打造的自我学习双陆棋程序为后来的增强学习的发展奠定了基础。

20 世纪 90 年代，AI 出现了两个很重要的发展：

第一项内容是蒂姆·伯纳斯·李（Tim Berners-Lee）在 1998 年提出的语义互联网路线图，即以语义为基础的知识网或知识表达。后来又出现了 OWL 语言和其他一些相关知识描述语言。
第二项内容是杰弗里·辛顿（Geoffrey Hinton）等人提出的深度学习，这标志着第三次人工智能浪潮的兴起。

在这次浪潮中，很多企业参与其中，如塞巴斯蒂安·特（Sebastian Thrun）在谷歌主导推出的自动驾驶汽车，IBM 的沃森（Watson）于 2011 年在《危险边缘》（Jeopardy）中获得冠军，苹果在 2011 年推出的自然语言问答工具 Siri 等。

以上就是人工智能在 60 多年的发展历史中取得的一些标志性成果和技术。

3. AI 近十年的发展

我们再深入分析 AI 近十年的发展，会看到一个重要的标志：人工智能在感知方面取得重要成果。人工智能在语音识别、文本识别、视频识别等方面已经超越了人类，我们可以说 AI 在感知方面已经逐渐接近人类的水平。

从未来的趋势来看，人工智能将会有一个从感知到认知逐步发展的基本趋势，如下图所示：

首先，我们来看看 AI 在感知方面做了哪些事情。在感知方面，AlphaGo、无人驾驶、文本和图片之间的跨媒体计算等取得了快速发展。从宏观来看，算法是这个感知时代最重要、最具代表性的内容。如果把最近十年的重要算法进行归类，以深度学习为例进行展示的话，我们可以得到下图所示的发展脉络。

最上面浅紫色部分的内容是以前向网络为代表的深度学习算法。
第二层淡绿色部分的内容表示一个以自学习、自编码为代表的学习时代。
第三层橘色部分的内容代表自循环神经网络（概率图模型的发展）的算法。
最下面粉色部分是以增强学习为代表的发展脉络。

总体来讲，我们可以把深度学习算法归类为这四个脉络，而这四个方面都取得了快速的进展。

如果再深入追溯最近几年最重要的发展，会发现 BERT 是一个典型代表。以 BERT 为代表的预训练算法得到了快速的发展，基本上所有的算法都采用了预训练+微调的方法，如下图所示：

论文链接：https://arxiv.org/pdf/1810.04805.pdf

BERT 在 2018 年年底通过预训练打败了 NLP 上 11 个任务的经典算法；XLNet 在 2019 年提出来通过双向网络的方法超过了 BERT ，如下图所示：

论文链接：https://arxiv.org/pdf/1906.08237.pdf

再后来，ALBERT 又超过了 XLNet 和原始的 BERT。整个 BERT 的发展引发了后续一系列的工作。

论文链接：https://arxiv.org/abs/1909.11942

在其他方面，也涌现了很多有代表性的工作。如在 2018 年年底，英伟达通过预训练模型实现高清视频的自动生成。

论文链接：https://arxiv.org/abs/1808.06601

DeepMind 又把代表性的关联关系生成到 graph_net 中，于是在网络中可以实现一定的推理，其结构如下图所示：

论文链接：https://arxiv.org/abs/1806.01261

Facebook 的何恺明等人提出了以 contrastive learning 为基础的 MoCo 及 MoCo2，在很多无监督学习（Unsupervised learning）的结果上超过了监督学习（Supervised learning），这是一个非常重要的进展，这也标志着预训练达到了一个新的高度。

论文链接：https://arxiv.org/abs/1911.05722

杰弗里·辛顿等人利用 SimCLR，通过简化版的 contrastive learning 超过了 MoCo，后来 MoCo2 又宣称超过了 SimCLR。

论文链接：https://arxiv.org/abs/2002.05709

总体来看，在算法的时代，预训练算法取得了快速的进展。那么未来十年，AI 将何去何从？

4. 展望未来十年

这里，我想引用张钹院士提出来的第三代人工智能的理论体系。

2015 年，张钹院士提出第三代人工智能体系的雏形。

2017 年，DARPA 发起 XAI 项目，核心思想是从可解释的机器学习系统、人机交互技术以及可解释的心理学理论三个方面，全面开展可解释性 AI 系统的研究。

2018 年底，正式公开提出第三代人工智能的理论框架体系，核心思想为：

建立可解释、鲁棒性的人工智能理论和方法。
发展安全、可靠、可信及可扩展的人工智能技术。
推动人工智能创新应用。

其中具体实施的路线图如下：

与脑科学融合，发展脑启发的人工智能理论。
数据与知识融合的人工智能理论与方法。

在这个思想框架下，我们做了一定的深入研究，我们称之为认知图谱。其核心概念是知识图谱+认知推理+逻辑表达。

下面展开解释一下。

知识图谱大家很熟悉，是谷歌在 2012 年提出来的。这其中有两个重磅的图灵奖获得者：一个是爱德华·费根鲍姆（1994 年图灵奖得主），他在 20 世纪 60 年代就提出来了知识库的一些理论体系和框架；另一个是 1994 年蒂姆·伯纳斯·李（2016 年图灵奖得主、WWW 的创始人、语义网络的创始人）。这里面除了知识工程、专家系统，还有一个代表性的系统 CYC，CYC 可以说是历史上持续时间最长的项目，从 1985 年开始，这个项目直到现在还在持续。

说完了知识图谱，我们来说一下认知图谱。

相信很多人对认知图谱都比较陌生，这里我们举一个例子来说明一下。假如我们要解决一个问题：

“找到一个 2003 年在洛杉矶的 Quality 咖啡馆拍过电影的导演（Who is the director of the 2003 film which has scenes in it filmed at The Quality Cafe in Los Angeles）”

如果是人来解决这个问题的话，可能是先追溯相关的文档，如 Quality 咖啡馆的介绍文档，洛杉矶的维基百科页面等，我们可能会从中找到相关的电影，如 Old School ，在这个电影的介绍文档里面，我们可能会进一步找到该电影的导演 Todd Phillips，经过比对电影的拍摄时间是 2003 年，最终确定答案是 Todd Phillips，具体流程如下图所示：

当我们用传统算法（如 BIDAF, BERT, XLNet）进行解决的时候，计算机可能只会找到局部的片段，仍然缺乏一个在知识层面上的推理能力，这是计算机很欠缺的。人在这方面具有优势，而计算机缺乏类似的能力。

人在解决上述问题的过程中存在推理路径、推理节点，并且能理解整个过程，而 AI 系统，特别是在当下的 AI 系统中，深度学习算法将大部分这类问题都看作是一个黑盒子。

怎么办呢？对此，我们提出了“认知图谱”这个概念，我们希望用知识表示、推理和决策，包括人的认知来解决上述问题，其基本结构如下：

这个基本的思想是结合认知科学中的双通道理论。在人脑的认知系统中存在两个系统：System 1 和 System 2，如下图所示。System 1 是一个直觉系统，它可以通过人对相关信息的一个直觉匹配寻找答案，它是非常快速、简单的；而 System 2 是一个分析系统，它通过一定的推理、逻辑找到答案。

在去年的 NIPS 上，图灵奖获得者 Bengio 在大会主旨报告的 Keynote 也提到，System 1 到 System 2 的认知是深度学习未来发展的重要的方向，如下图所示：

因此，我们大概用这个思路构建了一种新的、称为认知图谱的方法，其中在 System 1 中主要做知识的扩展，在 System 2 中做逻辑推理和决策。

如上图所示，我们在 System 1 中做知识的扩展，比如说针对前面的问题，我们首先找到相关的影片，然后用 System 2 来做决策。如果是标准答案，就结束整个推理的过程。如果不是标准答案，而相应的信息又有用，我们就把它作为一个有用信息提供给 System 1，System 1 继续做知识的扩展，System 2 再来做决策，直到最终找到答案。

在ACL 2019 上我们有这样一个工作，如下图所示：

在两个系统中，System 1 是一个直觉系统，我们用 BERT 来实现，实现了以后，我们就可以做相关的信息的匹配；System 2 就用一个图卷积网络来实现，在图卷积网络中可以做一定的推理和决策。通过这个思路，我们就可以实现一定的推理+决策。

这是一个总体的思路，要真正实现知识和推理，其实还需要万亿级的常识知识库的支持。也就是说，四五十年前费根鲍姆做过的事情，也许我们现在要重做一遍，但是我们要做到更大规模的常识知识图谱，并且用这样的方法，用这样的常识知识图谱来支撑上面的深度学习的计算，这样才能真正实现未来的 AI。

所以说，这一代人工智能浪潮也许到终点还是没有推理能力，没有可解释能力。而下一波人工智能浪潮的兴起，就是实现具有推理、具有可解释性、具有认知的人工智能，我们认为这是 AI 下一个 10 年要发展、也一定会发展的一个重要方向。

资料

机器学习与神经认知

【2020-9-19】颜水成&刘嘉：机器学习与认知神经的火花碰撞
- 刘嘉认为，通过对人脑的类比或仿真，科学家更易在创造智能体的工作上取得成功。科研领域的重大突破往往产生于交叉领域。因为在交叉地带，一个未知的领域，最可能产生新的东西。
- 知识图谱+深度学习，或许能够解决人工智能所面临的困境，但显然不是唯一解。将常识与深度学习进行融合，来创造一个在他们看来有认知的智能体。这种“认知”与神经科学家们所理解的“认知”不是同一个概念
（1）一、GPT-3剖析
- GPT-3非常了不起,可能是深度学习巅峰式的成果，但GTP-3和人的思维，在本质上是不一样的，它的推理方式更多的是一种概率上的连接，可能在训练的数据中出现了“脚”与“眼睛”的某种关联，它就学习出两者之间一种概率链接，在这个过程中，它并没理解“脚”和“眼睛”是什么。而人类则是先理解后推理。
- GPT与非常庞大的知识图谱进行融合，这与我们大脑的运行机制越来越像，如果摔倒了，知识图谱推理出要受伤，但人的第一反应则是自己感到疼，这是一种共情能力，是基于我们对他人心理的一个推理，猜测他现在的感受
（2）二、System 1 & System 2
- Bengio等人提出人工智能将从System 1（潜意识，反应比较快，但不需要做推理）转向 System 2（显意识，需要一个推理、判断的过程）。
  - 人类有两套系统，一套是皮层下系统，对应脑干等中枢系统；一套是皮层系统，对应大脑皮层。这种结构归因于人类的大脑是从低等动物一点点积累起来的。前者比较古老，主要掌管呼吸、心跳等比较初等但与我们生存有密切关系的活动，所以反应比较快，例如我们看到一个老虎出现，它会立刻加强肾上腺素，做出应激反应；而后者，更多的是去理解到底发生了什么事，然后做出推理和判断，例如我们发现原来这个老虎是人扮的，这时皮层系统就会告诉皮层下系统，从而调节原来的紧张。
  - 这两套系统物理上完全独立，但有交互
- 人脑学习机制，将System 1和System 1类比开车，熟悉的道路直接操作，不用过多思考，而陌生的路就开始调动推理能力
  - 学习的过程中，最开始我们不知道怎么去表征外部的世界，在这种情况下，大脑神经的反应模式基本上就是，让与它相关区域的所有神经元全都活动；但第二次可能就只有40%的神经元活动，因为其他的神经元活动已经没有任何意义了；经过反复的学习之后，最终可能只有4、5个神经元去反应，这就是所谓的Sparse Coding。经过Sparse Coding之后，系统会集中在一个特定的任务上，变得非常精准且高效。在这个过程中，开始时需要更多的意识参与，然后逐渐减少而变得自动化。
  - 还需要一个警觉系统。学会走路后，我们根本不去关心应该先迈哪只脚，以及应该迈多远，完全可以一边走路一边脑袋里想着自己的事情。直到我们突然踩了一个坑，这时候我们的警觉系统就开始起作用了，它会快速启动System 2，对 System 1进行干涉，让你保持平衡而不会摔倒。然后你的视觉注意到原来前面是个大坑，于是马上反应过来改变路径。这个警觉系统就在我们大脑内侧，叫“前扣带回”。
（3）三、大脑如何处理视觉信息
- 早在1968年，两个诺贝尔奖获得者Hubel和Wiesel他们对猫做实验，将细小的探针插入到神经元上去，然后给猫一个刺激，例如点、线以及其他复杂的图形，然后看不同的刺激会引起哪个脑区的兴奋。他们发现V1、V2、V3、V4等脑区，越往后面敏感的图形越复杂。这个研究说明，我们的大脑在处理视觉信息时，是将复杂的图像还原成局部元素，然后再进行合成的。这种方法事实上到现在仍然在用。
- 图见原文
（4）四、关于记忆
- 人会经常忘记一些事情，特别是老年人。那么我们的记忆是真的从脑子里完全消失了，还是被打包存储在记忆深处某个地方了？
- 两种情况都有
  - 不可能记得所有的事情，我们的大部分经历都会被忘掉
  - 记忆还在，但没有找到合适的途径把它提取出来
- 目前普遍认为人类记忆有三级加工模型，分别为感觉记忆、短时记忆和长时记忆。如果一个信息不能转化为长时记忆，即引起神经元突出的持久改变（例如相邻神经元突出结构的变化、神经元胶质细胞数量的增加和神经元之间突出连接数量的增加），那么它就会被我们彻底地遗忘掉。
（5）五、神经元数目
- ① 脑神经元的数量从出生之后就不会再增长
  - 变化的是神经突触的数目以及神经元之间的连接。出生时，婴儿大脑皮层突触密度远低于成人；但出生后的几个月内，大脑皮层突触迅速增加，4岁左右，大脑皮层突触的密度会达到顶峰，约为成年人的150%。类比人工神经网络的话，你可以理解为一个全连接系统。随后，随着年龄和经验的增长，突触数目会慢慢减少，一些连接就会剪断。但也正是这样，我们反而变得更加聪明。（新生儿神经连接逐渐完善，见原文）
- ② 神经元数目可能不一样。会因为神经元数量的多少，影响我们的智力水平吗？
  - 不同的人神经元数目不同，但人类的智商似乎不受神经元数目的影响，或者至少可以说神经元数目不是决定智商的本质因素。
  - 男性的大脑平均而言要比女性重100克左右。但从来没有任何证据表明男性会比女性更聪明。从IQ上来讲，两者是一样的。图见原文
  - 一个大致的估计认为，人类的神经元数量在800亿到1000亿之间，也即是说，不同的人之间相差100亿个神经元是一件很正常的事情
  - 猜测：真正决定人类智能的，不是神经元的数量，而是它们之间的连接。这些连接很大程度上取决于后天的学习。
（6）六、通用智能与神经元数目
- 人工智能超越人类智能，只是一个时间问题，因为它有无限的算力、无限的存储能力，能够无限地扩展下去。而人不行，出生后就不会增长。
- 通用智能其实不是人类所特有的，是所有生物体都有的。
  - 例如斑马鱼只有80万~100万个神经元；小鼠有1亿量级的神经元；狨猴神经元量级在10亿左右；恒河猴在百亿；而人类在千亿量级。但无论是斑马鱼也好，还是老鼠、狨猴、恒河猴，或者人类，它们都具有通用智能。图见原文
- 生物智能应该有一套规则，这套规则本身与神经元数量无关，而正是这套规则使得我们生物具有了通用智能。也正是这样的规则使得斑马鱼与GPT-3有明显的区别。一旦把这种通用智能的规则搞清楚了，加上人工智能的无限可扩展能力，未来的人工智能发展，将不可限量。
（7）七、Baby Learning 有无生理基础？
- 人类的学习过程，大多情况下是一种无监督学习，通过在物理世界中，跟环境接触/观察，从而引起突触的变化。这根GPT-3有很大差别
- “Baby Learning”的概念，核心就是要摆脱现在依赖标签数据的现状，给一些数据，能够从数据中自动学习出一些知识来。现在人工智能里面也有两个方向
  - 一个叫自训练，也即从数据中预测标签，然后用预测标签作为新的标签，来帮助训练模型；
  - 另一个叫自监督学习，也即通过pre-text tasks来训练。
- 从发育的角度来看人类智能的发展，现在还处于一个比较分离的状态。
- 大家目前的研究更多地集中在认知功能的变化上，但这些却缺少神经学上的证据。
- 另一方面，我们对神经元突触之间的连接怎么搭建有了很好的研究，但却忽略了它功能上的变化，即为什么会这么搭，搭建之后发生了什么改变等，却不清楚。这是目前研究的一个空白点，背后的主要原因是伦理的约束。
（8）八、大脑噪声模式
- 什么因素让突触从原来连接状态变成不连接，或者反过来？
- 上世纪50年代，一位神经生理学家唐纳德·赫布曾提出一个理论“赫布理论”，描述了突触可塑性的基本原理。简单来说就是“Cells that fire together, wire together”，即当两个神经元同时发放时，它们就会产生连接。
- 大脑里有很多噪音，神经元一些自主地放电活动，即使处于静息状态也会有，这些噪音事实上消耗了大脑95%的能量。过去认为噪声就只是噪声。但大约在10年前，神经科学家们发现，其实这些噪音是有模式的，正是这种模式试图把不同的神经元进行沟通。图见原文
- 两个神经元以同样的频率同步发放信号，那么他们就会保持一种连接状态；而如果它们是异步发放噪音，那么即使它们现在处于连接状态，这种连接也会慢慢衰退。
（9）九、认知的两套模型：规则+推理
- 如果某个样本只出现少数几次的话，最好的策略就是直接把这个样本存储下来，而非再用它去训练模型；需要的时候直接查询匹配即可；而对那些经常出现的样本，则需要训练模型，通过模型来查找。
- 大脑就是采用的这种机制，我们称它为“混合模型”
（10）十、大脑中的跨感觉影响
- 大脑对视觉和听觉的处理有显式分区，图见原文
- 不同的感知信息处理模块之间，并不是完全独立的，而是随时在发生相互影响。
（11）十一、大脑中，常识是怎么存在的？
- 最开始我们认为常识完全与后天经验有关，是一种知识。但现在逐渐意识到，常识可能不是一种知识，而是一套规则。
- 有大量证据表明，许多常识来自于先天的基因。
（12）十二、记忆提取的野火模型
- 看到一位非常熟的人，但怎么也想不起他的名字，然后当有一个极小的线索出现的时候，一下子就想起来了。这个过程，在大脑中到底发生了什么？
- 这种现象叫做“野火模型”（注：在心理学中常叫做“激活扩散模型”），从一点把火点起来，它就会往四周燃烧；一个线索的出现就会把相邻的东西给激活。
- 智能的目的是什么。从认知神经科学角度的一个理解认为，智能的目的就是对变化环境的适应。从这个角度来评价重要性问题。
（13）十三、学习不是孤立过程
（14）十四、精确测量每个神经元
- 当前的技术可以精确地测量每一个神经元的Action吗？
- 以前不可以，现在已经可以通过双光子显微成像技术等精确记录一个神经元及它的发放过程了。现在准确记录大脑所有神经元的每一刻活动只是一个时间和技术问题。
（15）十五、不同生物，神经元一样吗？
- 基本上是类似的。神经元本身有很多种类型，但在动物中，大家的神经元类型基本上是差不多的
（16）十六、大脑可以复制吗？
- 记忆是否能够下载到一台计算机中？如果可以，那就意味着永生，因为记忆是我们最核心的东西。
- 把大脑切片，切得足够精细，重现所有连接。但它会产生同样的功能吗？不会。
（17）十七、梦的解析
- 睡觉的时候，其实大脑仍然在工作，会清洗掉一些信息，以便第二天继续工作。关于梦，从神经科学的角度怎么解释？
- 人可能是动物中唯一一种有深度睡眠的动物。像鸟、马等，它们在睡觉的时候，其实不是两个半球同时沉睡，而是交替入睡。
- 人类的这种睡眠模式，对人类智力的提升可能起到一个非常关键的作用。为什么呢？我们人类在睡觉的时候，其实大脑并没有完全休息，他在重放我们白天所经历的一些事情，把其中关键的信息提取出来，并遗忘掉哪些不重要的东西。我们白天所感知到的信息都是具象的，但经过我们大脑这种睡眠时的重放，就能够变成一种抽象的东西。这个过程，我们现在知道它发生在海马体，海马体与我们的记忆和学习有关。
- 梦的定义就是一种学习；其次它也在不断地做不同的假设。人的学习是一种主动学习，学习之后会做一些预测，当然这些推测很多时候是不靠谱的，所以你会觉得梦稀奇古怪的，没有任何逻辑目的。
- 有些时候人在梦境中是知道自己在做梦，这是因为我们的意识在随时在监视大脑，这个时候，会感知到自己在做梦。
（18）十八、神经元的复杂度
- 神经元的胞体和突触都在进行信息处理，它们的复杂度在量级上哪个为主？胞体复杂度更高
- Threshold是神经元的一个功能，但这里强调的是，目前的DNN是没有神经元胞体的成分的。
现在人工智能的研究有两种方式
- 一种是不管人脑怎么干，我们凭经验设计一套规则来做；
- 另一种是看人的智能是怎么产生的，然后进行类比或仿真。
- 我觉得后者成功的概率会更大一些。

大脑工作原理

详见站内专题: 大脑工作原理

AI 术语

乌鸦智能

朱松纯：一只乌鸦给我们的启示

同属自然界的鸟类，我们对比一下体型大小都差不多的乌鸦和鹦鹉。
- 鹦鹉有很强的语言模仿能力，说一个短句，多说几遍，它能重复，这就类似于当前的由数据驱动的聊天机器人。二者都可以说话，但鹦鹉和聊天机器人都不明白说话的语境和语义，也就是它们不能把说的话对应到物理世界和社会的物体、场景、人物，不符合因果与逻辑。
- 可是，乌鸦就远比鹦鹉聪明，它们能够制造工具，懂得各种物理的常识和人的活动的社会常识。
  - 介绍一只乌鸦，它生活在复杂的城市环境中，与人类交互和共存。YouTube网上有不少这方面的视频。我认为，人工智能研究该搞一个“乌鸦图腾”，因为我们必须认真向它们学习。
  - 上图a是一只乌鸦，被研究人员在日本发现和跟踪拍摄的。乌鸦是野生的，也就是说，没人管，没人教。它必须靠自己的观察、感知、认知、学习、推理、执行，完全自主生活。假如把它看成机器人的话，它就在我们现实生活中活下来。如果这是一个自主的流浪汉进城了，他要在城里活下去，包括与城管周旋。 - 首先，乌鸦面临一个任务，就是寻找食物。它找到了坚果（至于如何发现坚果里面有果肉，那是另外一个例子了），需要砸碎，可是这个任务超出它的物理动作的能力。其它动物，如大猩猩会使用工具，找几块石头，一块大的垫在底下，一块中等的拿在手上来砸。乌鸦怎么试都不行，它把坚果从天上往下抛，发现解决不了这个任务。在这个过程中，它就发现一个诀窍，把果子放到路上让车轧过去（图b），这就是“鸟机交互”了。后来进一步发现，虽然坚果被轧碎了，但它到路中间去吃是一件很危险的事。因为在一个车水马龙的路面上，随时它就牺牲了。我这里要强调一点，这个过程是没有大数据训练的，也没有所谓监督学习，乌鸦的生命没有第二次机会。这是与当前很多机器学习，特别是深度学习完全不同的机制。
    - 然后，它又开始观察了，见图c。它发现在靠近红绿路灯的路口，车子和人有时候停下了。这时，它必须进一步领悟出红绿灯、斑马线、行人指示灯、车子停、人流停这之间复杂的因果链。甚至，哪个灯在哪个方向管用、对什么对象管用。搞清楚之后，乌鸦就选择了一根正好在斑马线上方的一根电线，蹲下来了（图d）。这里我要强调另一点，也许它观察和学习的是别的地点，那个点没有这些蹲点的条件。它必须相信，同样的因果关系，可以搬到当前的地点来用。这一点，当前很多机器学习方法是做不到的。比如，一些增强学习方法，让机器人抓取一些固定物体，如积木玩具，换一换位置都不行；打游戏的人工智能算法，换一换画面，又得重新开始学习。
    - 它把坚果抛到斑马线上，等车子轧过去，然后等到行人灯亮了（图e）。这个时候，车子都停在斑马线外面，它终于可以从容不迫地走过去，吃到了地上的果肉。你说这个乌鸦有多聪明，这是我期望的真正的智能。
这个乌鸦给我们的启示，至少有三点：
- 其一、它是一个完全自主的智能。感知、认知、推理、学习、和执行，它都有。我们前面说的，世界上一批顶级的科学家都解决不了的问题，乌鸦向我们证明了，这个解存在。
- 其二、你说它有大数据学习吗？这个乌鸦有几百万人工标注好的训练数据给它学习吗？没有，它自己把这个事通过少量数据想清楚了，没人教它。
- 其三、乌鸦头有多大？不到人脑的1%大小。人脑功耗大约是10-25瓦，它就只有0.1-0.2瓦，就实现功能了，根本不需要前面谈到的核动力发电。这给硬件芯片设计者也提出了挑战和思路。十几年前我到中科院计算所讲座，就说要做视觉芯片VPU，应该比后来的GPU更超前。我最近参与了一个计算机体系结构的大项目，也有这个目标。在座的年轻人想想看，你们有很大的机会在这里面，这个解存在，但是我们不知道怎么用一个科学的手段去实现这个解。讲通俗一点，我们要寻找“乌鸦”模式的智能，而不要“鹦鹉”模式的智能。当然，我们必须也要看到，“鹦鹉”模式的智能在商业上，针对某些垂直应用或许有效。

恐怖谷定律

【2020-11-12】恐怖谷（Uncanny Valley）最早是在机器人、3D电脑动画和计算机图形学（Computer Graphics,简称CG）领域存在着一个的假设。这个假设是由日本现代仿真机器人教父级人物森政弘（Masahiro Mori）于1970年提出：当仿真机器人的外表和动作像真实人类，但又不是完美拟合时，作为观察者的人类会产生厌恶反应。
我们对于机器人的情感反应是随机器人和人类相似程度的增加而增加的，然而当相似度达到一定比例，我们的情感会突然逆转，产生厌恶感，而随着相似度的继续增加，我们的情感反应才会再次爬升起来。
恐怖谷不是人类所独有的，很可能是进化的产物。2011年，加州大学圣地亚哥分校的认知科学家艾谢•瑟金（Ayse Saygin）和同事们从认知神经科学的角度研究了在观看机器人、仿真机器人和人类运动时，大脑皮层中到底发生了什么不同的活动。结果发现在运动感知系统（Action Perception System，APS，自身实施动作和观看他人动作时均会有所反应）中，的确会随刺激类型的不同而有不同的激活。相较于机器人和人类，在观看仿真机器人的活动影像时，大脑与运动感知系统相关的区域活动更加活跃（如上图）。这一结果恰恰可以运用认知失调的逻辑来解释，即当我们看机器人和人类活动时，他们就如我们预期的一样，而仿真机器人却不同，他们外观酷似人类，而动作却和机器人相同，这在我们头脑中造成了与预期不符的矛盾，从而要调动更多的大脑区域来调整这些矛盾。
参考

莫拉韦茨悖论

【2021-5-6】为什么AI无法解决一般智能问题
当前的一些人工智能探索思路，例如“神经符号系统“、Bengio的系统2深度学习思想、LeCun提出的自监督学习等虽然取得了不错的进展，但是它们仍然涉及在预结构化空间运行，没有一个思路能解决这个空间从何而来，因此也没有解决从狭隘到一般智能的具体需求。
符号AI假定人类思维基于符号的操纵，任何能够“处理”符号的系统都是智能的。符号 AI 要求人工开发人员“仔细”定义计算机程序行为的规则、事实和结构。符号系统可以解决很多问题，如记忆信息、以超快的速度计算复杂的数学公式以及模拟专家决策。流行的编程语言和我们每天使用的大多数应用程，其基础都是符号 AI 。
但符号 AI只能局限于解决有着清晰“分步解决方案”的问题。而人类和动物执行的大多数任务不能用明确的规则来表示。
- “智力任务，如下棋、化学结构分析和微积分，在计算机中相对容易执行。但是有些一岁的孩子甚至是老鼠都能做到的一些活动对于计算机而言却难以做到。这被称为“Moravec’s paradox” （”莫拉韦茨悖论“），以科学家Hans Moravec（汉斯·莫拉韦茨）的名字命名，他说，与人类相比，计算机可以用很少的算力执行高水平的推理任务，但很难执行一些人类和动物自然获得的简单技能。数百万年来，人类大脑已经进化出机制，使我们能够执行基本的感应运动功能。我们接球，我们识别面孔，我们判断距离，一切似乎都毫不费力。
“智力活动”是近几年发展的概念，在大量的训练中完成各种任务，那么是能力让我们产生了智力，还是智力让我们产生了能力？

当前人工智能系统的缺陷：目前人工智能工作的方法，是在研究员已经想出了如何构建和简化问题的基础上开发的，以便现有的计算机和流程能够解决这些问题。要拥有真正的一般智能，计算机需要拥有能够定义和构建自己的问题的能力。

人工智能十大里程碑

【2019-10-17】摘自：人工智能十大里程碑

从AI换脸到AI试穿，再到AI助“数字永生”……如今，人工智能正全方位渗透到我们的生活中，重要且不可忽视。

【2021-5-19】BBC人工智能纪录片：起源，学习，认知世界

艾萨克·阿西莫夫提出“机器人三大定律”（1942）

1942年，艾萨克·阿西莫夫（IsaacAsimov）发表了短篇小说《转圈圈》(Runaround，又译作《环舞》)。这位著名的科幻作家首次完整地阐述了他的“机器人三大定律”：

第一定律：机器人不得伤害人类，或因不作为而让人类受到伤害。
第二定律：机器人必须服从人类的命令，除非这些命令违背了第一定律。
第三定律：在不违背第一与第二定律的前提下，机器人必须保护自己。

《转圈圈》讲述的是一个名叫速必敌（Speedy）的机器人，它接受了人类的命令，去危险的硒溶池执行采集任务。当它越来越靠近目的地，危险的程度越来越高，第三定律让它不得不离开以保护自己；但当它开始远离目的地，第二定律又让它必须服从命令前进。因此，它被置于一个前后两难的矛盾境地，围绕着硒溶池不停地转圈圈。

人工智能十大里程碑

水星上，两名宇航员寻找不停转圈圈的速必敌

阿西莫夫的“机器人”系列故事吸引了很多科幻迷，其中的一些科学家开始思考机器拥有思考能力的可能性。直到现在，仍有许多人使用阿西莫夫的三大定律，进行人工智能的智力练习。

（1950）艾伦·图灵提出模仿游戏

1950年，艾伦·图灵（Alan Turing）写道：“我提议考虑一个问题——‘机器能思考吗？’”这句话是其开创性的研究论文《计算机器与智能》的开头。该论文提出了一个思考机器智能的模型。他反问道，如果一台机器能够模仿人类有意识的行为，难道它不会有意识吗？

人工智能十大里程碑

艾伦·图灵在1950年首次提出了判断机器意识的基准

受到理论性问题的启发，图灵经典的“模仿游戏”诞生了。游戏设置了三个角色，人、机器和人类“询问者”。“询问者”需要与其余二者在物理空间上分隔开。“询问者”发起提问，且根据二者的纯文本回应（避免声音回答产生干扰），区分机器和人。如果一台机器能够与人类沟通（注：图灵认为理想情况是使用Teleprinter，即“电传打字机”），且让“询问者”难以分辨人与机器的分别，那么这台机器就被认为具有智能。

在图灵时代，没有一台机器能够通过这样的测试，直到今天也没有。但他的测试为区分机器是否具有智能提供了一个简单的标准。它帮助塑造了人工智能的哲学。

（1956）达特茅斯举办人工智能大会

到1955年，世界各地的科学家已经开始思考一些概念问题，比如神经网络和自然语言，但还没有统一的概念来概括这些与机器智能有关的领域。

达特茅斯学院（Dartmouth College）数学教授约翰·麦卡锡（John McCarthy）创造了“人工智能”这个术语来囊括这一切。

由麦卡锡领导的一个小组申请了拨款，在第二年举办了一场人工智能大会。1956年夏天，他们邀请了许多顶尖科研人员到特茅斯礼堂参加会议。科学家们讨论了人工智能研究诸多的潜在发展领域，包括学习和搜索、视觉、推理、语言和认知、游戏（尤其是国际象棋），以及人机交互（比如个人机器人）。

人工智能十大里程碑

这场讨论达成的普遍共识是，人工智能具有造福人类的巨大潜力。他们得出了一个“机器智能可能产生影响的研究领域”的总体框架。这次会议规范并促进了作为一门研究学科的人工智能在此后多年的发展。

（1957）弗兰克·罗森布拉特创造了感知机

神经网络的基本结构被称为“感知机”（Perceptron），相当于节点（node），接收一系列输入并进行计算，对其进行分类和置信水平分析。举例而言，“输入”可能会分析一张图片的不同部分，并对图像中是否有人脸进行“投票”。节点将会对投票行为和置信水平进行计算，并得出结论。今天，在强大的计算机上运行的人工神经网络，连接了数十亿计这样的结构。

但在强大的计算机出现前，感知机就已经存在了。20世纪50年代末，一位年轻的心理学家，弗兰克·罗森布拉特（Frank Rosenblatt），为一台名为Mark I的感知机建立了一个机械模型。

人工智能十大里程碑

弗兰克·罗森布拉特在康奈尔航空实验室建立了一个“神经网络”

这台机器是为图像识别而设计的。它是一个模拟神经网络，其中的感光单元矩阵通过导线与节点相连。罗森布拉特开发了一种“感知机算法”，引导网络逐渐调整其输入强度，直到它们始终正确地识别图像，从而有效地让它进行学习。

当时，罗森布拉特受到美国海军的经费资助，召开了新闻发布会。《纽约时报》抓住了发布会的要点：“海军透露了一种电子计算机的雏形，希望未来它能够走、说、写、看、自我复制并意识到自己的存在。”如今，这台最早的感知器存放在美国的史密森尼博物院（Smithsonian）中。直到20世纪80年代，科学家们还在激烈地讨论感知机的相关问题。这对于创建神经网络的物理实体非常重要，而在此之前，神经网络主要是一个学术概念。

（1960）人工智能的第一个冬天

人工智能已经将其大部分的历史投入到研究领域中。在20世纪60年代的大部分时间里，美国国防部高级研究计划局（DARPA）等政府机构为研究投入大量资金，但对于最终的回报要求不多。与此同时，为了保证经费充足，人工智能的学者经常夸大他们的研究前景。这一切在60年代末70年代初发生了改变。

1966年，语言自动处理咨询委员会（ALPAC）向美国政府提交了一份报告；1973年，英国科学研究委员会（SRC）向英国政府提交了一份由知名应用数学家James Lighthill爵士带头起草的报告。两份报告都对人工智能研究各个领域的实际进展提出了质疑，它们看待技术前景的态度也非常悲观。Lighthill报告认为，用于语音识别等任务的人工智能很难扩展到对政府或军方有用的规模。

人工智能十大里程碑

1973年BBC录制的AI拥护者与反对者James Lighthill的辩论。因此，美国政府和英国政府都开始削减大学人工智能研究的资金。在上世纪60年代的大部分时间里，DARPA一直慷慨地提供人工智能研究经费。如今，DARPA要求研究计划必须有明确的时间表，并且详细描述项目成果。当时的人工智能似乎是让人失望的，它的能力可能永远达不到人类的水平。人工智能第一个“冬天”一直持续到70年代，并且继续蔓延到80年代。

（1987）人工智能迎来第二个冬天

20世纪80年代的人工智能发展，是随着“专家系统”（Expert Systems）的发展与大获成功开始的。专家系统是一种模拟人类专家解决领域问题的计算机程序系统。系统内存储了大量领域知识，并模仿人类专家来做出决策。这一系统最初是由卡内基梅隆大学为数字设备公司（Digital Equipment Corporation）开发的，后者迅速采用了这项技术。但是专家系统需要昂贵的专用硬件支持，这就出现了一个问题：当时，Sun Microsystems的工作站、Apple和IBM的个人电脑都拥有近似的能力，但价格却更低。1987年，专家系统计算机的市场崩溃了，主要供应商黯然离场。上世纪80年代初，专家系统的繁荣让DARPA增加了对人工智能研究的资金投入。但后来情况再次发生了改变，除了少数人为挑选的项目以外，DAPRA再次切断对于其他人工智能项目的大部分资助。

“人工智能”一词再次成为研究领域的禁忌。为了避免被视为不切实际、渴求资助的“梦想家”，科研人员开始为人工智能相关的研究冠上不同的名称——比如“信息学”、“机器学习”和“分析学”。

第二个“人工智能冬天”延续到了2000年代。

（1997）IBM的深蓝击败卡斯帕罗夫

1997年，当IBM的深蓝国际象棋（Deep Blue chess）电脑在国际象棋比赛中击败了当时的世界冠军加里•卡斯帕罗夫（Garry Kasparov）时，人工智能的公众形象大幅提升。在电视直播的六场比赛中，深蓝赢了两场，卡斯帕罗夫赢了一场，其中三场以平局告终。在前一年，卡斯帕罗夫击败了早期版本的“深蓝”。

人工智能十大里程碑

1997年，IBM的深蓝击败了世界上最好的人类棋手加里·卡斯帕罗夫

深蓝拥有强大的计算能力，它使用了一种“蛮力”的方法，每秒评估2亿种可能的走法，从而找到最佳走法。而人类每回合只能检查大约50步。深蓝达到的效果就像人工智能一样，但是计算机此时还并没有真正地在下棋中思考策略、自主学习。尽管如此，深蓝的胜利还是将人工智能非常高调地带回了公众视野。有人很着迷，也有人则对机器打败顶尖的人类棋手这件事感到很不自在。令投资者难以忘怀的是：深蓝的胜利推动IBM股价上涨了10美元，创下了历史新高。

（2011）神经网络看到猫

到2011年，世界各地的科学家都在讨论并创造神经网络。那一年，谷歌工程师杰夫·迪恩（Jeff Dean）遇到了斯坦福大学计算机科学教授吴恩达（Andrew Ng）。两人萌生了建立一个大型神经网络的想法，利用谷歌的服务器资源为其提供强大的计算能力，并向它输送海量的图像数据集。他们建立的神经网络在16000个服务处理器上运行。他们随机上传了1000万张没有标签的来自YouTube的截图。杰夫和吴恩达并没有要求神经网络提供任何特定信息，或标记图像。当神经网络在“无监督”的状态下运行时，它们自然会试图在数据找到模式，并形成分类。

神经网络对图像数据进行了为期三天的处理。然后，它返回了一个输出，该输出包含了三个模糊图像，这些图像描述了它在测试图像中一次又一次看到的“图案”——人脸、人体和猫。

人工智能十大里程碑

神经网络对图像数据的处理

在计算机视觉任务中使用神经网络和无监督学习，该研究是一个重大突破。这个事件也标志着“谷歌大脑项目”（Google Brain Project）的开始。

（2012）杰弗里·辛顿解放了深层神经网络

在杰夫和吴恩达取得突破性进展之后的一年，多伦多大学教授杰弗里·辛顿（Geoffrey Hinton）和他的两个学生建立了名为AlexNet的计算机视觉神经网络模型。2012年，在著名的ImageNet的图像识别大赛当中，AlexNet一举夺冠。参赛者必须使用自己的系统来处理数百万的测试图像，并且以尽可能高的准确率进行识别。AlexNet赢得了比赛，错误率不到亚军的一半。AlexNet的Top-5错误率是15.3%；而在2012年以前，最好成绩是26%的错误率。

注：Top-5错误率是ImageNet大赛的评价标准之一。简而言之，大赛给图片类别设置了近千项“分类”，而模型识别图片时，会给出其预测的“分类”概率排名。对于某个图片，如果该模型预测结果中，预测概率最大的前5项都不吻合实际结果，则算“错误”。这一成功有力地证明，深度神经网络在对图像进行准确识别和分类方面远远优于其他系统。这次夺冠影响极其深远，使深度神经网络得以复兴，也为辛顿赢得了“深度学习教父”的绰号。辛顿和他的同事约舒亚·本乔（Yoshua Bengio）、扬·勒昆（Yann LeCun）一起获得了2018年图灵奖。

（2016）AlphaGo打败人类围棋冠军

早在2013年，一家名为DeepMind的英国初创公司的研究人员发表了一篇论文，展示了他们如何使用神经网络来赢得50种老式的雅达利游戏（Atari）。令人印象深刻的是，谷歌以4亿美元的价格收购了这家公司。不过，DeepMind的光辉岁月还未到来。

几年后，DeepMind的科学家们（现属于谷歌）从雅达利游戏转向人工智能的长期挑战之一——围棋。他们开发了一个名为AlphaGo的神经网络模型用于玩围棋，并通过玩来学习。该模型与其他版本的AlphaGo进行了数千场比赛，学习AlphaGo的输赢策略。

它居然成功了。2016年3月，AlphaGo在一系列比赛中以4比1击败了世界上最伟大的韩国棋手李世石（Lee Sedol）。整个事件被拍成了纪录片。

人类顶尖棋手与AlphaGo的交战

观看这部片子的时候，我们很难忘记李世石被击败时的悲伤。看起来就好像人类——而不仅仅是一个人——被打败了。在深度学习产生了广泛影响的同时，人工智能的故事只是刚刚开始。

我们已经进入一个崭新的时代。人工智能仍将充满希望，裹挟着炒作与浮躁。它所带来的，也许将远远超过个人计算和互联网在过去30年对世界造成的改变。带着对未来的期许，让我们回到图灵一开始提的问题：“机器能思考吗？”可能不需要再次历经70年的求索，答案也许就在这个十年。

浅谈人工智能：现状、任务、架构与统一

朱松纯介绍

朱松纯，2020年回国，现任北大通用人工智能研究所院长，并挂名清华教授，清华大学通用人工智能研究院（筹）院长

研究方向有：

• 视觉理解的统计计算模型
• 图像增强、属性理解与物体识别
• 图像与视频的语义分割与分析
• 场景三维动态重建与解译
• 行为识别与意图理解

研究概况

视觉的统计建模与计算理论：为马尔的视觉理论建立统一的数理模型
实现图像与场景的解译(Parsing)计算框架：扩展了模式识别创始人傅京孙先生的句法模式识别理论
提出人工智能的“暗物质”：研究视觉与认知的物理与社会常识
探索迈向通用人工智能的新研究路径：“小数据、大任务”范式

成长经历

【2021-1-30】
不同于做着布朗运动的功利主义者，成长在改革开放年代的朱松纯这一代人充满理想，崇尚科学，有着一种理想主义和使命感。
在他看来，人工智能有太多问题需要解释，值得长期探索。如果说在大学做研究是练内功，那么在工业界练的就是外功。无论是上山创立门派还是下山开镖局，都要内外兼修，相辅相成。
涉足人工智能领域近 30 年，朱松纯已在国际顶级期刊和会议上发表论文 300 余篇，三次问鼎马尔奖。作为视觉领域行业领军人物，也打破了华人在国际顶尖期刊话语权微弱的局面。
除了对视觉领域大方向有着一流的直觉和准确把握，朱松纯也一直往返于大学、公司、非营利机构，希望打通大学、研究院、产业的关节，贯穿产学研。
出国求学：逐梦「大一统」
- 1986 年，朱松纯考入中科大计算机系。当时，人工智能正陷入长达 30 多年的低谷（所谓 AI 的冬天），但他很早开始选修人工智能研究所课程。不同于做着布朗运动的功利主义者，成长在改革开放年代的朱松纯这一代人充满理想，崇尚科学，有着一种理想主义和使命感。
- 当时，人工智能基本还是以符号为主的推理，离现实世界很远，研究人员也很悲观，失望之余，在信息闭塞、没有电邮和互联网的 80 年代，朱松纯通过自己查阅以及跟留学美国老师谈话，接触到神经科学、心理学、认知科学、神经网络等方面的知识，也与计算机视觉不期而遇。
- 1989 年冬天，寒假回家之前，认知科学实验室的一位老师借给朱松纯一本白皮书，作者是 David Marr，他是英国出生的 MIT 认知科学和神经科学家，也是公认的计算机视觉的创始人。美国是在 1980 年左右开始创立计算机视觉这门新兴学科，当时国内大多数学计算机的人根本就没有听说过。
- 「误入」计算机专业之前，朱松纯填报的志愿其实是物理。物理学发展犹如追求物理世界统一的宏伟史诗，念念不忘物理之美的朱松纯也希望用这样的「大一统」理论解决人工智能问题，「来构造这个世界最合适于他的风范的、简约的、可以理解的画卷」。（「to make for himself in the fashion that suits him best a simplified and intelligible picture of the world。」——爱因斯坦语）
- 1991 年，朱松纯从中科大计算机专业毕业。当时，计算机系刚刚有了第一台激光打印机，替代针式打印。朱松纯买了两包「佛子岭」香烟给管机房的师兄，让他一定帮忙把申请海外高校的个人陈述好好排版，打印出来。三页纸陈述中，朱松纯要探索一种计算机视觉统一框架。
- 大部分学校拒绝了申请，结果哈佛大学录取了他。90 年代，计算机视觉处于混沌初开、大家都在找「北」的时期。哈佛大学、布朗大学这个学派（ Pattern Theory 学派）认定了用概率统计建模和计算的方法来研究。朱松纯的导师 David Mumford 正是后来人工智能研究转向概率统计这个新体制的重要舵手之一。
- Mumford 以前研究代数几何（Algebraic geometry）并于 1974 年获菲尔兹奖。1980 年代从纯数学转来学习、研究人工智能。Mumford 认为统计是解决视觉问题的关键，并致力于建立模式理论（Pattern Theory），为智能构建一个数学体系（mathematics of intelligence）。当他看到朱松纯申请时，发现两人目标一致。
- 朱松纯率先将概率统计建模与随机计算方法引入计算机视觉研究。在导师建议下，朱松纯基于归约思想将大问题分解成小问题，从具体问题入手，为 David Marr 提出的早期视觉（early vision）概念，包括纹理 (texture)、图像基元（Texton）以及原始简约图（primal sketch）等建立一个统一数理模型，使从纯粹理论、计算角度研究计算机视觉成为可能。
- 句子要符合语法结构，视频中的一个事件也有语法结构，寻找这样一个层次化、结构化的解释正是计算视觉的核心问题。2000 年前后，朱松纯提出图像解译（image parsing）与视频解译，把视觉问题全部纳入一个统一框架来求最佳解，扩展了模式识别创始人傅京孙先生的句法模式识别理论，并于 2003 年问鼎计算机视觉领域国际最高奖项——马尔奖。
2002 年，朱松纯加盟美国洛杉矶加州大学（UCLA），任统计系与计算机系教授，计算机视觉、认知、学习与自主机器人中心主任。在他之前，仅有 Judea Pearl 在 UCLA 计算机系和统计系兼职教授。
2005 年，朱松纯回到老家湖北鄂州，带头成立莲花山计算机视觉研究院，并筹建了世界最早大数据标注团队，发布了精细化程度最高、语义信息最丰富的大规模数据库 LHI Dataset；他一手创建暗物智能，填补了目前主流市场强认知 AI 的技术和商业空白，让普罗大众都拥有属于自己的 AI。
2008 年之后，朱松纯转向认知领域的研究，将计算机视觉与认知科学、自然语言理解、机器人等学科结合，探索他所称的「人工智能的暗物质」——占 95％、无法通过感知输入观测到的物质。
- 比如，你看见了一把椅子，想象身体如何去坐，以及坐下来是否舒服，这里面包括物理、功能、价值观，这些都叫做「暗物质」；一个番茄酱瓶倒放的场景，这里的「暗物质」就是在人们倒放瓶子这个行为中隐含的目的——为了更容易从瓶子里挤出番茄酱。
2011 年，DARPA「MSEE」项目提出一项挑战，分析几个小时从不同摄像机拍摄的视频，并创建一个可以回答人类问题的系统。
- DARPA 接受了由卡内基梅隆大学、加州大学伯克利分校和麻省理工学院等多所大学的研究人员组成的九个小组的方案，除了获得高额资助，各小组还有四年时间实现自己的提案。
- 最后，只有朱松纯领导的 VCLA 还留在比赛中，并成功完成自己的提案。其他小组要么因为没有按时完成任务而被 DARPA 取消资格，要么因为任务太困难而自愿退出。
- 朱松纯团队做了一个视觉系统，视频的理解输出为一个大的综合 STC-PG（它的母版就是一个 STC-AOG）。在此基础上就可以输出文字描述和回答提问 Q&A。这与后来一些计算机视觉的人研究 VQA 不同，后者是拿大量图像和文本一起训练的，基本是在「扯白」。
- 从 2010 年到 2020 年，朱松纯连续领导两届大型跨学科国际专项 MURI，带领来自 Berkeley、Caltech、CMU、MIT、Stanford、Brown、Yale 以及英国牛津大学的跨学科教授专家攻关人机交互认知理论、跨领域 AI 融合等新一代人工智能技术的难题。
2017 年，朱松纯提出「小数据、大任务」范式，主张以此来实现通用人工智能，为探索通用人工智能的道路进一步指明方向。
吉富创投 TMT 投资负责人李健全看来，这一波人工智能浪潮有一个很明确的趋势，就是「沿着弱人工智能往强人工智能、超人工智能一路叠浪前行。」
2018 年底，暗物智能落户中国广州，将人工智能在认知层面的新突破应用于智慧教育等关系国计民生的重要领域，以实现真正的高自然度人机交互和协同。更多：【2020-10-23】暗物智能亮相教育装备展，引爆“认知AI+教育”，与市面上大多依赖大规模题库的教辅应用不同，谙心助教依托拟人运算技术，首创“AI讲题”，实现高水准、标准化教学内容的自动化输出，破解K12教育智能化程度低、优质教育资源缺乏等难题，让每位学生都能享受“AI名师”授课。围绕谙心助教的认知AI解题与讲题能力，暗物智能联合腾讯作业君等多个教育行业领先品牌，赋能智能终端设备，打造强认知AIX教育生态。与依赖大数据的范式不同，该体验游戏依托强认知AI算法，基于RAVEN推理规则与空间图形逻辑，通过AOG可自动推演出无穷的图形规律题、数理逻辑题等题型，并智能生成详尽讲解，充分展现了强认知AI在分析推理、意图理解等方面的独特优势。
- 朱松纯曾表示，教育是关乎国计民生、人口素质和社会发展均衡化的重要领域。而人工智能通过对教育过程的认知建模，可以助力提升教学和评估的效率，为基础和职业教育提供低成本解决方案。
- 目前，暗物智能在教育领域已形成学龄前、K12、在线教育、职业教育的用户服务全生命周期闭环，触达数百万终端用户。
2020 年 9 月，朱松纯以国家战略科学家身份受邀回国，筹建北京通用人工智能研究院(BIGAI）并担任院长，同时担任清华大学、北京大学讲席教授、北京大学人工智能研究院院长。意味着「小数据、大任务」的方法，也被定为北京通用人工智能研究院的「研究范式」。三十年前就读于中国科学技术大学时，就有了追求人工智能大一统理论的梦想，赴美求学正是为了追寻与探究这一理想。三十年后，选择回国也是基于同一梦想，回归初心——将人工智能大一统理论框架在中国「圆梦」。
朱松纯：强认知AI的领路人，2021年1月28日，以「小数据、大任务」为技术范式的暗物智能科技（简称「暗物智能」）宣布，已于 2020 年年中完成 5 亿元人民币的 A 轮融资，由赛领资本和吉富创投共同领投，联想创投、广州基金、将门创投、花城创投跟投。
正在做的是面向 10 年、20 年后的技术——实现自然的（natural）智能。

参考地址

导读

本文作者：朱松纯，加州大学洛杉矶分校UCLA统计学和计算机科学教授，视觉、认知、学习与自主机器人中心主任。

文章前四节浅显探讨什么是人工智能和当前所处的历史时期，后面六节分别探讨六个学科的重点研究问题和难点，有什么样的前沿的课题等待年轻人去探索，最后一节讨论人工智能是否以及如何成为一门成熟的科学体系。

引言

到底什么是人工智能？现在的研究处于什么阶段？今后如何发展？这是大家普遍关注的问题。由于人工智能涵盖的学科和技术面非常广，要在短时间内全面认识、理解人工智能，别说非专业人士，就算对本行业研究人员，也是十分困难的任务。

所以，现在很多宣传与决策冲到认识之前了，由此不可避免地造成一些思想和舆论的混乱。

全面认识人工智能之所以困难，是有客观原因的。

其一、人工智能是一个非常广泛的领域。

当前人工智能涵盖很多大的学科，我把它们归纳为六个：

（1）计算机视觉（暂且把模式识别，图像处理等问题归入其中）、
（2）自然语言理解与交流（暂且把语音识别、合成归入其中，包括对话）、
（3）认知与推理（包含各种物理和社会常识）、
（4）机器人学（机械、控制、设计、运动规划、任务规划等）、
（5）博弈与伦理（多代理人agents的交互、对抗与合作，机器人与社会融合等议题）、
（6）机器学习（各种统计的建模、分析工具和计算的方法），

这些领域目前还比较散，目前它们正在交叉发展，走向统一的过程中。我把它们通俗称作“战国六雄”，中国历史本来是“战国七雄”，我这里为了省事，把两个小一点的领域：博弈与伦理合并了，伦理本身就是博弈的种种平衡态。最终目标是希望形成一个完整的科学体系，从目前闹哄哄的工程实践变成一门真正的科学Science of Intelligence。

各个领域的研究人员看人工智能，如果按照印度人的谚语可以叫做“盲人摸象”，但这显然是言语冒犯了，还是中国的文豪苏轼游庐山时说得有水准：

横看成岭侧成峰，远近高低各不同。不识庐山真面目，只缘身在此山中。

其二，人工智能发展的断代现象。

由于历史发展的原因，人工智能自1980年代以来，被分化出以上几大学科，相互独立发展，而且这些学科基本抛弃了之前30年以逻辑推理与启发式搜索为主的研究方法，取而代之的是概率统计（建模、学习）的方法。留在传统人工智能领域（逻辑推理、搜索博弈、专家系统等）而没有分流到以上分支学科的老一辈中，的确是有很多全局视野的，但多数已经过世或退休了。

这种领域的分化与历史的断代，客观上造成了目前的学界和产业界思路和观点相当“混乱”的局面，媒体上的混乱就更放大了。但是，以积极的态度来看，这个局面确实为现在的年轻一代研究人员、研究生提供了一个很好的建功立业的机会和广阔的舞台。

我写这篇文章的动机在于三点：

（1）为在读的研究生们、为有志进入人工智能研究领域的年轻学者开阔视野。
（2）为那些对人工智能感兴趣、喜欢思考的人们，做一个前沿的、综述性的介绍。
（3）为公众与媒体从业人员，做一个人工智能科普，澄清一些事实。

诚如屈子所言：“路漫漫其修远兮，吾将上下而求索”。

第一节现状评估：正视现实

人工智能的研究，简单来说，就是要通过智能的机器，延伸和增强（augment）人类在改造自然、治理社会的各项任务中的能力和效率，最终实现一个人与机器和谐共生共存的社会。

抛开科幻的空想，谈几个近期具体的应用。

无人驾驶大家听了很多，先说说军用。军队里的一个班或者行动组，现在比如要七个人，将来可以减到五个人，另外两个用机器来替换。

其次，机器人可以用在救灾和一些危险的场景，如核泄露现场，人不能进去，必须靠机器人。

医用的例子很多：智能的假肢或外骨架（exoskeleton）与人脑和身体信号对接，增强人的行动控制能力，帮助残疾人更好生活。此外，还有就是家庭养老等服务机器人等。

但是，这方面的进展很不尽人意。以前日本常常炫耀他们机器人能跳舞，中国有一次春节晚会也拿来表演了。那都是事先编写的程序，结果一个福岛核辐射事故一下子把所有问题都暴露了，发现他们的机器人一点招都没有。美国也派了机器人过去，同样出了很多问题。比如一个简单的技术问题，机器人进到灾难现场，背后拖一根长长的电缆，要供电和传数据，结果电缆就被缠住了，动弹不得。

看到这里，有人要问了，教授说得不对，我们明明在网上看到美国机器人让人叹为观止的表现。

比如，这一家波士顿动力学公司（Boston Dynamics）的演示，它们的机器人，怎么踢都踢不倒呢，或者踢倒了可以自己爬起来，而且在野外丛林箭步如飞呢，还有几个负重的电驴、大狗也很酷。这家公司本来是由美国国防部支持开发出机器人来的，被谷歌收购之后、就不再承接国防项目。可是，谷歌发现除了烧钱，目前还找不到商业出路，最近一直待售之中。您会问，那谷歌不是很牛吗？DeepMind下围棋不是也一次次刺激中国人的神经吗？有一个逆天的机器人身体、一个逆天的机器人大脑，它们都在同一个公司内部，那为什么没有做出一个人工智能的产品呢？他们何尝不在夜以继日的奋战之中啊。

人工智能炒作了这么长时间，您看看周围环境，您看到机器人走到大街上了？没有。您看到人工智能进入家庭了吗？其实还没有。您可能唯一直接领教过的是基于大数据和深度学习训练出来的聊天机器人，你可能跟Ta聊过。用我老家湖北人的话，这就叫做“扯白”— 东扯西拉、说白话。如果你没有被Ta气得背过气的话，要么您真的是闲得慌，要么是您真的有耐性。

为了测试技术现状，美国国防部高级研究署2015年在洛杉矶郊区Pomona做了一个DARPA Robot Challenge（DRC），悬赏了两百万美金奖给竞赛的第一名。有很多队伍参加了这个竞赛，上图是韩国科技大学队赢了第一名，右边是他们的机器人在现场开门进去“救灾”。

后来发现内情，原来机器人所有的动作基本上是人在遥控的。每一步、每一个场景分别有一个界面，每个学生控制一个模块。感知、认知、动作都是人在指挥。就是说这个机器人其实并没有自己的感知、认知、思维推理、规划的能力。

这还是一个简单的场景。其一、整个场景都是事先设定的，各个团队也都反复操练过的。如果是没有遇见的场景，需要灵机决断呢？其二、整个场景还没有人出现，如果有其他人出现，需要社会活动（如语言交流、分工协作）的话，那复杂度就又要上两个数量级了。

其实，要是完全由人手动控制，现在的机器人都可以做手术了，而且手术机器人已经在普及之中。上图是我实验室与一家公司合作的项目，机器人可以开拉链、检查包裹、用钳子撤除炸弹等，都是可以实现的。

小结一下，现在的人工智能和机器人，关键问题是缺乏物理的常识和社会的常识“Common sense”。这是人工智能研究最大的障碍。那么什么是常识？常识就是我们在这个世界和社会生存的最基本的知识：（1）它使用频率最高；（2）它可以举一反三，推导出并且帮助获取其它知识。这是解决人工智能研究的一个核心课题。我自2010年来，一直在带领一个跨学科团队，攻关视觉常识的获取与推理问题。我在自动化所做了另外一个关于视觉常识报告，也被转录成中文了，不久会发表出来。

那么是不是说，我们离真正的人工智能还很遥远呢？其实也不然。关键是研究的思路要找对问题和方向。自然界已经为我们提供了很好的案例。

下面，我就来看一下，自然界给我们展示的解答。

第二节未来目标：一只乌鸦给我们的启示

同属自然界的鸟类，我们对比一下体型大小都差不多的乌鸦和鹦鹉。鹦鹉有很强的语言模仿能力，你说一个短句，多说几遍，它能重复，这就类似于当前的由数据驱动的聊天机器人。二者都可以说话，但鹦鹉和聊天机器人都不明白说话的语境和语义，也就是它们不能把说的话对应到物理世界和社会的物体、场景、人物，不符合因果与逻辑。

可是，乌鸦就远比鹦鹉聪明，它们能够制造工具，懂得各种物理的常识和人的活动的社会常识。

下面，我就介绍一只乌鸦，它生活在复杂的城市环境中，与人类交互和共存。YouTube网上有不少这方面的视频，大家可以找来看看。我个人认为，人工智能研究该搞一个“乌鸦图腾”，因为我们必须认真向它们学习。

上图a是一只乌鸦，被研究人员在日本发现和跟踪拍摄的。乌鸦是野生的，也就是说，没人管，没人教。它必须靠自己的观察、感知、认知、学习、推理、执行，完全自主生活。假如把它看成机器人的话，它就在我们现实生活中活下来。如果这是一个自主的流浪汉进城了，他要在城里活下去，包括与城管周旋。

首先，乌鸦面临一个任务，就是寻找食物。它找到了坚果（至于如何发现坚果里面有果肉，那是另外一个例子了），需要砸碎，可是这个任务超出它的物理动作的能力。其它动物，如大猩猩会使用工具，找几块石头，一块大的垫在底下，一块中等的拿在手上来砸。乌鸦怎么试都不行，它把坚果从天上往下抛，发现解决不了这个任务。在这个过程中，它就发现一个诀窍，把果子放到路上让车轧过去（图b），这就是“鸟机交互”了。后来进一步发现，虽然坚果被轧碎了，但它到路中间去吃是一件很危险的事。因为在一个车水马龙的路面上，随时它就牺牲了。我这里要强调一点，这个过程是没有大数据训练的，也没有所谓监督学习，乌鸦的生命没有第二次机会。这是与当前很多机器学习，特别是深度学习完全不同的机制。
然后，它又开始观察了，见图c。它发现在靠近红绿路灯的路口，车子和人有时候停下了。这时，它必须进一步领悟出红绿灯、斑马线、行人指示灯、车子停、人流停这之间复杂的因果链。甚至，哪个灯在哪个方向管用、对什么对象管用。搞清楚之后，乌鸦就选择了一根正好在斑马线上方的一根电线，蹲下来了（图d）。这里我要强调另一点，也许它观察和学习的是别的地点，那个点没有这些蹲点的条件。它必须相信，同样的因果关系，可以搬到当前的地点来用。这一点，当前很多机器学习方法是做不到的。比如，一些增强学习方法，让机器人抓取一些固定物体，如积木玩具，换一换位置都不行；打游戏的人工智能算法，换一换画面，又得重新开始学习。

它把坚果抛到斑马线上，等车子轧过去，然后等到行人灯亮了（图e）。这个时候，车子都停在斑马线外面，它终于可以从容不迫地走过去，吃到了地上的果肉。你说这个乌鸦有多聪明，这是我期望的真正的智能。

这个乌鸦给我们的启示，至少有三点：

其一、它是一个完全自主的智能。感知、认知、推理、学习、和执行，它都有。我们前面说的，世界上一批顶级的科学家都解决不了的问题，乌鸦向我们证明了，这个解存在。
其二、你说它有大数据学习吗？这个乌鸦有几百万人工标注好的训练数据给它学习吗？没有，它自己把这个事通过少量数据想清楚了，没人教它。
其三、乌鸦头有多大？不到人脑的1%大小。人脑功耗大约是10-25瓦，它就只有0.1-0.2瓦，就实现功能了，根本不需要前面谈到的核动力发电。这给硬件芯片设计者也提出了挑战和思路。十几年前我到中科院计算所讲座，就说要做视觉芯片VPU，应该比后来的GPU更超前。我最近参与了一个计算机体系结构的大项目，也有这个目标。

讲通俗一点，我们要寻找“乌鸦”模式的智能，而不要“鹦鹉”模式的智能。当然，我们必须也要看到，“鹦鹉”模式的智能在商业上，针对某些垂直应用或许有效。

【2022-1-23】乌鸦智能，马路上放坚果，让汽车压碎再吃，视频

第三节历史时期：从“春秋五霸”到“战国六雄”

要搞清楚人工智能的发展趋势，首先得回顾历史。读不懂历史，无法预测未来。这一节，我就结合自己的经历谈一下我的观点，不见得准确和全面。

首先，从表面一层来看。反映在一些产业新闻和社会新闻层面上，人工智能经过了几起几落，英文叫做Boom and Bust，意思是一哄而上、一哄而散，很形象。每次兴盛期都有不同的技术在里面起作用。

1980年代初又兴起了第二次热潮，一批吹牛的教授、研究人员登场了。做专家系统、知识工程、医疗诊断等，中国当时也有人想做中医等系统。虽然这次其中也有学者拿了图灵奖，但这些研究没有很好的理论根基。1986年我上了中国科大计算机系，我对计算机专业本身不是最感兴趣，觉得那就是一个工具和技能，而人工智能方向水很深，值得长期探索，所以我很早就去选修了人工智能的研究生课程，是由自动化系一个到美国进修的老师回来开的课。

第三次热潮就是最近两年兴起的深度学习推动的。有了以前的教训，一开始学者们都很谨慎，出来警告说我们做的是特定任务，不是通用人工智能，大家不要炒作。但是，拦不住了。公司要做宣传，然后，大家开始加码宣传。这就像踩踏事件，处在前面的人是清醒的，他们叫停，可是后面大量闻信赶来的人不知情，拼命往里面挤。人工智能的确是太重要了，谁都不想误了这趟车。也有人认为这次是真的，不会再有冬天了。冬天不冬天，那就要看我们现在怎么做了。

所以说，从我读大学开始，人工智能这个名词从公众视线就消失了近30年。我现在回头看，其实它当时并没有消失，而是分化了。研究人员分别聚集到五个大的领域或者叫做学科：计算机视觉、自然语言理解、认知科学、机器学习、机器人学。这些领域形成了自己的学术圈子、国际会议、国际期刊，各搞各的，独立发展。人工智能里面还有一些做博弈下棋、常识推理，还留在里面继续搞，但人数不多。我把这30年叫做一个“分治时期”，相当于中国历史的“春秋时期”。春秋五霸就相当于这分出去的五个学科，大家各自发展壮大。

其次、从深一层的理论基础看。我把人工智能发展的60年分为两个阶段。

第一阶段：前30年以数理逻辑的表达与推理为主。这里面有一些杰出的代表人物，如John McCarthy、Marvin Minsky、Herbert Simmon。他们懂很多认知科学的东西，有很强的全局观念。这些都是我读大学的时候仰慕的人物，他们拿过图灵奖和其它一堆大奖。但是，他们的工具基本都是基于数理逻辑和推理。

这个逻辑表达的“体制”，就相当于中国的周朝，周文王建立了一个相对松散的诸侯部落体制，后来指挥不灵，就瓦解了，进入一个春秋五霸时期。而人工智能正好也分出了五大领域。

第二阶段：后30年以概率统计的建模、学习和计算为主。在10余年的发展之后，“春秋五霸”在1990年中期都开始找到了概率统计这个新“体制”：统计建模、机器学习、随机计算算法等。

在这个体制的转型过程中，起到核心作用的有这么几个人。讲得通俗一点，他们属于先知先觉者，提前看到了人工智能的发展趋势，押对了方向（就相当于80年代买了微软、英特尔股票；90年代末，押对了中国房地产的那一批人）。他们没有进入中国媒体的宣传视野。我简要介绍一下，从中我们也可以学习到一些治学之道。

第一个人叫Ulf Grenander。他从60年代就开始做随机过程和概率模型，是最早的先驱。60年代属于百家争鸣的时期，当别的领军人物都在谈逻辑、神经网络的时候，他开始做概率模型和计算，建立了广义模式理论，试图给自然界各种模式建立一套统一的数理模型。
第二个人是Judea Pearl。他是我在UCLA的同事，原来是做启发式搜索算法的。80年代提出贝叶斯网络把概率知识表达于认知推理，并估计推理的不确定性。到90年代末，他进一步研究因果推理，这又一次领先于时代。2011年因为这些贡献他拿了图灵奖。他是一个知识渊博、思维活跃的人，不断有原创思想。
第三个人是Leslei Valiant。他因离散数学、计算机算法、分布式体系结构方面的大量贡献，2010年拿了图灵奖。1984年，他发表了一篇文章，开创了computational learning theory。他问了两个很简单、但是深刻的问题。第一个问题：你到底要多少例子、数据才能近似地、以某种置信度学到某个概念，就是PAClearning；第二个问题：如果两个弱分类器综合在一起，能否提高性能？如果能，那么不断加弱分类器，就可以收敛到强分类器。
第四个人是David Mumford。我把他放在这里，有点私心，因为他是我博士导师。他说他60年代初本来对人工智能感兴趣。因为他数学能力特别强，上代数几何课程的时候就发现能够证明大定理了，结果一路不可收拾，拿了菲尔茨奖。但是，到了80年代中期，他不忘初心，还是决定转回到人工智能方向来，从计算机视觉和计算神经科学入手。

这个时期，还有一个重要的人物是做神经网络和深度学习的多伦多大学教授Hinton。我上大学的时候，80年代后期那一次神经网络热潮，他就出名了。他很有思想，也很坚持，是个学者型的人物。所不同的是，他下面的团队有点像摇滚歌手，能凭着一首通俗歌曲（代码），迅速红遍大江南北。

所以，我跟那些计算机视觉的研究生和年轻人说，你们不要单纯在视觉这里做，你赶紧出去“抢地盘”，单独做视觉，已经没有多少新东西可做的了，性能调不过公司的人是一方面；更麻烦的是，别的领域的人打进来，把你的地盘给占了。这是必然发生的事情，现在正在发生的事情。

我的判断是，我们刚刚进入一个“战国时期”，以后就要把这些领域统一起来。首先我们必须深入理解计算机视觉、自然语言、机器人等领域，这里面有很丰富的内容和语意。如果您不懂这些问题domain的内涵，仅仅是做机器学习就称作人工智能专家，恐怕说不过去。

我们正在进入这么一个大集成的、大变革的时代，有很多机会让我们去探索前沿，不要辜负了这个时代。这是我演讲的第一个部分：人工智能的历史、现状，发展的大趋势。

下面，进入我今天演讲的第二个主题：用一个什么样的构架把这些领域和问题统一起来。我不敢说我有答案，只是给大家提出一些问题、例子和思路，供大家思考。不要指望我给你提供代码，下载回去，调调参数就能发文章。

第四节人工智能研究的认知构架：小数据、大任务范式

智能是一种现象，表现在个体和社会群体的行为过程中。回到前面乌鸦的例子，我认为智能系统的根源可以追溯到两个基本前提条件：

一、物理环境客观的现实与因果链条。这是外部物理环境给乌鸦提供的、生活的边界条件。在不同的环境条件下，智能的形式会是不一样的。任何智能的机器必须理解物理世界及其因果链条，适应这个世界。
二、智能物种与生俱来的任务与价值链条。这个任务是一个生物进化的“刚需”。如个体的生存，要解决吃饭和安全问题，而物种的传承需要交配和社会活动。这些基本任务会衍生出大量的其它的“任务”。动物的行为都是被各种任务驱动的。

有了这个先天的基本条件（设计）后，下一个重要问题：是什么驱动了模型在空间中的运动，也就是学习的过程？还是两点：

一、外来的数据。外部世界通过各种感知信号，传递到人脑，塑造我们的模型。数据来源于观察（observation）和实践（experimentation）。观察的数据一般用于学习各种统计模型，这种模型就是某种时间和空间的联合分布，也就是统计的关联与相关性。实践的数据用于学习各种因果模型，将行为与结果联系在一起。因果与统计相关是不同的概念。
二、内在的任务。这就是由内在的价值函数驱动的行为、以期达到某种目的。我们的价值函数是在生物进化过程中形成的。因为任务的不同，我们往往对环境中有些变量非常敏感，而对其它一些变量不关心。由此，形成不同的模型。

机器人的脑、人脑都可以看成一个模型。任何一个模型由数据与任务来共同塑造。

现在，我们就来到一个很关键的地方。同样是在概率统计的框架下，当前的很多深度学习方法，属于一个被我称作“大数据、小任务范式（big data for small task）”。针对某个特定的任务，如人脸识别和物体识别，设计一个简单的价值函数Loss function，用大量数据训练特定的模型。这种方法在某些问题上也很有效。

第五节计算机视觉：从“深”到“暗” Dark, Beyond Deep

视觉是人脑最主要的信息来源，也是进入人工智能这个殿堂的大门。我自己的研究也正是从这里入手的。这一节以一个具体例子来介绍视觉里面的问题。当然，很多问题远远没有被解决。

这是我家厨房的一个视角。多年前的一个下午，我女儿放学回家，我正在写一个大的项目申请书，就拍了这一张作为例子。图像就是一个像素的二维矩阵，可是我们感知到非常丰富的三维场景、行为的信息；你看的时间越长，理解的也越多。下面我列举几个被主流（指大多数研究人员）忽视的、但是很关键的研究问题。

一、几何常识推理与三维场景构建。以前计算机视觉的研究，需要通过多张图像（多视角）之间特征点的对应关系，去计算这些点在三维世界坐标系的位置（SfM、SLAM）。

见下图所示，在这个三维场景中，我们的理解就可以表达成为一个层次分解（compositional）的时空因果的解译图（Spatial，Temporal and Causal Parse Graph）,简称 STC-PG。STC-PG是一个极其重要的概念，我下面会逐步介绍。

几何重建的一个很重要的背景是，我们往往不需要追求十分精确的深度位置。比如，人对三维的感知其实都是非常不准的，它的精确度取决于你当前要执行的任务。在执行的过程中，你不断地根据需要来提高精度。比如，你要去拿几米以外的一个杯子，一开始你对杯子的方位只是一个大致的估计，在你走近、伸手的过程中逐步调整精度。

二、场景识别的本质是功能推理。现在很多学者做场景的分类和分割都是用一些图像特征，用大量的图片例子和手工标注的结果去训练神经网络模型 — 这是典型的“鹦鹉”模式。而一个场景的定义本质上就是功能。当你看到一个三维空间之后，人脑很快就可以想象我可以干什么：这个地方倒水，这里可以拿杯子，这里可以坐着看电视等。现代的设计往往是复合的空间，就是一个房间可以多种功能，所以简单去分类已经不合适了。

有了这个理解，我们就知道：下面两张图，虽然图像特征完全不同，但是他们是同一类场景,功能上是等价的。人的活动和行为，不管你是哪个国家、哪个历史时期，基本是不变的。这是智能泛化的基础，也就是把你放到一个新的地区，你不需要大数据训练，马上就能理解、适应。这是我们能够举一反三的一个基础。

回到前面的那个STC-PG解译图，每个场景底下其实就分解成为一些动作和功能（见STC-PG图中的绿色方片节点）。由计算机想象、推理的各种功能决定对场景的分类。想象功能就是把人的各种姿态放到三维场景中去拟合（见厨房解译图中人体线画）。这是完全不同于当前的深度学习方法用的分类方法。

三、物理稳定性与关系的推理。我们的生活空间除了满足人类的各种需求（功能、任务）之外，另一个基本约束就是物理。我们对图像的解释和理解被表达成为一个解译图，这个解译图必须满足物理规律，否则就是错误的。

我们对图像的理解包含了物体之间的物理关系，每个物体的支撑点在那里。比如，下面这个图，吊灯和墙上挂的东西，如果没有支撑点，就会掉下来（右图）。这个研究方向，MIT认知科学系的Josh Tenenbuam教授与我都做了多年。

我提出了一个新的场景理解的minimax标准：minimize instability and maximize functionality最小化不稳定性且最大化功能性。这比以前我们做图像理解的用的MDL（最小描述长度）标准要更靠谱。这是解决计算机视觉的基本原理，功能和物理是设计场景的基本原则。几何尺寸是附属于功能推出来的，比如椅子的高度就是因为你要坐得舒服，所以就是你小腿的长度。

四、意向、注意和预测。厨房那张图有一个人和一只狗，我们可以进一步识别其动作、眼睛注视的地方，由此推导其动机和意向。这样我们可以计算她在干什么、想干什么，比如说她现在是渴了，还是累了。通过时间累积之后，进而知道她知道哪些，也就是她看到了或者没有看到什么。在时间上做预测，她下面想干什么。只有把这些都计算出来了，机器才能更好地与人进行交互。

下面的这一张图，是多摄像机的一个综合场景的解译实例。这是我的实验室做出来的一个视觉系统。这个视频的理解就输出为一个大的综合的STC-PG。在此基础上，就可以输出文字的描述（I2T）和回答提问 QA。我们把它叫做视觉图灵测试，网址：visualturingtest.com。

与第一节讲的机器人竞赛类似，这也是一个DARPA项目。测试就是用大量视频，我们算出场景和人的三维的模型、动作、属性、关系等等，然后就来回答各种各样的1000多个问题。现在一帮计算机视觉的人研究VQA（视觉问答），就是拿大量的图像和文本一起训练，这是典型的“鹦鹉”系统，基本都是“扯白”。

五、任务驱动的因果推理与学习。前面我谈了场景的理解的例子，下面我谈一下物体的识别和理解，以及为什么我们不需要大数据的学习模式，而是靠举一反三的能力。

我们人是非常功利的社会动物，就是说做什么事情都是被任务所驱动的。这一点，2000年前的司马迁就已经远在西方功利哲学之前看到了（《史记》 “货殖列传” ）：

“天下熙熙，皆为利来；天下攘攘，皆为利往。”

那么，人也就带着功利的目的来看待这个世界，这叫做“teleological stance”。这个物体是用来干什么的？它对我有什么用？怎么用？

当然，有没有用是相对于我们手头的任务来决定的。很多东西，当你用不上的时候，往往视而不见；一旦要急用，你就会当个宝。俗话叫做“势利眼”，没办法，这是人性！你今天干什么、明天干什么，每时每刻都有任务。俗话又叫做“屁股决定脑袋”，一个官员坐在不同位置，他就有不同的任务与思路，位置一调，马上就“物是人非”了。

我们的知识是根据我们的任务来组织的。那么什么叫做任务呢？如何表达成数学描述呢？

每个任务其实是在改变场景中的某些物体的状态。牛顿发明了一个词，在这里被借用了：叫做fluent。这个词还没被翻译到中文，就是一种可以改变的状态，我暂且翻译为“流态”吧。比如，把水烧开，水温就是一个流态；番茄酱与瓶子的空间位置关系是一个流态，可以被挤出来；还有一些流态是人的生物状态，比如饿、累、喜悦、悲痛；或者社会关系：从一般人，到朋友、再到密友等。人类和动物忙忙碌碌，都是在改变各种流态，以提高我们的价值函数（利益）。

懂得这一点，我们再来谈理解图像中的三维场景和人的动作。其实，这就是因果关系的推理。所谓因果就是：人的动作导致了某种流态的改变。

我把这些图像之外的东西统称为“暗物质”— Dark Matter。物理学家认为我们可观察的物质和能量只是占宇宙总体的5%，剩下的95%是观察不到的暗物质和暗能量。视觉与此十分相似：感知的图像往往只占5%，提供一些蛛丝马迹；而后面的95%，包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的。

有了这个认识，我们来看一个例子（见下图左）。这个例子来自我们CVPR2015年发的paper，主要作者是朱毅鑫，这也是我很喜欢的一个工作。一个人要完成的任务是砸核桃，改变桌子上那个核桃的流态。把这个任务交给UCLA一个学生，他从桌面上的工具里面选择了一个锤子，整个过程没有任何过人之处，因为你也会这么做。

我再强调几点：

一、这个STC-PG的表达是你想象出来的。这个理解的过程是在你动手之前就想好了的，它里面的节点和边大多数在图像中是没有的，也就是我称作的“暗物质”。
二、这个计算的过程中，大量的运算属于“top-down”自顶向下的计算过程。也就是用你脑皮层里面学习到的大量的知识来解释你看到的“蛛丝马迹”，形成一个合理的解。而这种Top-down的计算过程在目前的深度多层神经网络中是没有的。
三、学习这个任务只需要极少的几个例子。如果一个人要太多的例子，说明Ta脑袋“不开窍”，智商不够。顺便说一句，我在UCLA讲课，期末学生会给老师评估教学质量。一个常见的学生意见就是朱教授给的例子太少了。

那么STC-PG是如何推导出来的呢？它的母板是一个STC-AOG，AOG就是And-Or Graph与或图。这个与或图是一个复杂的概率语法图模型，它可以导出巨量的合乎规则的概率事件，每一个事件就是STC-PG。这个表达与语言、认知、机器人等领域是一致的。在我看来，这个STC-AOG是一个统一表达，它与逻辑以及DNN可以打通关节。这里就不多讲了。

接着砸核桃的例子讲，还是朱毅鑫那篇文章的实验，这个实验很难做。比如现在的一个任务是“铲土”，我给你一个例子什么叫铲土，然后开始测试这个智能算法（机器人）的泛化能力。见下图。

第一组实验（图左）。我给你一些工具，让你铲土，机器人第一选择挑了这个铲子，这个不是模式识别，它同时输出用这个铲子的动作、速度；输出铲子柄的绿色地方表示它要手握的地方，这个红的表示它用来铲土的位置。第二选择是一把刷子。
第二组实验（图中）。假如我要把这些工具拿走，你现在用一些家里常见的物体，任务还是铲土。它的第一选择是锅，第二选择是杯子。二者的确都是最佳选择。这是计算机视觉做出来的，自动的。
第三组实验（图右）。假如我们回到石器时代，一堆石头能干什么事情？所以我经常说，咱们石器时代的祖先，比现在的小孩聪明。因为他们能够理解这个世界的本质，现在，工具和物体越来越特定了，一个工具做一个任务，人都变成越来越傻了。视觉认知就退化成模式识别的问题了：从原来工具的理解变成一个模式识别。也就是由乌鸦变鹦鹉了。

我的一个理念是：计算机视觉要继续发展，必须发掘这些“dark matter”。把图像中想象的95%的暗物质与图像中可见的5%的蛛丝马迹，结合起来思考，才能到达真正的理解。

视觉研究的未来，我用一句话来说：Go Dark， Beyond Deep --- 发掘暗，超越深。

这样一来，视觉就跟认知和语言接轨了。

第六节认知推理：走进内心世界

上一节讲到的智能的暗物质，已经属于感知与认知的结合了。再往里面走一步，就进入人与动物的内心世界Mind, 内心世界反映外部世界，同时受到动机任务的影响和扭曲。研究内涵包括：

Ta看到什么了？知道什么了？什么时候知道的？这其实是对视觉的历史时间求积分。
Ta现在在关注什么？这是当前的正在执行的任务。
Ta的意图是什么？后面想干什么？预判未来的目的和动机。
Ta喜欢什么？有什么价值函数？这在第九节会谈到具体例子。

自从人工智能一开始，研究者就提出这些问题，代表人物是Minsky：society of minds，心理学研究叫做Theory of minds。到2006年的时候，MIT认知科学系的Saxe与Kanwisher（她是我一个项目合作者）发现人的大脑皮层有一个专门的区，用于感受、推理到别人的想法：我知道你在想什么、干什么。这是人工智能的重要部分。

现实生活中，一般非隐私性的活动中，我们是不设防的，也就是“君子坦荡荡”。

不光是人有这个侦察与反侦察的能力，动物也有（见上图）。比如说这个鸟（图左），它藏果子的时候，会查看周围是否有其它鸟或者动物在那里看到它；如果有，它就不藏，它非要找到没人看它的时候和地方藏。这就是它在观察你，知道你知道什么。图中是一个狐狸和水獭对峙的视频。水獭抓到鱼了以后，发现这个狐狸在岸上盯着它呢，它知道这个狐狸想抢它嘴里叼着的鱼。水獭就想办法把鱼藏起来，它把这个鱼藏到水底下，然后这个狐狸去找。这说明了动物之间互相知道对方在想什么。

尽管人工智能和认知科学，以及最近机器人领域的人都对这个问题感兴趣，但是，大家以前还都是嘴上、纸上谈兵，用的是一些toy examples作为例子来分析。要做真实世界的研究，就需要从计算机视觉入手。计算机视觉里面的人呢，又大部分都在忙着刷榜，一时半会还没意思到这是个问题。我的实验室就捷足先登，做了一些初步的探索，目前还在积极推进之中。

我们首先做一个简单的试验，如上图。这个人在厨房里，当前正在用微波炉。有一个摄像头在看着他，就跟监控一样，也可以是机器人的眼睛(图左)。首先能够看到他目前在看什么（图中），然后，转换视角，推算他目前看到了什么（图右）。

上面这个图是实验的视频的截图。假设机器人事先已经熟悉某个三维房间（图e），它在观察一个人在房间里面做事（图a）。为了方便理解，咱们就想象这是一个养老院或者医院病房，机器人需要知道这个人现在在干什么，看什么（图c）。它的输入仅仅是一个二维的视频（图a）。它开始跟踪这个人的运动轨迹和眼睛注视的地方，显示在图e的那些轨迹和图f的行为分类。然后，图d（右上角）是它估算出来的，这个人应该在看什么的图片。也就是，它把它附体到这个人身上，来感知。这个结果与图b对比，非常吻合。图b是这个人带一个眼镜，眼镜有一个小摄像头记录下来的，他确实在看的东西。这个实验结果是魏平博士提供的，他是西交大前校长郑南宁老师那里的一个青年教师，博士期间在我实验室访问，后来又回来进修。

这里面需要推测动作与物体的时空交互，动作随时间的转换，手眼协调。然后，进一步猜他下面干什么，意图等等。这个细节我不多讲了。

对这个人内心的状态，也可以用一个STC-AOG 和STC-PG 来表达的，见下图，大致包含四部分。

一、时空因果的概率“与或图”，STC-AOG。它是这个人的一个总的知识，包含了所有的可能性，我待会儿会进一步阐述这个问题。剩下的是他对当前时空的一个表达，是一个STC-PG解译图。此解译图包含三部分，图中表达为三个三角形，每个三角形也是一个STC-PG 解译图。
二、当前的情景situation，由上图的蓝色三角形表示。当前的情况是什么，这也是一个解，表示视觉在0-t时间段之间对这个场景的理解的一个解译图。
三、意向与动作规划图，由上图的绿色三角形表示。这也是一个层次化的解译图，预判他下面还会做什么事情，
四、当前的注意力，由上图的红色三角形表示。描述他正在关注什么。

把这整个解译图放在一块，基本上代表着我们脑袋的过去、现在、未来的短暂时间内的状态。用一个统一的STC-PG 和 STC-AOG来解释。这是一个层次的分解。因为是Composition，它需要的样本就很少。

有人要说了，我的深度神经网络也有层次，还一百多层呢。我要说的是，你那一百多层其实就只有一层，对不对？因为你从特征做这个识别，中间的东西是什么你不知道，他不能去解释中间那些过程，只有最后一层输出物体类别。

我用下面这个图来大致总结一下。两个人A与B或者一个人一个机器人，他们脑袋里面的表达模式。图中是一个嵌套的递归结构,每一个椭圆代表一个大脑的内心mind。

每个mind除了上面谈到的知识STC-AOG 和状态STC-PG，还包含了价值函数，就是价值观，和决策函数。价值观驱动动作，然后根据感知、行动去改变世界，这样因果就出来了。我后面再细谈这个问题。

最底下中间的那个椭圆代表真实世界（“上帝”的mind，真相只有TA知道，我们都不知道），上面中间的那个椭圆是共识。多个人的话就是社会共识。在感知基础上，大家形成一个统一的东西，共同理解，我们达成共识。比如，大家一起吃饭，菜上来了，大家都看到这个菜是什么菜，如果没有共识那没法弄。比如，“指鹿为马”或者“皇帝的新装”，就是在这些minds之间出现了不一致的东西。这是所谓“认识论”里面的问题。以前，在大学学习认识论，老师讲得比较空泛，很难理解；现在你把表达写出来，一切都清楚了。这也是人工智能必须解决的问题。

我们要达成共识，共同的知识，然后在一个小的团体、大致社会达成共同的价值观。当有了共同价值观的时候，就有社会道德和伦理规范，这都可以推导出来了。俗话说，入乡随俗。

那么如何达成共识呢？语言就是必要的形成共识的工具了。

第七节语言通讯：沟通的认知基础

我要介绍的人工智能的第三个领域是语言、对话。最近我两次在视觉与语言结合的研讨会上做了报告，从我自己观察的角度来谈，视觉与语言是密不可分的。

动物之间就已经有丰富的交流的方式，很多借助于肢体语言。人的对话不一定用语言，手语、哑剧（pantomine）同样可以传递很多信息。所以，在语言产生之前，人类就已经有了十分丰富的认知基础，也就是上一节谈的那些表达。没有这样的认知基础，语言是空洞的符号，对话也不可能发生。

如果是人的话，我们就会热心地指那个小孩的方向，人天生是合作的，去帮助别人的，助人为乐，所以这是为什么我们人进化出来了。猩猩不会，猩猩不指，它们没有这个动机，它们脑袋与人相比一定是缺了一块。

除了需要这个认知基础，语言的研究不能脱离了视觉对外部世界的感知、机器人运动的因果推理，否则语言就是无源之水、无本之木。这也就是为什么当前一些聊天机器人都在“扯白”。

我们先来看一个最基本的的过程：信息的一次发送。当某甲（sender）要发送一条消息给某乙（receiver），这是一个简单的通讯communication。这个通讯的数学模型是当年贝尔实验室香农Shannon1948年提出来的信息论。首先把它编码，因为这样送起来比较短，比较快；针对噪声通道，加些冗余码防错；然后解码，某乙就拿到了这个信息。见下图。

在这个通讯过程之中他有两个基本的假设。第一、这两边共享一个码本，否则你没法解码，这是一个基本假设。第二、就是我们有个共享的外部世界的知识在里面，我们都知道世界上正在发生什么什么事件，比如哪个股票明天要涨了，哪个地方要发生什么战争了等等。我给你传过去的这个信息其实是一个解译图的片段（PG：parse graph）。这个解译图的片段对于我们物理世界的一个状态或者可能发生的状态的描述。这个状态也有可能就是我脑袋Mind里面的一个想法、感觉、流态（fluents）。比如，很多女人拿起电话，叫做“煲粥”，就在交流内心的一些经历和感受。

Shannon的通讯理论只关心码本的建立（比如视频编解码）和通讯带宽（3G,4G，5G）。1948年提出信息论后，尽管有很多聪明人、数学根底很强的人进到这个领域，这个领域一直没有什么大的突破。为什么？因为他们忽视了几个更重大的认识论的问题，避而不谈：

甲应该要想一下：乙脑袋里面是否与甲有一个共同的世界模型？否则，解码之后，乙也不能领会里面的内容？或者会误解。那么我发这个信息的时候，措辞要尽量减少这样的误解。
甲还应该要想一下：为什么要发这个信息？乙是不是已经知道了，乙关不关注这个信息呢？乙爱不爱听呢？听后有什么反应？这一句话说出去有什么后果呢？乙要想一下：我为什么要收这个信息呢？你发给我是什么意图？这是在认知层面的，递归循环的认知，在编码之外。所以，通讯理论就只管发送，就像以前电报大楼的发报员，收钱发报，他们不管你发报的动机、内容和后果。

纵观人类语言，中国的象形文字实在了不起。所谓象形文字就完全是“明码通讯”。每个字就是外部世界的一个图片、你一看就明白了，不需要编解码。我觉得研究自然语言的人和研究视觉统计建模的人，都要好好看看中国的甲骨文，然后，所有的事情都清楚了。每个甲骨文字就是一张图，图是什么？代表的就是一个解译图的片段（fragment of parse graph）。

上面这个图是一个汉字的演变和关系图，从一本书叫做《汉字树》得来的。几年前，我到台湾访问，发现这本丛书，很有意思。这个图是从眼睛开始的一系列文字。

首先从具象的东西开始，这中间是一个眼睛，“目”字，把手搭在眼睛上面，孙悟空经常有这个动作，就是“看”（look）。
然后是会意，比如“省”，就是细看，明察秋毫，画一个很小的叶子在眼睛上面，指示说你看叶子里面的东西，表示你要细看。
然后开始表达抽象的概念，属性attribute、时空怎么表达，就是我们甲骨文里面，表示出发、终止，表示人的关系，人的脑袋状态，甚至表现伦理道德。就这样，一直推演开。

所以，搞视觉认知的，要理解物体功能就要追溯到石器时代去，搞语言的要追溯到语言起源。

下图是另一个例子：日、月、山、水、木；鸟、鸡、鱼、象、羊。下面彩色的图是我们实验室现在用计算机视觉技术从图像中得到的一些物体的表达图模型，其实就重新发明一些更具像的甲骨文。这项技术是由YiHong，司长长等博士做的无监督学习。他们的算法发现了代表鸟的有头、身子和脚、水波和水草等“类甲骨文”名词符号。这种视觉的表达模型是可解释explainable、直观的。

所以，从生成式模型的角度来看，语言就是视觉，视觉就是语言。

再来看看动词。考考你们，这是啥意思？第一个字，两只手，一根绳子，在拖地上一个东西，拿根绳子拽。第二个很简单，洗手。第三是关门。第四是援助的援字，一只手把另外一个人的手往上拉。第五也是两个手，一个手朝下一个手朝上，啥意思？我给你东西，你接受。第六是争夺的争，两个手往相反的方向抢。第七两个人在聊天。基本上，字已经表示了人和人之间的动作细节。

现在我的实验室里，计算机也能自动学出“类甲骨文”的动词的表达，见下图。我们学出来的这些两个人交互的动作包括：坐、玩手机、握手、人拉人等等。我们把这些动作模型分别叫做4DHOI (4D Human-Object Interaction)、4Dhoi（4D hand-object interaction）、4DHHI (4D Human-Human Interaction)。

我刚才说了名词和动词，还有很多其他的东西，我建议你们去研究一下，要建模型的话我们古代的甲骨文其实就是一个模型，他能够把我们世界上所有需要表达的东西都给你表达了，是一个完备了的语言模型。

现在，我们回到语言通讯、人与机器人对话的问题。下图就是我提出的一个认知模型。

两个人之间至少要表达五个脑袋minds：我知道的东西、你知道的东西、我知道你知道的东西、你知道我知道的东西、我们共同知道的东西。还有，对话的时候你的意图是什么等等诸多问题。具体我不讲那么多了。

最后，我想谈一点，语言与视觉更深层的联系、与数学中代数拓扑的联系。拓扑学是什么意思？就是说图象空间，语言空间，就是一个大集合，全集。

第八节博弈伦理：获取、共享人类的价值观

机器人要与人交流，它必须懂得人类价值观。哲学和经济学里面有一个基本假设，认为一个理性的人（rational agent），他的行为和决策都由利益和价值驱动，总在追求自己的利益最大化。与此对应的是非理性的人。对于理性的人，你通过观察他的行为和选择，就可以反向推理、学习、估算他的价值观。我们暂时排除他有可能故意假装、迷惑我们的情况。

人与人的价值不同，就算同一个人，价值观也在改变。本文不讨论这些社会层面的价值观，我们指的是一些最基本的、常识性的、人类共同的价值观。比如说把房间收拾干净了，这是我们的共识。

上图是我做的一个简单的实验。我把几种不同的椅子、凳子放在我办公室（左图）和实验室（右图）。然后，我统计一下学生进来以后，他喜欢坐哪个椅子，实在不行可以坐地上。这样我就可以得到这些椅子的排序。A、B、C、D、E、F、G排个序，见上面的统计图。我观察了这些人的选择，就问：为什么这个椅子比那个椅子好？是什么好？这其实就反映了人的脑袋里面一个基本的价值函数。又说一遍：很普通的日常现象，蕴含深刻的道路。苹果落地不是这样吗?大家司空见惯了，就不去问这个问题了。

见下图，比如背部、臀部、头部受多少力。

下图中蓝色的直方图显示了六个身体部位的受力分别图。由此我们就可以推算出每个维度的价值函数。下面图中六条红色的曲线是负的价值函数，当人的坐姿使得各部位受力处于红线较低的值，就有较高的“价值”，也就是坐得“舒服”。当然每个人可能不一样，有的人腰疼必须坐硬板凳子有的人喜欢坐软沙发。这也是为什么，如果你观察到有些异样，可以推导这个人某地方可能受伤了。

读到这里，你不禁要问：这不是与物理的势能函数，如重力场，一样吗？对，就是一个道理。这也是在最后一节我将要说的：达尔文与牛顿的理论体系要统一。

这对我们是常识，但是机器人必须计算出很多这样的常识，TA需要设身处地为人着想，这个就不容易了。

最近大家谈论较多的是机器人下棋，特别是下围棋，的确刺激了国人的神经。下棋程序里面一个关键就是学习价值函数，就是每一个可能的棋局，它要有一个正确的价值判断。

谈到这里，我想顺便对比两大类学习方法。

一、归纳学习 Inductive learning。我们通过观察大量数据样本，这些样本就是对某个时期、某个地域、某个人群达成的准平衡态的观察。也是我前面谈过的千年文化的形成与传承。
二、演绎学习 Deductive learning。这个东西文献中很少，也就是从价值函数（还有物理因果）出发，直接推导出这些准平衡态，在我看来，这也是一个STC-AOG。这就要求对研究的对象有深刻的、生成式的模型和理解。

第九节机器人学：构建大任务平台

我在第四节谈到人工智能研究的认知构架，应该是小数据、大任务范式。机器人就是这么一个大任务的科研平台。它不仅要调度视觉识别、语言交流、认知推理等任务，还要执行大量的行动去改变环境。我就不介绍机械控制这些问题了，就用市面上提供的通用机器人平台。

前面介绍过，人和机器人要执行任务，把任务分解成一连串的动作，而每个动作都是要改变环境中的流态。

我把流态分作两大类：

（1）物理流态（Physical Fluents）：如下图左边，刷漆、烧开水、拖地板、切菜。
（2）社会流态 (Social Fluents): 如下图右边，吃、喝、追逐、搀扶，是改变自己内部生物状态、或者是与别人的关系。

当机器人重建了三维场景后（在谈视觉的时候提到了，这其实是一个与任务、功能推理的迭代生成的过程），它就带着功利和任务的眼光来看这个场景。如下图所示，哪个地方可以站，哪个地方可以坐，哪个地方可以倒水等等。下面图中亮的地方表示可以执行某个动作。这些图在机器人规划中又叫做Affordance Map。意思是：这个场景可以给你提供什么？

有了这些单个基本任务的地图，机器人就可以做任务的规划。这个规划本身就是一个层次化的表达。文献中有多种方法，我还是把它统一称作一种STC-PG。这个过程，其实相当复杂，因为它一边做，一边还要不断看和更新场景的模型。因为我前面介绍过，对环境三维形状的计算精度是根据任务需要来决定的，也就是Task-Centered视觉表达。

这个动作计划的过程还要考虑因果、考虑到场景中别人的反应。考虑的东西越多，它就越成熟，做事就得体、不莽莽撞撞。

我一开始讲到的那个机器人竞赛，这些感知和规划的任务其实都交给了一群在后台遥控的人。

下面，我就简单介绍几个我实验室得到的初步演示结果，后台没有遥控的人。我实验室用的是一个通用的Baxter机器人，配上一个万向移动的底座和两个抓手（grippers），还有一些传感器、摄像头等。两个抓手是不同的，左手力道大，右手灵活。很有意思的是，如果你观察过龙虾等动物，它的两个钳子也是不同的，一个用来夹碎、一个是锯齿状的。

下图是一个博士生舒天民教会了机器人几种社交动作，比如握手。握手看似平常，其实非常微妙。但你走过去跟一个人握手的过程中，你其实需要多次判断对方的意图；否则，会出现尴尬局面。舒的论文在美国这边媒体都报道过。

下面这个组图是机器人完成一个综合的任务。首先它听到有人去敲门，推断有人要进来，它就去开门。其次，它看到这个人手上拿个蛋糕盒子，双手被占了，所以需要帮助。通过对话，它知道对方要把蛋糕放到冰箱里面，所以它就去帮人开冰箱的门（上右图）。这个人坐下来后，他有一个动作是抓可乐罐，摇了摇，放下来。它必须推断这个人要喝水，而可乐罐是空的（不可见的流态）。假设它知道有可乐在冰箱，它后面就开冰箱门拿可乐，然后递给人。

当然，这个是受限环境，要能够把样的功能做成任意一个场景的话，那就基本能接近我们前面提到的可敬的乌鸦了。我们还在努力中！

第十节机器学习：学习的极限和“停机问题”

前面谈的五个领域，属于各个层面上的“问题领域”，叫Domains。我们努力把这些问题放在一个框架中来思考，寻求一个统一的表达与算法。而最后要介绍的机器学习，是研究解决“方法领域”（Methods），研究如何去拟合、获取上面的那些知识。打个比方，那五个领域就像是五种钉子，机器学习是研究锤子，希望去把那些钉子锤进去。深度学习就像一把比较好用的锤子。当然，五大领域里面的人也发明了很多锤子。只不过最近这几年深度学习这把锤子比较流行。

网上关于机器学习的讨论很多，我这里就提出一个基本问题，与大家探讨：学习的极限与“停机问题”。

首先，到底什么是学习？

当前大家做的机器学习，其实是一个很狭义的定义，不代表整个的学习过程。见下图。它就包含三步：

（1）你定义一个损失函数loss function 记作u，代表一个小任务，比如人脸识别，对了就奖励1，错了就是-1。
（2）你选择一个模型，比如一个10-层的神经网络，它带有几亿个参数theta，需要通过数据来拟合。
（3）你拿到大量数据，这里假设有人给你准备了标注的数据，然后就开始拟合参数了。

这个过程没有因果，没有机器人行动，是纯粹的、被动的统计学习。目前那些做视觉识别和语音识别都是这一类。

其实真正的学习是一个交互的过程。就像孔子与学生的对话，我们教学生也是这样一个过程。学生可以问老师，老师问学生，共同思考，是一种平等交流，而不是通过大量题海、填鸭式的训练。坦白说，我虽然是教授，现在就常常从我的博士生那里学到新知识。

这个学习过程是建立在认知构架之上的（第六节讲过的构架）。我把这种广义的学习称作通讯学习Communicative Learning，见下图。

这个图里面是两个人A与B的交流，一个是老师，一个是学生，完全是对等的结构，体现了教与学是一个平等的互动过程。每个椭圆代表一个脑袋mind，它包含了三大块：知识theta、决策函数pi、价值函数mu。最底下的那个椭圆代表物理世界，也就是“上帝”脑袋里面知道的东西。上面中间的那个椭圆代表双方达成的共识。

这个通讯学习的构架里面，就包含了大量的学习模式，包括以下七种学习模式（每种学习模式其实对应与图中的某个或者几个箭头），这里面还有很多模式可以开发出来。

（1）被动统计学习passive statistical learning：上面刚刚谈到的、当前最流行的学习模式，用大数据拟合模型。
（2）主动学习active learning：学生可以问老师主动要数据，这个在机器学习里面也流行过。
（3）算法教学algorithmic teaching：老师主动跟踪学生的进展和能力，然后，设计例子来帮你学。这是成本比较高的、理想的优秀教师的教学方式。
(4) 演示学习learning from demonstration：这是机器人学科里面常用的，就是手把手叫机器人做动作。一个变种是模仿学习immitation learning。
（5）感知因果学习perceptual causality：这是我发明的一种，就是通过观察别人行为的因果，而不需要去做实验验证，学习出来的因果模型，这在人类认知中十分普遍。
（6）因果学习causal learning：通过动手实验，控制其它变量，而得到更可靠的因果模型，科学实验往往属于这一类。
（7）增强学习reinforcement learning：就是去学习决策函数与价值函数的一种方法。

我在第一节谈到过，深度学习只是这个广义学习构架里面很小的一部分，而学习又是人工智能里面一个领域。所以，把深度学习等同于人工智能，真的是坐井观天、以管窥豹。

其次，学习的极限是什么？停机条件是什么？

我们学习、谈话的过程，其实就是某种信息在这些椭圆之间流动的过程。那么影响这个流动的因素就很多,我列举几条如下。

（1）教与学的动机：老师要去交学生一个知识、决策、价值，首先他必须确认自己知道、而学生不知道这个事。同理，学生去问老师，他也必须意识到自己不知道，而这个老师知道。那么，一个关键是，双方对自己和对方有一个准确的估计。
（2）教与学的方法：如果老师准确知道学生的进度，就可以准确地提供新知识，而非重复。这在algorithmic learning 和 perceptual causality里面很明显。
（3）智商问题：如何去测量一个机器的智商？很多动物，有些概念你怎么教都教不会。
（4）价值函数：如果你对某些知识不感兴趣，那肯定不想学。价值观相左的人，那根本都无法交流，更别谈相互倾听、学习了。比如微信群里面有的人就待不了，退群了，因为他跟你不一样，收敛不到一起去，最后同一个群的人收敛到一起去了，互相增强。这在某种程度上造成了社会的分裂。

第十一节总结：智能科学 — 牛顿与达尔文理论体系的统一

什么叫科学？物理学是迄今为止发展最为完善的一门科学，我们可以借鉴物理学发展的历史。我自己特别喜欢物理学，1986年报考中科大的时候，我填写的志愿就是近代物理（4系）。填完志愿以后，我就回乡下去了。我哥哥当时是市里的干部，他去高中查看我的志愿，一看报的是物理，只怕将来不好找工作，他就给我改报计算机。当时我们都没见过计算机，他也没跟我商量，所以我是误打误撞进了这个新兴的专业，但心里总是念念不忘物理学之美。

等到开学，上《力学概论》的课，教材是当时常务副校长夫妇写的，我这里就不提名字了，大家都知道，这是科大那一代人心中永恒的记忆。翻开书的第一页，我就被绪论的文字震撼了。下面是一个截图，划了重点两句话，讨论如下。

（1）物理学的发展就是一部追求物理世界的统一的历史。第一次大的统一就是牛顿的经典力学，通过万有引力把天界星体运动与世俗的看似复杂的物体运动做了一个统一的解释。形成一个科学的体系，从此也坚定了大家的信念：

“物理世界存在着完整的因果链条”。

物理学的责任就是寻找支配自然各种现象的统一的力。

这完全是一个信念，你相信了，就为此努力！自牛顿以来，300多年了，物理学家还在奋斗，逐步发现了一个美妙的宇宙模型。

智能科学的复杂之处在于：

（1）物理学面对的是一个客观的世界，当这个客观世界映射到每个人脑中，形成一个主观与客观融合的世界，也就是每个人脑中的模型（这是统计中贝叶斯学派观点）。这个模型又被映射到别人脑袋之中。每个脑Mind里面包含了上百个他人的模型的估计。由这些模型来驱动人的运动、行为。
（2）物理学可以把各种现象隔离出来研究，而我们一张图像就包含大量的模式，人的一个简单动作后面包含了很复杂的心理活动，很难隔离开。况且，当前以大数据集为依据的“深度学习”学派、“刷榜派”非常流行，你要把一个小问题单独拿出来研究，那在他们复杂数据集里面是讨不到什么便宜的。文章送到他们手上，他们就“强烈拒绝”，要求你到他们数据集上跑结果。这批人缺乏科学的思维和素养。呜呼哀哉！

回到前面乌鸦的例子，我在第四节讨论到，我们研究的物理与生物系统有两个基本前提：

一、智能物种与生俱来的任务与价值链条。这是生物进化的“刚需”，动物的行为都是被各种任务驱动的，任务由价值函数决定，而后者是进化论中的phenotype landscape，通俗地说就是进化的适者生存。
二、物理环境客观的现实与因果链条。这就是自然尺度下的物理世界与因果链条，也就是牛顿力学的东西。

说到底，人工智能要变成智能科学，它本质上必将是达尔文与牛顿这两个理论体系的统一。

2016年我到牛津大学开项目合作会，顺便参观了伦敦的Westminster Abbey 大教堂。让我惊讶的是：牛顿（1642-1727）与达尔文（1809-1882）两人的墓穴相距也就2-3米远。站在那个地点，我当时十分感慨。这两个人可以说是彻底改变人类世界观的、最伟大的科学巨人，但是他们伟大的理论体系和思想的统一，还要等多久呢？

这篇长文的成稿正好是深秋，让我想起唐代诗人刘禹锡的《秋词》，很能说明科研的一种境界，与大家共赏：

自古逢秋悲寂寥，我言秋日胜春朝。晴空一鹤排云上，便引诗情到碧霄。

附录

主持人：王蕴红教授介绍辞（多谢溢美之词，在此省略）。

朱开场白：

感谢谭铁牛老师多次关照和王蕴红老师的盛情邀请。今天是星期天，非常不好意思，耽误大家休息时间。我知道大家平时都很忙，你们坚持听到最后一讲，非常不容易。所以，我给你们带来一点干货，作为“精神补偿”。

今天的讲座是个命题作文，王老师要我谈人机交互。到底什么是人机交互，它要解决哪些问题？我就花了一周时间整理了一个比较长的讲座，给大家介绍人工智能的发展，和人机交互的体系结构。这个问题非常大，而且研究工作刚刚起步，大家需要把很多问题放在一起看、才能看出大致的轮廓。我给大家提一个思路，启发大家思考，我并不想直接给出一个解答方法。那样的话就剥夺了你们思考的空间和权利。

2017年初我在《视觉求索》发表过一篇谈“学术人生”的文章，讲到做学问的一个理想境界就是“清风明月”，也就是夜深人静的时候，你去科学前沿探索真理。今天的讲座，希望把大家带到这么一个空旷的地方，去领略一番。

报告后的提问互动：

提问一：朱老师，机器怎么通过学习让它产生自我意识。刚才您演示的那个机器人，门口有个人他要进来，Ta怎么知道自己后退把路给让出来？

朱：自我意识这个问题非常重要。我先简要介绍一下背景，再回答你的问题。

自我意识（self-awareness，consciousness）在心理学领域争议很大，以至于认知学会一度不鼓励大家去谈这个问题，这个方向的人多年拿不到研究经费。人工智能里面有少数人在谈，但是，还不落地。自我意识包括几点：

（1）感知体验。我们花钱去看电影、坐过山车、旅游，其实买的就是一种体验。这种体验是一种比较低层次的自我意识，形成一种表达（可以是我上面讲到的解译图）。事后你也可以回味。
（2）运动体验。我们虽然有镜子，可是除了舞蹈人员，大家并没有看到自己的行为动作。但是，我们对自己的体态和动作是有认知的。我们时刻知道我们的体态和三维动作。比如，心理学实验，把你和一群人（熟悉和不熟悉的都有）的动作步态用几个关节点做运动捕捉，记录下来，然后，就把这些点放给你看，你只看到点的运动，看不到其它信息。你认出哪个人是你自己的比率高于认出别人，而且对视角不那么敏感。所以，我们通过感知和运动在共同建立一个自我的三维模型。这两者是互通的，往往得益于镜像神经元（mirror neurons）。这是内部表达的一个关键转换机制。

机器人在这方面就比较容易实现，它有自己的三维模型，关节有传感器，又有Visualodometry，可随时更新自己在场景中的三维位置和形态。这一点不难。

（3）自知之明。中国有个俗语叫做“人贵有自知之明”。换句话说，一般人很难有自知之明。对自己能力的认识，不要手高眼低、或者眼高手低。而且这种认识是要随时更新的。比如，喝酒后不能开车，灯光暗的时候我的物体识别能力就不那么强，就是你对自己能力变化有一个判断。我们每天能力可能都不一样其实，这个相当复杂了。

比如，机器人进到日本福岛救灾场景，核辐射随时就在损害机器人的各种能力。突然，哪一条线路不通了，一个关节运动受限了，一块内存被破坏了。它必须自己知道，而后重新调整自己的任务规划。目前人工智能要做到这一点，非常难。

刚才说的人进来、机器人知道往后退，那就是一个协调动作的规划。你规划动作、首先要知道对方是什么动作。比如，人与人握手就其实是非常复杂的互动过程。为了达成这个目标，你要在脑内做模拟simulate。

提问二：谢谢朱教授，感觉今天听到的都是我以前从来没有听过的东西。我有一个问题就是像机器人这种自我认识都很难，像您说的交互他还要去理解对方那个人的想法，这种信息他怎么来获取呢？也是通过学习还是？

朱：靠观察与实践。你看别人做事你就观察到，你就能够学到每个人都不一样的价值函数，你就了解到你周围的同事，比如你们共享一个办公室，或者观察你家庭里面的人，你跟他生活的时间越长，你就越来越多的知道他怎么想问题、怎么做事，然后你跟他在交互的过程中越来越默契了。除了观察，还有实践，就是去试探、考验对方。

夫妻之间，刚结婚会吵架，之后越吵越少了、和谐了，价值观融合大致收敛了、或者能够互相容忍了。实在无法收敛，那就分道扬镳，到民政局办手续。这两种情况都是我说的“学习的停机问题”。大家之间不要再相互交流、学习了，要么心领神会、心照不宣；要么充耳不闻、形同陌路。

提问三：他也是通过他自己观察到，它里面建立一个图吗？一个解译图（parse graph）吗？

朱：在我看来是这样的。就是我必须把你脑袋里面的很多结构尽量重构出来，表达层面就是解译图，至于人脑如何在神经元层面存储这个解译图，我们不清楚。人脑肯定有类似的表达，我脑袋里面有你的表达后，我就可以装或者演你的对各种情况的反应。

文学作家创作的时候，他脑袋里面同时要装下几十、上百号人的模型和知识表达，那些人知道什么、什么时候知道的。读文科的人一般观察比较敏锐。表演艺术家在这方面能力肯定也特别强。

提问四：像我们刚接触机器学习，你有没有什么推荐的，因为现在大家都在追踪训练深度网络，有没有一个推荐的，就是概率模型还是什么东西，一个数学理论或者一个数学工具。

朱：我的想法是这样的，首先让大家端正思想，就是你想学，探索真理和未知。就是说在夜深人静的时候你探索真理，等你心境沉静下来，你自然就看到一些别人忽略的东西。不要让我推荐某个工具、代码、秘籍，拿来就用。我今天讲的东西都不是来源于某一个理论、工具，是融会贯通后的结果。

我反复告诫学生们，做科学研究不是过去那种到北京天桥看把戏，哪里热闹就往哪里钻。我以前也谈到过一个“路灯的隐喻”，科学研究就像在一个漆黑的夜晚找钥匙，大家喜欢聚在路灯底下找，但是很可能钥匙不在那个灯底下。

提问五：朱老师好，非常庆幸来听这个报告，我最后一个问题很简单。您说那几个时期，我想问一下秦朝到底什么时候能到？到秦朝的时候，数学的哪一块你认为，可能会被用做秦朝的武器或者最厉害的那个武器是什么。

朱：问得很好。什么时候会达到统一？这个事情中国有两个说法，都有道理。

一种说法叫做“望山跑死马”。你远远望见前面那个山快到了，你策马前行，可是马跑死都到不了，中间可能还有几条河拦住去路。那是我们对这个事情估计不足。

第二个说法是“远在天边，近在眼前”。能不能到达，决定于你这边的人的智慧和行动。什么时候统一、谁来统一，这决定于我们自己努力了。春秋和战国时期，思想家是最多的，诸子百家全部都出来了，那是一个思想激烈碰撞的时代。我今天讲的这些东西其实都在我脑袋里面激烈的碰撞，我还有些问题想不通。

我们现在谈这个事情和框架，你觉得世界上有多少人在做？我的观察是：极少，也许一只手就可以数得过来。

你的第二个问题，如果要统一，那最厉害的数学工具是什么？我们要建立统一的知识表达：概率和逻辑要融合，和深度学习也要融合。我们看看物理学是如何统一的，他们里面各种模型（四大类的力与相互作用）必须融洽，然后解释各种现象。简单说我们需要搞清楚两点：

一、什么地方用什么模型？对比经典力学、电磁学、光学、统计物理、粒子物理等都有自己的现象、规律和使用范围。我们这边也类似，各种模型有它们的范围和基础，比如我们常常听说的，吉布斯模型往往就在高熵区，稀疏模型在低熵区，与或图语法用在中熵区。这一块除了我的实验室，世界上没有其他人研究。
二、这些模型之间如何转化？前面我讲了一个例子，我写了一篇关于隐式（马尔科夫场）与显式（稀疏）模型的统一与过渡的信息尺度的论文，投到CVPR会议，结果，三个评分是“（5）强烈拒绝；（5）强烈拒绝；（4）拒绝”。大家根本就没想这个问题，眼睛都巴巴地看着数据集、性能提升了多少。刷榜成了CVPR科研的重要范式。在某些人眼中，刷榜成了唯一方式。我以前是批判这个风气，后来一想，其实应该多鼓励。我对那些把大众带到沟里去的学术领军人物，以前是批评，现在我特别感激Ta们。这样我自己的学生才有更多时间去实现我们的思路。你们都一起涌过来踩踏、乱开乱挖，我都躲不开。我做研究喜欢清静，不去赶热闹，不去追求文章引用率这些指标。

王蕴红教授总结（整理）：今天朱教授的报告，大家可以感觉到两点。

一、纵横捭阖、举重若轻。纵论、横论整个人工智能六大领域很多深刻的题目，在很多层面上纵横交叉的线，他理得非常清楚、举重若轻，收发自如。非常幸运能听到这样的报告。
二、授人以渔而不是鱼。他讲的是如何去思考问题，如何去看世界，如何研究一些真正本质的东西。近几年深度学习被过多强调之后，有很多博士生还有一些研究者过于依赖工具，思考的能力被损坏了。其实研究的世界那么大，你一定要抬起头来看看，仰望星空。

鸣谢

感谢微软研究院郭百宁、华刚、代季峰等博士2016年9月在北京组织的研讨会。2017年6月汤晓鸥、王晓刚、林倞等教授邀请我在香港中文大学所作的报告。沈向洋博士在2017年7月西雅图组织的碧慧论坛。2017年9月在谭铁牛教授关照下、王蕴红教授在中科院自动化所举办的人工智能人机交互讲习班、并指派速记员和北航博士生刘松涛同学整理出报告的中文初稿。假若没有他们的耐心、催促、鼓励和协助，这篇中文报告是不可能产生的。报告中的部分图片由VCLA@UCLA实验室朱毅鑫、魏平、舒天民等人协助整理。

感谢中科大阮耀钟教授、杨志宏同学帮我找到那本珍藏的《力学概论》电子扫描版。其绪论被摘录在文中。我的思想受到这本书的启蒙。

感谢《视觉求索》公众号编辑部周少华、华刚、吴郢、罗杰波等同仁的协助。

感谢美国多家机构对文中提及研究的长期支持。

朱松纯：三读《赤壁赋》，并从人工智能的角度解读“心”与“理”的平衡

【2022-1-7】北京通用人工智能研究院院长朱松纯：三读《赤壁赋》，并从人工智能的角度解读“心”与“理”的平衡, 转载版本，可显示图片

试图探讨当代人工智能研究和传统人文社科研究的双向连接。用人工智能的认知架构模型，来解读苏东坡在《赤壁赋》中的出世入世的困惑，探讨人类如何调整心态，达到“心”与“理”的平衡。

第一节引言
- 人生轨道：跃迁与升华
  - 人生的三个层次：活着 → 活得好 → 活得有意义
    - 活着（马斯洛生理+安全）
    - 活得好（马斯洛中间两层：爱与认同、尊严与名声）
    - 活得有意义：马斯洛最高三层，好奇与理解，审美，实现自我潜能与价值。
  - 人生的终极价值可以分为两种：无穷（位列不朽）或有限（落入黑洞）
- 苏轼的哲思：人生的意义
- 什么是活明白
- 当今学子的困惑
第二节初读文学《赤壁赋》：横槊赋诗
第三节重读学术《赤壁赋》：清风明月
- 做学问的本质——登无人之境、享清风明月
第四节再读哲学《赤壁赋》：“心”与“理”的平衡
- 人生的有限和无穷
- 出世与入世：“心欲”与“天理”的平衡
- 从人工智能的角度解读“心”与“理”的平衡
结束语

VQA视觉问答

【2023-4-18】VQA视觉问答

VQA任务定义如下：

给机器输入一张图片和一个跟这幅图片相关的问题，机器需要根据图片信息对问题进行回答。
训练阶段，需要先在一个由 < 图像v ，问题q ，答案a > 组成的三元组集上训练一个模型。
测试阶段，给该预训练模型输入一张新的图像和一个新的问题，要求模型能够预测正确的答案。

设模型参数为 $\theta $ ，则该任务的目标为求取 $\left (a|q,v,\theta\right )$

对于open-Ended问题，机器的输出是自然语言（算法需要生成一个字符串来回答问题）。
对于multi-choice问题，机器挑选出正确答案。

它们包括计算机视觉中的许多子问题，例如

对象识别 - 图像中有什么？
对象检测 - 图像中是否有猫？
属性分类 - 猫是什么颜色的？
场景分类 - 阳光明媚吗？
计数 - 图像中有多少只猫？

除此之外，还有许多更复杂的问题可以提出，例如问题关于物体之间的空间关系（猫和沙发之间是什么？）和常识性推理问题（女孩为什么哭？）。强大的VQA系统必须能够解决各种各样的经典计算机视觉任务以及需要推理图像的能力。

VQA相关扩展任务有：

（1）图像集问答
（2）视频问答
（3）图像文本问答
（4）图表QA
（5）360度图像VQA

视觉问答方法可以概括为如下三步：

（1）将输入图像和输入问题，分别转换为对应的特征表示。
（2）对两种模态的特征进行融合，得到图片和问题的联合信息。
（3）最后把得到的联合特征送入到分类器中从预定义的候选答案集中推断最可能的答案，或者送入到解码循环神经网络中(Decoder RNN)来直接生成答案。

图像特征

大多数算法使用在ImageNet上经过预训练的CNN，常见示例为VGGNet，ResNet和GoogLeNet。问题特征化，包括词袋（BOW），长期短期记忆（LSTM）编码器，门控递归单元（GRU）等。

各种模型在集成图像特征和问题特征上有所不同。

（1）贝叶斯方法，使用贝叶斯模型，利用问题图像-答案特征分布预测答案。
（2）借助神经网络，在神经网络框架中使用双线性池或相关机制（如简单机制，使用串联，逐元素乘法或逐元素加法集成，输入给线性分类器和神经网络）。
（3）注意力机制：根据相对重要性自适应的缩放局部特征，关注特征从全局变为局部。
（4）组合模型，将VQA任务分解为一系列子问题。

总体来说，目前VQA方法主要有两种，一种是单一模型方法，该方法针对不同的问题-图像对使用同一个模型。另外一种是模块化方法，注重组合推理，通过对问题解析，将VQA任务分解为一系列子问题，针对不同的子任务设计不同的模块。

评测标准

（1）open-Ended：

1）simple accuracy：要求算法输出需要和the ground truth answer完全匹配，此种评估方法过于严格。
2）Modified WUPS：通过计算预测答案和标准答案之间的语义距离来衡量两者的不同，该值是0到1之间的数字。根据找到公共包含者需要遍历语义树的距离来分配分数。主要用于DAQUAR 和COCO-QA数据集。
- 根据两个单词在一个分类树中的最长公共子序列来计算相似性。如果预测单词和标准答案单词的相似性低于设定的阈值则候选答案的评分为0。WUPS的另一个主要问题是它只适用于严格的语义概念（几乎都是单个单词）。WUPS不能用于短语或句子答案（VQA数据集和Visual7W）。
3）Consensus Metric：针对每个问题，独立的收集多个ground truth answer（如：VQA、 DAQUAR-consensus）。DAQUAR-consensus每个问题由5个人提供答案。数据集的创建者提出了两种使用这些答案的方法，他们称为平均共识和最小共识。为了达成平均共识，最终分数会偏重于将更高的分数给予注释者提供的流行答案。为了达成最小共识，答案需要至少有一个注释者达成共识。
- 对于VQA数据集，注释者为每个问题生成了十个答案。精确度指标的变化形式为
- 其中n是与算法具有相同答案的注释者总数。
4）Manual Evaluation：两个标准，确定答案是否由人为产生，不管答案是否正确。第二个度量标准使用三分制的答案进行评分，该分数为完全错误（0），部分正确（1）和完全正确（2）。

（2） multi-choice：

多项式选择任务（部分的VQA Dataset, Visual7W, and Visual Genome.），通常使用simple accuracy指标来评估，如果算法做出正确的选择，它就会得到正确的答案。

加拿大AI崛起

【2019-10-20】The Rise of AI
- Hinton站立办公，不开车，步行上班；RL之父Sutton在2003年对美国侵略伊拉克不满，搬迁至加拿大

人工智能哲学笔记

【2019-10-24】人工智能哲学笔记

背景

来源：复旦大学公开课：人工智能哲学_全 7 集_网易公开课

讲师：徐英瑾教授
课程介绍：本课程从人工智能科学发展的科学史概要出发，讨论了哲学思辨和人工智能研究之间的密切关系，并从人工智能的角度，重新审视了近代欧洲哲学对于 “机器是否能够思维” 这个问题的思辨结论。尔后，讨论了如何从当代计算机科学的角度来解读康德哲学，并从中得到一个关于类比推理的计算模型。本课程也讨论了当代美国哲学家塞尔对于 “计算模型如何获得关于符号的语义知识” 的忧虑，并进一步探讨了这一忧虑在计算机科学内部的表达形式：框架问题。

为何人工智能科学需要哲学的参与

哲学研究的特点：

思考大问题，澄清基本概念。
在不同学科的研究成果之间寻找汇通点，而不受某一具体学科视野之局限。
重视论证和辩护，相对轻视证据的约束。

就对哲学文化的宽容度而言，AI 就是自然科学界的一个艺术。AI 是头脑风暴的产物。

先导者：阿兰·图灵
- 1950 年 Mind 杂志发表的《计算机器和智能》提出了著名的 “图灵测验”。
- 行为主义的哲学思想，对外在心灵的判断仅仅是通过外部表现行为来判断，而不是内在活动。
美国达特茅斯学院关于计算机实现人类智能的会议
- 1956 年，会议筹备期间，麦卡锡发明了 Artificial Intelligence 这个词，人工智能学科诞生。还有明斯基、纽厄尔、西蒙等大牛。
- 会议讨论的子课题：自然语言处理、人工神经元网络、计算理论以及机器的创造性等。

为什么 AI 有哲学维度？

AI 必须对 “何为智能” 这个问题做出解答。然而，不同的解答往往会导致不同的技术路径。
- 未雨绸缪，知道的足够多，有很多解决方案：专家系统
- 人工大脑，对于人工大脑的模拟中，出现了人工神经元这门技术，就是对于人类的神经元网络进行数字模拟，然后在此基础上，希望被模拟出来的系统能够具有人类神经元系统的特点。
- 行为主义，智能是黑箱，只要找到输入和输出的映射关系就是智能。
AI 科学研究与一般科学研究相比，缺乏删除不同理论假设的决定性的判定例。AI 科学家一般不做实验，而只做试验，就这一点而言，这么学科似乎更像是工科，而不是理科。
关于智能、人类的思维是什么哲学思考的最多。另外，AI 所关注的思维结构某种意义上必须具有抽象性，因为它横跨人和机器，哲学家所提供的那种抽象思维方式也许更有用。
不成熟学科，哲学容易参与。

历史层面证明哲学强的国家对 AI 也有反哺作用

美欧对比
- 美国进行 AI 研究的优点：资金充裕，科研机制有活力，哲学和科学互动频繁。
- 欧洲：财力、体制（如德国的哲学研究偏向人文经典的解读，使得哲学研究难以对当下的热点问题作出及时回应；文理分科问题比较严重；跨学科研究支持力度相对小）等。
日本
- 日本 AI 研究的特点：日本的经济结构不是一个纯粹的西式的自由主义的体系。重大科研项目由政府牵头，集中力量攻关。和我们的思维很像。
- 日本研究第五代计算机（自然语言处理，听懂 90%+ 的日语）失败的主要原因：看到了 AI 建构的工程学面相，却没有看到其背后的哲学难题（如什么是智能）。
前苏联
- 苏联 AI 研究落后的原因：第一，苏联官方缺乏 AI 研究方面的远见；第二，苏联官方意识形态对于马克思主义的曲解（“人工智能是独立人脑，能够独立产生智慧和生产力” 违背了 “机器只能转移价值不能生产价值” 的观点）。我们的今天的科研体制很大程度上仍然受苏联的影响。
- 对维纳控制论的反对和赞成也都是站在政治图解的思维里。
- 归根结底，是对马克思主义做了教条主义的理解，哲学仅仅是意识形态的工具，而不会对实际的工程学研究产生任何积极的思想。
中国 AI 研究存在的问题：
- 长期跟风研究，缺乏真正系统的原创性思维。
- 注重模仿，轻视原理；缺乏哲学兴趣。
- 跨学科研究缺乏体制保障。

AI 是科学和工程学的一种奇妙结合，它并不以描述自然为终极目的，而以制造出合乎人类需要的智能机器为工作目标。所以对于如何实现这种目标，如何理解这种目标，AI 本身就具有一个比较大的宽容度，而这种宽容度是使得它能够和哲学相互交流的一个契机。

近代欧洲哲学与人工智能

希腊文明对 AI 的滋养

德谟克利特
- 受 “机械唯物主义” 影响。
- “灵魂原子” 只是比别的原子更为精微和灵活而已，并非在本体论上自成一类的对象。
毕达哥拉斯
- 明确把 “数” 视为世界的本原，这就为后世科学对数学语言（以及一般意义上的形式语言）的推崇下了大调子。
苏格拉底和柏拉图
- 对自然语义的歧义进行澄清，然后通过找定义的方式对我们所说的很多概念加以清楚厘定。
- 自然语言直觉中以为掌握的概念经过哲学反思后发现都不正确，所以要找到精确的泛型，什么东西都要形式化（对问题形式定义）。比如应用题，从 “自然语言” 的描述中得出一个形式的数学的模型。
为什么机器智能的想法没有在古希腊出现
- 在古希腊人那里，机械唯物主义和形式主义传统基本上还是两个路子，而没有机会在同一个思想体系中得到整合。
- 心智理论的构建还不是古希腊哲学家的核心关涉，而只是其形而上学理论的一个运用领域。
- 奴隶制的社会条件下，人工机械的发展水平有限。

近代哲学

条件发生了变化
- 知识、人性、理解问题，促进对人类的心智进行思考。
- 伽利略导致的物理学革命，形式和物理结合。
- 各种机械日益精进，对机械系统潜力的乐观估计
笛卡尔和莱布尼茨
- 表象（唯理派，传统像符号 AI 重视数理和一般意义上的科学研究）看他们是支持人工智能，其实不是。
  - 理性派认为直觉、经验只不过是改头换面的推理，归根结底一切都是推理。
  - 唯理派认为任何心智活动的实质是符号表征层面上的推理活动；符号 AI 认为任何符号表征层面上的推理活动就是心智活动。
  - 计算机先驱不一定支持人工智能，计算机技术和人工智能是两个不同的东西。
- 笛卡尔是二元论者，即认为人是占据广延的物质实体和不占据广延的灵魂实体的复合体。智能和灵魂有关，灵魂不能还原为物质，智能是灵魂的一部分，智能不能还原成物质，所以物质的配置形式不可能构造出灵魂的配置形式。
- 笛卡尔《方法谈》对人工智能正面的讨论（机器智能不可能）：它们不会使用语言和记号，或者不会像我们那样组织。它们在特定领域工作，不会学习。
  - 从 “机器能够表达词语” 出发，我们推不出 “机器能够根据环境的变化而调整语义输出策略”。（反驳：现在的 AI 已经很聪明了）
  - 如果我们真的要做出一台 “智能” 机器的话，我们就需要把所有的问题解决策略预存在其内置方法库中，但在实践上这是不可能的。
- 莱布尼茨《单子论》
- 磨坊论证：知觉以及依赖知觉的东西不能用机械的理由来解释，不能用形状和运动来解释，不能用广延的东西来解释。
- 一个智能体放大，发现零件推动，找不到知觉。机器不能有知觉，所以没有机器智能。（反驳：看不到不等于就没有，比如放大大脑，大脑在知觉时，我们是看不到知觉的，只能看到神经元和电脉冲。再比如灰尘看电视机的画面也是看不到的。）
- 空间中就不存在单子。
霍布斯《利维坦》
- 所有人类的理智活动归根结底都是一种形式符号的运算。
- 我们都是理性动物，可以做各种计算。
- 与物理系统假设想和：对于展现一个一般的智能行动来说，一个物理符号系统具有必要的和充分的手段。物理系统不聪明，只是没有找到好的编程方法。
休谟
- 理性没有什么原则，仅仅是一种习惯。
- 习惯的根基在于感官经验，而不是在于一些理性的讨论。
- 核心术语
  - 印象：接近于感官
  - 观念：接近于符号
  - 感觉：中间的东西
- 习惯实际上是一种统计学机制
- 联结主义：输入层是印象，中间层是感觉，输出层是观念。每一个神经元都不知道自己在干嘛，是整个 network 在处理，没有很清楚的规则来让它进行推理。
  
  习惯是统计学机制，根据维特根斯坦的结论，是否应该将 “习惯” 作为逻辑命题（从习惯、数据中提取规则），而将例外情况作为经验命题？

康德、类比推理和 “照猫画虎”

康德

认为唯理派和经验派对人类认知的看法都有所偏颇，经验派比较重视怎么样从感觉的经验材料出发一步步把符号表征加工出来；唯理派认为感知经验不重要，我们在先天观念的帮助下构成知识。康的认为：概念的能力+直观的能力 = 知识
侯世达（美国计算机科学家 Douglas Richard Hofstadter）和他的学生查尔莫斯（澳大利亚哲学家 David John Chalmeres）的 “照猫画虎”
- 1992 High-level perception representation and analogy: A critique of artificial intelligence
- 这篇文章是受到康德的影响写出来的：很早人们就知道直觉活动是在不同层面上进行的。康德将心智的直觉活动划分为两个板块：其一是感性能力，其任务是拣选出那些感官信息的原始输入，其二是知性能力，其任务是致力于把这些输入材料整理成一个融贯的、富有意义的世界经验。
康德：自下而上的感性能力和自上而下的知性能力的综合。
Why 康德：
- if 休谟：人类知识从感官来，那很难说感官经验里得到的信息最后是怎么具有知识的普遍性必然性的。永远面临对知识的普遍性和合法性进行辩护的难题。
- if 莱布尼茨、沃尔夫：认为知识只和先天观念和先天范畴相关，和经验不相关，就会面临：怎么说明知识和经验世界之间的关系，怎么保证知识不是从书斋里幻想出来的。
- “自下而上” 与 “自上而下” 两条道路在康德那里整合的根本原因：他既要保证知识在经验中有它的用途，又要保证知识有它的普遍必然性，他就觉得要把两者的优点结合在一起。

类比推理

人工智能专家不考虑上面哲学家说的问题，他们作为工程师的思维：

尝试不同方法，能搞定的就是好方法。
要拿一件足够有说服力的事情，就是做类比思维的计算机模拟，看哪种方法好。
类比思维在人类日常思维中非常有用的一种思维。即以旧推新。类比思维有时候有效，有时候无效；因为人类碰到的很多新情况和旧情况相比完全不同。

哲学家用语言描述有歧义，计算机模拟要写成程序，是确定的。人工智能使得哲学家变得诚实。——丹尼尔·丹尼特

例子：孔明之于（），可类比与管仲之于（）。A.张飞；B.刘备；C.董卓；D.貂蝉；E.齐桓公。

if 休谟：看习惯，即已有数据中的共现关系（统计学方法）。
统计学的策略有两个根本缺陷：
- 很多对问题求解有用的新类比关系，往往是缺乏统计数据支持的。没有主动修正过去实际的能力。比如搜狗的热词。
- 对于系统输入历史的这种高度依赖性，将大大削弱系统对于输入信息的主动鉴别能力。
if 霍布斯主义者：预先要求我们把所有概念说成很清楚的含义（各种属性和关系），系统就找里面的类比物。孔明-刘备与管仲-齐桓公之间有共同模板。
如何在关系中找到共同模板？
- 计算量太大（如果每个概念的属性很多时）
- 从康德那里得到启发，建立从高到低和从低到高两种检索，有了 “照猫画虎”

照猫画虎

在大量数据（如字符串 abc iijjkk）中找到类比关系

abc：两个后继性标签
iijjkk：三个同一性标签，两个后继性标签
abc 与 iijjkk 都有两个后继性标签，abc 可以类比于 iijjkk

为了做成这个事情，系统需要的配置：

人工的感性能力：对短码的解读能力。在例子中就是表征 abc iijjkk。
人工想象力：在康德的心智理论中，“想象力” 是介于 “感性” 和 “知性” 之间的一种能力，其任务是对感官输入进行初步处理，以便为知性的高级操作做准备。在例子中就是给 iijjkk 贴标签这个事情，知性就是对这些标签进行一个评估。

例子：看立方体，一次只能看到三个面，但我们知道有六个面，是个立方体。把握立方体的过程就是感性和知性相互协调工作的一个过程，感觉的最基本的能力会在我们看到三个面时抓到一些碎片的特征（如顶点的形状），然后慢慢整合出全面的情况，知性告诉我们这是一个立方体。但是我们不知道哪里是分界。

人工范畴表：康德心目中的知性范畴表，大致对应于 “照猫画虎” 程序中的 “滑移网（slipnet）”。基本的思维框架，比如刚刚的：同一性、后继性。再比如：因果性。
感性（康德：时间和空间的把控能力，前后就是一种时间关系）会唤醒想象力，想象力会产生很多图形，它告诉你整个认知构架因果范畴的一个感性图形就是时间上的前后相续。在想象力这个中介的帮助下，信息传到了 ”范畴“ 这个更上面的网络了，时间先后关系被唤醒了，所以因果关系也就出来了，它出来后会把更多的注意力注意到前后相续这件事情上，按照因果范畴这样的眼光来看待前后两件事情，其他范畴暂不工作。

例子：斥候相当于感性，司令部相当于知性范畴（佯攻、主攻、投降等等），参谋整合和情报分析相当于想象力。

信息的传播是双向的：从底层往上、从上层往下。上面听到下面有个整合的过程，整合完才传到下面。休谟的哲学就是只听下面的，莱布尼茨的哲学就是下面的是机器人。康德的哲学就是上下有灵活的互动。

康德：概念无直观则空，直观无概念则盲。 VS 照猫画虎：滑移网无短码算子则空，短码算子无滑移网则盲。

局限性：

只是在高度模拟（对基本的字母代码进行类比运算），应该在各个感官上全面复制康德对于时间、空间或知性范畴的所有想法。

总结：康德的哲学描述平移到可以操作的、可以编程的工程学层面指导具体工作。不是哲学的问题，而是搞哲学的人的问题，不具备跨学科的能力。

这块内容和深度神经网络非常类似，从底层传递到高层，再从高层反馈至底层。有一点需要特别注意，在高层，注意力应该根据任务不同而放到不同的抽象关系上，而不是所有的。是不是可以把无监督的抽象信息（或者其他方式获取的抽象的关系，比如词性）替换为现有的 Attention（现有的 Attention 其实并不是注意力，而更像是 Memory）呢？

汉字屋论证

汉字屋是用来反对人工智能的可能性的一个非常重要的哲学论证。《心灵大脑与程序》中提出，该论证的重要的一个概念前提就是对强 AI 和弱 AI 的区分。

塞尔

塞尔对于强 AI 和弱 AI 的区分：

“强人工智能” 这种观点认为 “计算机不仅仅是人们用来研究心灵的一种工具，而且，被恰当编程的计算机本身就是一个心灵。”
直观非常不靠谱，经常引导我们走入思想的泥潭。
“弱人工智能” 认为计算机至多只能够成为人们研究心灵的一种工具，或是对心智活动的一种抽象模拟。

塞尔论证的框架：

大前提：每一种真正的心灵或智能都必须有能力在符号与对象之间建立起一种语义关系。
小前提：这种语义关系无法仅仅通过任何一台被恰当编程的计算机所获取。
结论：计算机本身不可能具有真正的心灵，因此强 AI 无法实现。

塞尔的汉字屋实验是用来证明小前提的。实际上是一种 ”思想实验“。

思想实验：指的是使用想象力去进行的实验，所做的都是在现实中无法做到或现实未做到的实验。

汉字屋实验

中文房间 - Wikiwand

条件：

初始条件：说英语的被试被关在密闭房间通过传递字条和屋外的懂汉语的人交流；屋外的人判断屋里的人是否真懂汉语，屋里的人要想方设法欺骗屋外的人自己懂汉语。
其他条件：字条本身只能够用汉语写成。
被试的资源条件：不能有英汉或汉英字典；很多写着汉字的卡片，规则书（在面对由哪些汉字所构成的问题时，应当如何从盒子中取出相应的汉字而构成合适的应答）。
行动速度非常快

结论：屋外的人无法判断屋里的人是否真的懂汉语。但是就算计算机真的达到这种程度了，它也不可能真正具有智能，因为它并没有真正的理解语言。塞尔认为它只是机械地搬运各种符号，而不理解符号的真正含义。

汉字屋实验是图灵测验（计算机和人类交谈时，人类是否能够发现对方是计算机）的衍生版本，反过来用：即使通过了图灵测验，仍然没有智能。

反驳

他心应答：子非鱼安知鱼之乐。汉字屋的论证让我们可以怀疑任何一个人是否懂任何一种语言，这和初衷（人和机器不一样，人比机器高明，按照这个标准，人都是不懂任何语言的）不一样。因为没有人认为人本身都是不懂任何语言的，所以我们用来捍卫人的标准也可以用来捍卫机器，一视同仁。
系统论证（以偏概全）：承认一句话是对的：”被试不懂语言“。但是计算机不仅仅是被试，还包括规则书，规则书+被试=系统，系统懂汉语。
计算机没有办法在语言符号和所代表的外界事物之间所建立的联系，但是我们可以把这种联系加上去。但是塞尔反驳，即使建立联系，那种信息仍然是数码化的。他认为这种转换是有问题的，整个计算系统和原始世界的原始关系已经被破坏了。再反驳：人类也是进行一些转换。
从根本上反驳（课程老师的反驳）：
- 塞尔的三个预设：
  - 汉字屋系统和计算机系统之间是同构的。
  - 即使整个汉字屋系统能够通过汉语测试，汉字屋中的被试也不懂汉语。
  - 行为主义是错的，也就是说，从系统的外部行为特征中，我们无法确保其内部状态是否具有智能。
- 这三点放在一起有逻辑矛盾。反证法（12 步）：
  - 第一步：汉字屋系统和计算机系统存在着实质性的可类比关系。（塞尔说的，假设是对的）
  - 第二步：汉字屋论证的有效性，必须以（1）为必要前提（这一点是自明的）。
  - 第三步：汉字屋论证的一个核心目标，就是指出：一个系统在外部行为上具有语言智能，并不能够代表其真的有智能。（塞尔预设的一部分）
  - 第四步：由于（1），汉字屋中的规则书对应于计算机系统中的程序，或者是万能图灵机的机表（根据塞尔自己的叙述）。
  - 第五步：在假设系统的硬件条件不变的情况下，一个 AI 系统的智能程度的高下，关键在于如何编制程序。不执行任何程序的纯硬件没有任何智能。（计算机聪明不聪明看程序）
  - 第六步：由于（4）和（5）整个汉字屋系统通过汉语测试的能力的高下，取决于规则书的编制水平，而被试本身是谈不上智能的，它必须要执行某种程序，才能体现出这种程序的智能。
  - 第七步：即使整个汉字屋系统能够通过汉语测试，汉字屋中的被试也不懂汉语。（塞尔的话）
  - 第八步：塞尔如何确定第七步是真的呢？在逻辑上只有两种可能性（反省和行为）：
    - 8A：我们可以确定被试具有某种内部反思能力，以确定自己依然不懂汉语
    - 8B：我们可以从被试的外部行为中确定他不懂汉语。
  - 第九步：（8A）若是真的，则和（6）矛盾，因为被试的内部反思能力的存在就等于说他可以执行一个独立于汉语规则书的程序。为了维护汉字屋系统和计算机系统之间的可类比性，我们就必须得删除（8A）。
  - 第十步：（8B）若是真的，则和（3）矛盾，因为根据（3），从汉字屋系统的外部行为中我们无法判断出被试是否真懂汉语。为了不和汉字屋论证的最终目标相抵触，我们就必须得删除（8B）。
  - 第十一步：塞尔没有理由说清，为何即使整个汉字屋系统能够通过汉语测试，汉字屋中的被试也不懂汉语。这自然会造成整个汉字屋论证的崩溃。
  - 第十二步：之所以可以得出（11），乃是因为我们发现（8A）归根结底会和（1）不相容，而（8B）归根结底会和（3）不相容。也就是说，为了维护 “汉字屋中的被试也不懂汉语” 这个步骤的有效性，我们要么就去否定汉字屋系统和计算机系统之间的类比的有效性，要么就去放弃整个论证的反行为主义目标。但无论如何选择，我们都将再次导致整个汉字屋论证的崩溃。

小结：

塞尔的哲学风格比较清明，避免使用过于难的哲学词汇，过于技术性的表达。所以他觉得计算机太难，汉字屋比较直观，所以他用类比来做，但这个类比有些地方不太成功，他过多把直觉牵扯进来，没有看清楚这种类比可能有缺陷。和莱布尼茨的磨坊论证有点类似，都是诉诸于某一种直观，但直观在很大程度上没有普遍的合法性。再次说明，直观要慎用。
也让我们怀疑现象学的研究方法，因为对现象学直观的界定都非常主观。

前面三个是预设塞尔所说的计算机系统和汉字屋系统的同构性是没问题的。在此基础上进行反驳。老师的认为同构性就可能有问题。

衍生性问题讨论

塞尔脑子里：语义关系和意向性关系是有关的。
- 塞尔的哲学观点：人类所有的言语行为归根结底是一种心智活动。
- 塞尔对意向性实质的看法：实际是指心灵的内部状态朝向外的一种能力。也就是说，它能够被用来指涉它以外的事物。
- 塞尔对语义关系的看法：语义关系也应该是朝向心灵以外的某种东西。
对上述观点有两个问题：
- 意义真的奠基在意向性当中吗？
- 意向性真的如塞尔所说，指的是一种心灵的内部状态和外部事物的一种奠基能力吗？
对上述问题的争论：
- 角度一：恒温计在一定程度上也可以看作是按照语义（程序的语句）的规则来行事，但恒温计没有意向性；而且又与客观世界有关（客观世界温度变化，它也变化）。所以，恒温计与语义有关，与外部世界有关，但好像与意向性无关。所以，塞尔所说的语义关系一定要奠基在意向性里面，并且通过意向性才能获得它和外部世界的关联。这个观点似乎有些问题。
- 角度二：意向性本身的一个界说。如果说意向的对象是你与外部的一个关系，那完全可以意向指向一个不存在的东西。所以，意向性是可以存在，但它所指涉的核心对象是不存在的，也就不能说意向性就指和外部世界的一种关系，除非这个外部世界包括柏拉图所说的理念世界（理念中的东西），如此一来，整个理论应该以柏拉图的理论作为预设。

其他讨论

什么是意向性对象
- 意向性的根源是在一定的语言游戏，在一定的社会共同体里面。比如画出来的麒麟、方的圆之类。

总结：塞尔的实验和对塞尔的反驳让我们真正感受到了哲学的魅力。

在哲学上，如果真的有这样的中文屋，我们可以判断它是智能的。其实这也取决于我们对于智能是怎么看待的，因为人类语言的灵活多变和复杂性，规则书要做的事其实和人要做的事一模一样。

更进一步，就按塞尔规则书的模式进行这样的转换（不知道具体意思，只是知道一些关系），但因为词的组合造成句子根本无法穷尽，所以其实规则书能做到这一步（就是知道进来问题的分词及其语义关系），它已经能够理解意思了，而不仅仅只是抽纸条。所以塞尔所要求的本身就是不可能的。

维特根斯坦、“颜色不相容”、框架问题和拆弹机器人

早期《逻辑哲学论》

《逻辑哲学论》三件事情：
- 世界本身的形而上学的构建应当是怎样的
- 对于这个形而上学的世界怎样在话语中和言语中加以符号表征
- 哪些事情是不能够用言语表征的
《逻辑哲学论》与人工智能科学的 “知识表征” 任务的三个环节：
- 对于被表征对象的形而上学理论
- 对于知识表征的技术手段，特别是逻辑技术手段的选择问题
- 在选定一个特定的表征手段的前提下，对于知识表征范围的可能性边界的划定问题
《逻辑哲学论》与海耶斯的 “朴素物理学宣言”：
- 一个基本想法是用弗雷格和罗素所发明的谓词演算的技术手段把人类的日常物理学知识整编成公理集，物理世界中的所有行动和活动都是公理集的推论。

晚期《哲学研究》

本书关心的大问题：agent（智能体）应该在怎样的规范性条件的约束下，在历史的动态环境中，利用相关的表征工具，特别是日常语言完成某些特定任务。
为何后期维氏超越了早期维氏？
- 从 AI 的角度看，《哲学研究》超越《逻辑哲学论》的最大地方，就在于它不再把静态的知识体系规整视为哲学理论的聚焦点，而是把焦点转移到了智能体的行动，转移到了对于信息的实时处理。
- “实时” 意味着任务有时间限制。所以著述形式的散漫，因为问题太复杂，要考虑不同的智能体在不同的语境中面对不同的实时问题求解语境所给出的不同的问题求解策略，以至于他不可能以某种规整的、统一的、一劳永逸的方式（早期）对这些问题进行解决。
- 其实现在的人工智能教材在处理各种技术问题时也基本是一种散漫的形式，最典型的例子就是每个章节讨论一个技术问题，如：经典逻辑、贝叶斯、神经网络、遗传算法等等，章节之间基本没有技术联系。不过底层还是数学、统计学。
工程学相关语录
- 想一想工具箱里的工具，那里有锤子、钳子、锯子、螺丝刀、尺子、胶锅、胶水、钉子和螺丝钉。正如这些工具的功能各不相同一样，词的功能也是各不相同的。（不过，两者都有一些相似之处。）
- 好比机器有两个界面，一个界面是用户友好的界面，另一个界面是机器内部操作的界面。第一个界面可能分不清不同语词之间的用法，但也许在第二个更深层次的界面上，也许它们之间有不同的输入输出对应关系。
- 相似理论还可见西蒙的《人工科学》

维特根斯坦和框架问题

心灵模块论

福多（美国的哲学家和认知心理学家），认为人类的心智构架可以分为两大部分：

中央推理系统
- 类似于司令部
- 统一任务是在全局性的实践推理中，把所有的信息整合在一起，能够看看有什么一般性的东西。
- 中央推理系统没法程序化（计算机模拟），因为两个特点：
  - 各向同性：在全局性的智能推理中，各个领域的信息都必须被智能体放在一个平面上予以考量。
  - 蒯因式的特点：
    - 蒯因的一个观点：如果有一个观察命题要对某个假设命题进行支持的话，要考虑到整个假说体系的一个支持力度。一个证据和假设之间不是孤立地建立一个正式的关系，还要看背景知识，看整个信念体系的支持力度。（有点贝叶斯的感觉）
    - 引入该观点：如果有一个信念，该信念要对其他一个信念的真值提出修正，会牵扯到对于和被修正的那个信念相关的一大堆其他信念的真值修正，导致一种牵一发而动全身的局面，而这种局面在计算上是不可控的，计算机无法模拟这种全局性问题。
边缘性模块
- 类似于司令部下辖不同组织机关
- 模块的信息处理：速度快、封装性
- 边缘性模块可以利用计算机理论计算（可以写成程序）

由此得出福多的结论：针对心智架构的计算机模型，只能够适用于该架构中的模块部分，却不能够施加于中央语义系统。

拆弹机器人

任务：假设有一个能量快耗完的机器人，备用电池放在一辆拖车上，拖车锁在某个房间里，拖车上还有一个定时炸弹。计算机事先已经知道所有的事件。怎么办？进房间拖出拖车，但同时也会将炸弹拖出来。
- 所以需要对程序进行修正：程序需要预先知道哪些事件会引起哪些事件，或者说哪些事件类型彼此之间是相关的。但这其实很难，因为：在经典逻辑的技术支持下，在一个庞大的信念库中对于某些信念之间 “相关性” 的语义标注，将不会自动导致对于诸信念之间 “非相关性” 的语义标注。
- 这和人类不一样，当你告诉计算机哪些相关的时候，它不会自动排除掉那些不相关的。比如，程序让机器人知道拉出拖车和拉出炸弹是相关的，但是还得告诉机器人其他信息（机器不知道），如拉出拖车和改变拖车的形状是不相关的、拉出拖车不会改变拖车下面轮子的数量、拉出拖车不会改变那个房间的颜色……因为人类具有朴素的物理先验知识，但机器人没有。所以，结果就是机器人不能在短时间内搞定这个任务，虽然看起来很容易。上面的故事来自丹尼尔·丹尼特，他讨论拆弹机器人例子的经典论文：《认知之轮：人工智能的框架问题》。
印证了福多对于中央语义推理系统可计算性的悲观态度（他认为框架问题在很大程度上就体现了这个问题），我们没有办法对全局性的语义相关性和非相关性进行一种快速的直觉的把握。
回到维特根斯坦：如果维特根斯坦看到框架问题，他会说：“我在批评逻辑哲学论的时候已经说过，你们要用经典逻辑来刻画信念系统当中的诸信念之间相关性和不相关性就会导致问题。”这个问题在很大程度上和 “颜色不相容” 问题相关。

颜色不相容

背景：维特根斯坦对于 “命题” 的分类
- 经验命题：可真可假，如 “中石油宣布明天降价”，需要验证。
- 逻辑命题：永真的，如 “明天要么下雨，要么不下雨”，总是对的。
颜色不相容
- 这是红的。——经验命题
- 这是红的，所以它不是绿的。——逻辑命题
  - 应该符合逻辑运算的规则
  - 但维特根斯坦发现并不是。比如命题逻辑中的合取规则：“这是红的，所以它不是绿的 & 这是绿的，所以它不是红的”，应该是真的，（真&真），但实际却是假的。
- 这就意味着 “命题” 二分法的有效性遭到怀疑。这个问题为什么和框架问题有些像：
  - 因为对于框架问题来说，拖出被拖出这个命题对于拖车的颜色没有被改变这个命题应该有一种蕴含关系，但因为从逻辑里面没有办法表征出这种蕴含关系，所以只能写很多否定性命题，A 发生不会引起 B 发生。颜色不相容问题也类似，得事先告诉系统红色和绿色彼此不同，否则系统不会自动进行颜色不相容推演。
  - 于是，日常生活中最简单的语义推理逻辑就变成逻辑搞不定的东西，也就是说，我们的先验知识让我们 “自动” 地知道了某些事情之间的关系，但这种关系却不被机器知晓。
解决方案
- 方案一：康德式
  - 颜色不相容问题是特殊命题，既不是先天分析判断，也不是后天综合判断，而是先天综合判断。
  - 这种独立的划分实际并未解决问题。
- 方案二：蒯因式
  - 所有判断都看成经验的。
  - 对解决问题也没帮助，因为即使是纯粹的分析判断，也要想办法付出很多的表征资源进行表征，这实际是扩大了困难。
- 方案三：维特有关的
  - 放弃真值函项理论或经典逻辑的主导地位，用更宽松的理论标准界定逻辑命题和经验命题的界限。
  - 维特根斯坦的建议可以归纳为两点：
    - 经典逻辑考虑的基本单位是句子，没有能力考虑概念。
      - 弗雷格的逻辑在形式化方面取得了大规模进步，但他的逻辑是为数学语言准备的，在应付日常语言时捉襟见肘。
      - 回到亚里士多德的道路，从语词的角度而非句子，制造很多概念层级。但很难形式化。
    - 《论确定性》中谈到的信念网的分布问题。
      - 把人类的信念系统看成非公理化却具有动力学特征的一种网络连接，网络连接中有不同的概念的节点。人在想起一件事时，当中的关键词就可以作为一个概念的节点。比如：“饿”，旁边有：面包等。一个网被激活后，其他邻近的网也可能会被激活。而且激活的次序看两点：第一，它和这个被激活的最早的那个节点之间的毗邻关系；第二，两者之间的信息通道的通畅程度。
      - 河渠的比喻：因为 “历史原因” 而形成的高权重信息通道就会构成网内信息流动的 “自然河渠”，并因为这种 “自然性” 而成为系统的 “缄默预设”，而不再成为系统自主知识表征的目标。（正如人类自然而然的常识）只有新问题（没有旧有的道路可以依赖）需要中央语义系统开拓新的道路。例子：兔鸭头图（既可以看成兔子也可以看成鸭子），假如看到的就是兔子或鸭子，就不会有在兔子和鸭子之间进行来回比较的心智过程。而现在两个概念节点被激活，它们都在争取对你感官印象的解释权，你的推理通道不知道该往哪边走，这时候的心智损耗就会很大。这种判断是经验判断。如果是非常容易的（兔子或鸭子），就可以快速推理，逻辑判断。
      - 按照上面的标准，维特根斯坦对分析判断和经验判断的标准变成一个心理学和语境论的标准：在当下语境下心理消耗的资源，而康德和休谟时代很大程度上是看一个知识论的标准。按照这个思路，框架问题也可以解决：为什么由某个行动不会引起的效果不需要在一个知识推理过程中得到系统的表征呢？因为这个系统的信息流向已经由这个信念系统自然的河渠流向来规定，对河渠外的事情不需要考虑。
  - 补充：
    - 传统的知识论的思路是指这个命题本身的性质是和它经验外部的那个关系，如果是先天命题就不需要通过经验来证实。是否需要经验验证 VS 是否需要付出心智的努力来思考。
    - 举例：很复杂的重言式，它的真不受任何经验的牵导或者牵制，和花多少时间计算无关，但计算的过程是真实的损耗。维特根斯坦考虑问题是在人的立场上，付出多少损耗的立场上。所以这种我们认为是分析判断的命题在维特根斯坦看来是经验判断，他认为证明很复杂的重言式在日常生活中是没用的，可能只有在应付逻辑考试时才用，而且做这件事需要大量的心智损耗。相反一些很简单的命题，因为它们和我们的日常生活非常相关（如 “我有两只手”）所以像分析判断，尽管按照传统知识论是经验判断。
    - 维特把传统看做知识、经验的东西看做逻辑，去分析；就是那些很简单的逻辑推理，但它们非常重要。传统的逻辑判断以逻辑体系为基础的。这是根本不同。

结论

维特根斯坦的思想宝库里有大量的金矿等着 AI 专家挖掘。
哲学家必须更多关心工程学实践，工程师也必须更多地熟悉哲学，能够在两者之间搭建互相熟悉的桥梁。

其它

【2021-3-19】AI笑话大全

挪木块: 一个机械手被要求把木块挪到桌子的指定地点，它的解法是：挪桌子
赛跑: 长出特别长的腿，向前跌倒直接越过终点线。
俄罗斯方块: 程序发现，只要暂停游戏就可以永远不输。
【2020-7-12】天道：透视社会有三个层面：技术、制度和文化，小到一个人，大到一个国家、民族，任何一种命运，都是一种文化属性的产物，强势文化造就强者，弱势文化造就弱者。这是规律，也可以理解为天道，不以人的意志为转移。强势文化在武学里称之为秘笈，弱势文化因为易学、易懂和易用，就成了流行品种。文学影视是扒拉灵魂的艺术，如果文学影视能够破解更高思维空间的文化密码，那它的功效就在于启迪人的觉悟，震撼人的灵魂，这就是众生所需。就是功德、名利和市场。精神拯救的暴利，和毒品麻醉的暴利，完全等值
【2021-11-30】人工智能训练师」国家职业技能标准：五大级别，你是第几级？
- 「人工智能训练师」职业技能标准也分为五个等级：从数据采集和处理、数据标注、智能系统运维、业务分析、智能训练、智能系统设计等维度，划分出 L5-L1 五个等级，并对各个等级的职业能力给出了具体的描述和要求。
- 该职业包含数据标注员、人工智能算法测试员两个工种。2020 年 2 月，「人工智能训练师」2021年版正式成为新职业并纳入国家职业分类目录。
- 理论权重
- 技能权重
【2021-10-21】中科院自动化所登Science子刊：自组织反向传播提升网络学习效率, 在图像识别任务中，引入 SBP 能让识别准确度稍稍提高，计算成本还能降低 57%。BP反向传播，这种端到端的学习方法性能卓越，但学习过程能量消耗大，且缺乏灵活性。中科院脑智卓越中心徐波、蒲慕明联合研究团队近期借助生物网络中发现的介观尺度自组织反向传播机制（Self-backpropagation，SBP），在更具效率和灵活性的类脑局部学习方法方面取得了重要进展。
- 论文《Self-backpropagation of synaptic modifications elevates the efficiency of spiking and artificial neural networks》已于 2021 年 10 月 20 日（美东时间）在线发表于《科学》子刊《Science Advances》
- 1997年，蒲慕明团队在 Nature 杂志上撰文发现海马体内的神经元可以将长时程抑制（Long-term depression，LTD）可塑性自组织地传播到三个方向，分别是突触前侧向传播（Presynaptic lateral spread）、突触后侧向传播（Postsynaptic lateral spread）、反向传播（Backpropagation，这个发现就是自组织反向传播神经可塑性机制（SBP）。SBP现象具有普遍性，不仅覆盖更多的神经区域如视网膜 - 顶盖系统，还覆盖更多的可塑性类型，如长时程增强（Long-term potentiation，LTP）。该机制的发生归结于生物神经元内分子调制信号的天然逆向传递，被认为是可能导致生物神经网络高效反馈学习的关键
- 研究人员认为，SBP 是一类介观尺度的特殊生物可塑性机制，该机制同时在 SNN 和 ANN 中获得了广泛的组合优化优势，对进一步深入探索类脑局部计算具有很大的启示性。生物智能计算的本质，很可能就是灵活融合多类微观、介观等可塑性机制的自组织局部学习，结合遗传演化赋予的远程投射网络结构，实现高效的全局优化学习效果。该工作可以进一步引导生物和人工网络的深度融合，最终实现能效比高、可解释性强、灵活度高的新一代人工智能模型。
【2021-4-19】工程院院士李德毅：认知的三次革命，类脑的五条启发, 视频
【2017-1-2】《对话》 20170101 [人工智能：挑战2017] (http://tv.cctv.com/2017/01/02/VIDEVhAzxZgC8tsHgPfF9Ukz170102.shtml), B站地址

朱松纯：三十功名逐一统，八万里路怀家国

【2024-2-5】朱松纯：三十功名逐一统，八万里路怀家国

回国三年多来，朱松纯牵头创建的北京通用人工智能研究院，已经在通用人工智能前沿领域实现了一系列的技术突破和原创性科研成果：

通用智能体——小女孩“通通” 惊艳亮相并于今年1月28日展出，“通通”以原创的认知架构理论为顶层设计，由自研国产学习和推理框架为底层支撑。她拥有类人价值观，能自主生成任务，具备物理和社会常识，可保障复杂任务高效执行，推理和决策过程透明、可解释；
联袂北京大学，发布了通用人工智能评级标准与测试平台（TongTest)，定义了通用人工智能三个基本特征，即实现无限任务、自主生成任务、价值驱动且能实现价值对齐。
- 同时，TongTest从“视觉、语言、认知、运动、学习”五个能力维度及“初级自身价值、高级自身价值、初级社交价值、高级社交价值、群体价值”价值维度进行评价；
- 朱松纯教授团队提出通用人工智能测试评级的标准
发布通用人工智能科研平台“通境”(TongVerse)，作为“AI+机器人”仿真练武靶场，集成了大规模场景生成能力，支持智能体的视觉-语言-运动联合解译，支持多类型机器人（人形机器人、复合协作机器人）技能训练。

大语言模型无异于缸中之脑,论文

通用人工智能思考 -- Think about AGI

AI之路

AI(人工智能)

什么是 AI

人工智能类型

人工智能分类

狭义人工智能 (ANI)

通用人工智能 (AGI)

超人工智能 (ASI)

AI 核心技术

AGI (通用人工智能)

什么是 AGI

AGI 还有多远

AGI 时间表

Yann Lecun

Geoffrey Hinton

Yoshua Bengio

AGI 实现路径

AGI 潜在方向

贝叶斯归纳 vs 休谟 → 符号系统

休谟的质疑

维特根斯坦

LLM 是 AGI 吗？

是

不是

AGI 等级

苦涩的教训

LLM 有意识吗

AI 大人物

AI发展趋势

1 人工智能创新，遇到天花板？

2 人工智能算法，只有深度神经网络？

3 人工智能的未来：感知 vs 认知？

4 数据：数字时代的石油怎么采？

5 「AI-原生」的IT基础设施，是否会出现？

6 人工智能硬件，就等于GPU？

7 未来人工智能发展的方向，还有哪些？

8 人工智能，未来如何落地？

9 人工智能创业，还是风口吗？

10 人工智能，如何普惠大众？

唐杰：浅谈人工智能的下个十年

1. 报告正文

2. AI 的发展历史

3. AI 近十年的发展

4. 展望未来十年

资料

机器学习与神经认知

大脑工作原理

AI 术语

乌鸦智能

恐怖谷定律

莫拉韦茨悖论

人工智能十大里程碑

艾萨克·阿西莫夫提出“机器人三大定律”（1942）

（1950）艾伦·图灵提出模仿游戏

（1956）达特茅斯举办人工智能大会

（1957）弗兰克·罗森布拉特创造了感知机

（1960）人工智能的第一个冬天

（1987）人工智能迎来第二个冬天

（1997）IBM的深蓝击败卡斯帕罗夫

（2011）神经网络看到猫

（2012）杰弗里·辛顿解放了深层神经网络

（2016）AlphaGo打败人类围棋冠军

浅谈人工智能：现状、任务、架构与统一

朱松纯介绍

成长经历

导读

引言

第一节 现状评估：正视现实

第二节 未来目标： 一只乌鸦给我们的启示

第三节 历史时期：从“春秋五霸”到“战国六雄”

第四节 人工智能研究的认知构架：小数据、大任务范式

第五节 计算机视觉：从“深”到“暗” Dark, Beyond Deep

第六节 认知推理：走进内心世界

第七节 语言通讯：沟通的认知基础

第八节 博弈伦理：获取、共享人类的价值观

第九节 机器人学：构建大任务平台

第十节 机器学习：学习的极限和“停机问题”

第十一节 总结：智能科学 — 牛顿与达尔文理论体系的统一

附录

第一节现状评估：正视现实

第二节未来目标：一只乌鸦给我们的启示

第三节历史时期：从“春秋五霸”到“战国六雄”

第四节人工智能研究的认知构架：小数据、大任务范式

第五节计算机视觉：从“深”到“暗” Dark, Beyond Deep

第六节认知推理：走进内心世界

第七节语言通讯：沟通的认知基础

第八节博弈伦理：获取、共享人类的价值观

第九节机器人学：构建大任务平台

第十节机器学习：学习的极限和“停机问题”

第十一节总结：智能科学 — 牛顿与达尔文理论体系的统一