近日,在英伟达 GTC 2025 的“炉边对话”环节中,图灵奖得主、Meta 首席 AI 科学家、美国纽约大学教授杨立昆指出:“仅仅依靠语言和文字训练出来的 AI 系统,永远无法逼近人类的理解力。”他进一步指出,符号操作与真实理解之间存在一道不可逾越的鸿沟。
(来源:英伟达 GTC)
与此同时,杨立昆认为“通用人工智能(AGI,Artificial General Intelligence)即将到来”完全是无稽之谈。而他更愿意谈此前由他和团队提出的高级机器智能(AMI,Advanced Machine Intelligence)。
这个观点再度挑起了人们对于 AI 本质的深层讨论:究竟机器能否真正理解这个世界?还是它们永远只能停留在符号的表层游戏之中?
“AI 三教父”均认为 AI 不能单单依靠符号操作
在本次“炉边会谈”中,杨立昆还指出真正的智能需要建立在世界模型的基础上。
世界模型,能够从内部针对外部世界运作规律加以模拟,从而帮助它在没有直接接触现实的情况下做出预测和判断。比如,它能想象如果一只猫跳上桌子,可能会打翻桌上的花瓶。也就是说,世界模型不仅是语言上的理解,更重要的是具备一种“想象”与“推演”能力。
这意味着 AI 不再依赖人类标注好的数据,而是能够像婴儿一样通过观察、预测和自我修正,不断构建对世界的认知。在 2024 年底的另一场谈话中,杨立昆曾指出人类婴儿四岁前接触到的感官数据,远远超过今天任何一个语言模型所能训练的数据量,即“四岁孩童花费 16000 小时学会的事,AI 要花几十万年”。如果 AI 系统能接触到类似的感知输入,或许也能逐步构建起对于世界的理解。
新加坡南洋理工大学杜宇轩博士表示,杨立昆的观点并不是孤立的,另外两位和他同样被称为“AI”教父的图灵奖得主持有类似观点。
在“AI 三教父”中,另一位“AI 教父”、图灵奖得主杰弗里·辛顿(Geoffrey Hinton)也表达过对于当前大语言模型局限的担忧。Hinton 认为,大语言模型要想理解世界就离不开多模态输入,即离不开视觉、听觉、语言等多种感官信息的融合。Hinton 曾明确表示仅仅依靠语言训练出来的模型,难以真正理解地空间和物体等概念。为此,Hinton 曾努力推动神经网络从语言模型向多模态模型演进,尝试让 AI 能够同时“看图”和“读文”,以便获得更加接近人类的认知结构。
第三位“AI 教父”、同样是图灵奖得主的约书亚·本吉奥(Yoshua Bengio)则主张推进所谓“系统 2 的深度学习”。“系统 2 的深度学习”是一个心理学术语,指的是具备更慢、更有逻辑的推理能力和抽象能力的认知系统。Bengio 认为,当前的深度学习模型更多体现的是系统 1,即能够快速反应、也能基于模式识别进行直觉判断。Bengio 希望通过构建新的架构和训练机制,让 AI 具备逐步推理、因果分析和规划能力,即让神经网络自己涌现出像人一样思考的过程。在这个问题上,Bengio 反对简单回到传统符号主义的老路,而是希望在连接主义的框架内继续深挖可能性。
从“AI 三教父”的立场可以看出,尽管他们主张的路线略有差异,但是他们的共识在于单靠符号操作是不够的。真正的理解需要感知、经验和推理这三者的参与。
要想理解这一观点,首先需要澄清符号操作的概念。符号操作,指的是 AI 对抽象的语言、文字或逻辑符号进行处理与组合的能力。早期的 AI 系统比如专家系统,正是依靠大量由人类事先编好的规则去“推理”。这些系统对于知识的掌握是来自于外部赋予而非依靠自己习得。在今天的大语言模型中,符号操作被推向了极致。像 GPT 这样的模型可以根据统计规律,预测接下来最可能出现的词语,从而生成一段听起来合情合理的回答。但是,这些模型真的理解了自己所说的内容吗?这是一个值得深思的问题。
美国麻省理工学院校友 Yuxuan 表示:“杨立昆指出了一个 AI 领域长期存在的深刻问题。符号操作本质上是针对抽象概念的逻辑运算,它能在形式上模仿智能的某些方面,例如进行推理、解决逻辑问题等。然而,真正的理解往往涉及到对世界的感知、经验、情感以及更深层次的直觉和常识。这些恰恰是符号操作难以触及的。”
对此,爱尔兰圣三一大学博士后研究员崔浩深有同感。她表示,一个经典的例子是塞尔(Searle)的“中文房间”思想实验:一个不会中文的人如果学会了“看到某个符号串就换成另一个”的规则,就能像“懂中文的人”一样作答。这个过程完全基于符号操作,却不涉及到对于语言含义的理解。
GPT“读遍”了互联网,却从未喝过一口红酒、摔过一只杯子
新加坡 Sea 集团 Sea AI Lab 的研究员窦隆绪认为:”杨立昆的观点揭示了当前 AI 发展的核心矛盾:即尽管我们在语言模型上取得了令人瞩目的进展,却忽视了真实智能的本质需求。这种观点是对‘AGI 即将到来’观点的深刻批评,挑战了目前普遍存在的过度乐观情绪。”
英国牛津大学博士后研究员赵睿对于杨立昆的观点也持整体支持的态度。人们会觉得大语言模型能够“理解”世界,其中很大一个因素是因为我们作为人类知道辞汇和现实概念的联系,所以在阅读大语言模型输出的文本时会自动进行联系和理解。事实上,大语言模型本身则并不具有这个联系。这就像是红绿色盲人士的确知道“红”“绿”这两个字对应着不同的颜色,但是他们始终无法依靠自己去区分这两个颜色,所以人们不会完全相信他们关于相关颜色的描述。同样地,我们也不应该相信大语言模型对文本词句的组合背后存在我们一般经验中所认为的“理解”。
崔浩认为:“大模型依赖文本 token 的预测,通过处理符号和规则来生成答案,而并不是真正地理解这些符号所指向的现实。例如,‘情人节喝红酒’对它来说只是一个概率上的语言结构,而不是与味觉、动作、文化、常识相关联的综合体验。因此,即使大模型表现得‘好像理解了’,也不能说它‘真的理解’了。理解,不只是处理符号,而是明白这些符号在现实世界中的含义和所指。比如‘红酒’这个词,对人类而言可能联想到颜色、气味、场景、社交氛围,以及它带来的影响比如‘喝酒不能开车’,这是建立在感知、经验和常识之上的语义理解。哪怕大模型可以在语言上描述‘打翻红酒杯、杯子碎裂、红酒顺着桌沿流下’,但它并不知道‘摔碎’意味着什么,更不知道‘红酒往下流’在物理上是怎样的过程。GPT 虽然‘读遍’了互联网,但它从未喝过一口红酒、摔过一只杯子,从未亲身体验过任何事情。它的‘理解’,更多是基于语言的概率结构,而非体验或物理常识上的因果模型。”
相比之下,所谓真实理解更加接近于人类的认知。真实理解不仅仅是对符号的处理,而是将这些符号与感知、经验、世界知识结合起来,形成一种对现实的、可解释的认识。举例来说:一个孩子看到玻璃杯掉在地上摔碎之后,他就会明白“玻璃易碎”的概念,这不是因为他听了多少关于玻璃的定义,而是因为他通过亲身体验建立了这种物理常识。这种从经验中习得、与世界互动建立起来的世界模型,是当前大多数 AI 系统所缺乏的。
所以,仅仅靠语言或符号系统,无法达到真正的智能。通过语言和逻辑所构建的世界模型是抽象的,远不及亲身感知、实际经验带来的理解深刻。
杜宇轩指出,这种现象背后的原因是因为当前的模型虽然庞大,但其学习的基础仍然是文字与符号。它们缺乏对现实世界的“语义锚定”,也缺少对于“因果”的直观把握。杜宇轩表示,它们没有一个内在统一的世界模型来确保其输出的一致性和逻辑性。这就是为什么模型有时会“自相矛盾”或者会在对话中出现“健忘”情况,因为它并没有真正形成一种持续的“情境意识”。
当前基于 token 预测的大模型,本质上只是在处理语言的统计模式,而非理解物理世界的复杂性。语言确实只是现实的低维投影,缺乏物理世界的连续性和因果关系。正如杨立昆所说,真正的智能需要建立在对物理世界的理解之上,这时就需要世界模型的参与,而不是仅仅只有语言模型。
比起 AGI,为何杨立昆更愿意谈 AMI?
前面提到,杨立昆更愿意谈 AMI。2022 年,杨立昆团队曾提出一款名为 JEPA 的世界模型架构,让 AMI 迈向了一小步。但是,人类智能本身就是高度专业化的而非“通用”的。虽然杨立昆预测未来 3-5 年内或许能够实现小规模的 AMI,然而要想达到真正的人类智能水平仍需时日。这种谨慎的预测比“AGI 即将到来”的叙事更为可信。
那么,AGI 与 AMI 之间的差异何在?英国牛津大学博士韩裕举例表示:“当人类全神贯注于一件事情时,可能会忘记时间,周围的温度、风声和人声都变得模糊甚至消失。这种现象在认知科学和神经科学中有着明确解释,即人类的大脑并非逐像素、逐帧地处理世界,而是依赖抽象层次的表征与结构化信息。”
韩裕表示,作为一种高度智能的系统,人脑的视觉处理体系呈现出明显的分层和抽象化架构。尽管视网膜接收到的是像素级的连续信号,但是在信号传递到大脑皮层之前,视网膜内部的神经回路已完成了初步的边缘和运动特征提取。随后,初级视觉皮层(V1,Visual Cortex 1)进一步提取低层次的边缘、方向和纹理特征,而高级视觉通路则将这些低层特征整合为物体、面孔和场景的抽象表征。
心理学研究也佐证了这一观点:人类的注意力会自然而然地聚焦于结构模式和关系,而非数字型的像素化细节。
这一生物机制为 AI 模型设计提供了启示。即 AI 模型不应该仅仅依赖像素级重建误差,而是要具备多层次抽象表征能力。同时,更精细化的多模态处理、关系推理与因果推理能力,也被认为是通往高阶智能不可或缺的能力。
过去几年间,在知识泛化和零样本推理上,大语言模型和多模态模型已经取得了令人瞩目的成果。例如,Flamingo、LLaVA、GPT-4V 等多模态模型展示出跨感知通道的生成与推理能力。
然而,模型结构中的本质问题依然存在。问题的本质在于高维连续数据与离散数据的根本差异决定了模型泛化能力的边界。语言模型依赖的离散 token 序列只是现实世界的“低维”符号化投影,而真实世界本质上是高维、连续且充满动态变化的。
当前,主流大语言模型采用离散 token 的条件概率建模,着本质上是一种近似模拟,而非对连续物理过程和动态变化的真实理解。即它们只能在离散空间中拟合局部模式,难以处理非线性、多尺度耦合的物理系统。而依赖 token 预测的架构天然存在天花板,因为它基于离散符号,缺乏对于连续世界及其因果结构的表达能力。
因此,真正的智能需要从“token 预测”迈向“连续世界建模”,从“封闭字典”迈向“开放系统”,从“统计拟合”迈向“具身智能”。基于此,连续建模、多尺度物理一致性和因果推理,将成为未来 AMI 研究的三大支柱。
杨立昆观点之核心:要发展模型的推理能力
人类通过感受器来感知这个世界,虽然人体感受器的信号精度比目前的机器更高,但人体感受器的高信号精度并不是无法企及的自然法则,目前很多消费级设备已经达到甚至超越了人类的感知精度。比如,市面上轻易就能买到的红外摄像头就可以处理人眼无法捕获的红外线。赵睿认为:“从这个角度来看,简单地说‘符号操作和真实理解之间存在不可逾越的鸿沟’似乎有些问题,因为只要人们可以向系统中无限地添加感受器并将其数据 tokenize,那么系统就可以达到和人类同等乃至更优的感知能力。”其继续表示:“在我的理解中,杨立昆的观点重点在于选择新的方法发展 AGI 或者 AMI。这不能仅仅依靠‘文本’或‘图片’这些反映‘现象’的 token,而要发展‘推理’能力。至于推理是通过 token 还是其他方式实现,则并不在本次‘炉边谈话’的讨论范围之内。”
另外,杨立昆在“炉边谈话”中关于可靠性的讨论也很重要。可靠性的本质就是推理结论(输出)是否始终正确,或者说始终符合系统所被设计的目标。而在所有当代 AI 系统中,均存在可靠性上的缺陷。这在目前备受关注的自动驾驶和大语言模型领域显得尤为突出。大众似乎抱有一种盲目的乐观态度:只要沿着目前的技术路线走下去,可靠性会自动解决,但其实并非如此。
同时,谈论 AI 究竟能为人们带来什么,或许比争论“涌现”和“AGI”等词语更有意义。毫无疑问,发展 AI 会给人们带来更好用的工具。然而,人们是否会陷入对概率性黑箱工具的依赖、而不再尝试“理解”这个世界?或者说不再讨论‘科学’?他说:“从中国到欧洲,从古代到近代,历史曾发生的事情正是我的担忧所在,即先进技术并不是科学发展的充分条件。而在目前的 AI 路径上,我看不到 AI (直接)去发展‘科学’的明确路线。即使有 AlphaFold 等最贴合科学研究的技术,也只是在沿着现有科学理论之下进行更多的确认或辅助,而非以其为主导来实现科学理论创新。”目前来看,似乎仍然只能依靠人类自己来发展科学理论。“这是否意味着依靠目前的技术路线根本不可能发展出 AGI?关于此我也不知道。”他表示。
因此,或许是时候重新审视符号操作或知识表示以及推理等技术。它们可以很自然地满足“推理”和“可靠性”的需求,也能比较容易地支持“发展科学”这一需求。赵睿表示,现有符号系统的准确度和当代的神经网络系统相去甚远。也许借助可解释人工智能(xAI,Explainable AI)就能达成这个目标,但也许需要神经网络和逻辑两种机制进行更有深度的融合。“如果继续发散一下,是否‘不完备性定理’等定理对于 AGI 也是适用的,而这又意味着什么呢?”其表示。(注:不完备性定理表明,任何足够复杂的逻辑系统都存在无法解决的问题。)
“过度乐观的学界需要这样‘一盆冷水’”
在这场“炉边对话”中,杨立昆还表示:“有一些人在努力让机器进行额外推理。在我看来,这是一种非常简单化的推理方式,我认为可能还有更好的方法来做到这一点。”
关于研究方法,其实应该更倾向于把语言模型看作双重工具:它既是研究结构化数据的手段,也是探索如何通过算力提升智能的途径。本次同样亮相于英伟达 GTC 2025、由“杭州六小龙”之一群核科技研发的空间理解模型 SpatialLM,就是一个很好的案例。SpatialLM 使用 Real2Sim2Real 方法让大语言模型学会了空间理解和物理常识,从而能够缩小传统仿真数据与现实数据的分布差距。
在“炉边谈话”中,杨立昆表示:“我们需要更强大的计算能力,特别是用于抽象推理的计算。”事实上,关于思维模式这一问题,新晋图灵奖得主、美国计算机科学家理查德·萨顿(Richard Sutton)更加直言不讳,其曾表示 AI 研究者应聚焦如何产生智能本身,不要被科研伪命题分散注意力,更不该为迎合特定场景而牺牲核心探索。这启示着我们需要回归第一性原理寻找智能的本质,同时让技术在实际应用中迭代,而这才是平衡理论与实践的最佳路径。
在本次“炉边谈话”中,杨立昆还指出“AI 创新可以来自任何地方”。
对此窦隆绪深表认同,其认为 AI 团队需要清晰定位各自角色和优势。学界的研究员应勇于挑战高风险、高回报的方向,专注于解决基础问题,用算法和理论突破边界。业界的工程师则需发挥系统思维和技术专长,确保 AI 在真实世界中可靠运行,同时能够适应各种复杂环境。双轮驱动,各司其职,才能让创新真正开花结果。窦隆绪补充称:“作为一名研究人员我赞同杨立昆关于‘智能本质’的观点,过度乐观的学界很需要这样一盆冷水。但是,在科技飞速爆发的当下,我们更加需要这种基础性的反思,避免将资源过度投入到可能是技术死胡同的方向。”
符号操作并非一无是处
尽管杨立昆等学者强调了构建世界模型和系统 2 推理的必要性,这并不意味着符号操作本身一无是处。恰恰相反,符号操作在过去数十年中一直是人类社会知识生产和组织的基础。从自然语言的书写与交流,到数学的表达方式,再到法律条文、计算机程序中的变量与语法规则,符号系统以其抽象、高效和可组合的特性,符号操作为科学、工程、教育、商业等多个领域带来了巨大便利。因此,问题并不在于符号操作本身的价值,而在于当人们试图追求更接近人类水平的理解与推理能力时,仅仅依赖符号操作可能是不够的。符号操作是理解的起点,但远不是终点。符号只是形式,真正的理解需要感知与经验作为内核。
有人可能会问,AI 最终能否真正“理解”这个世界?事实上,这不仅是一个技术问题,也涉及到哲学层面的探讨。在认知科学中,理解是否意味着拥有意识?机器是否可以像人一样有主观体验?对于这些问题,人们目前尚无定论。
但是,至少从工程角度来说,人们正在逐步逼近这个目标。语言模型的崛起为 AI 的自然语言理解奠定了基础,而世界模型、自监督学习、多模态输入和因果推理的研究,正在为 AI 系统构建一个更接近人类认知结构的“心智模型”。
如果要让 AI 迈出“理解”的关键一步,或许需要从多个方向入手。首先是多模态感知的引入,让 AI 不仅“听语言”也能“看世界”;其次是建立可训练、可扩展的世界模型,让系统能够在内部推演现实世界的动态;再次是开发新的推理机制,让 AI 具备系统 2 式的思考能力。
真实理解或许并不是某一天突然实现的“里程碑”,而是一个渐进的过程。在这个过程中,人们对 AI 的期望也许需要更加冷静一些,既看到其惊人的进步,也意识到它尚未触及的深水区。正如理查德·萨顿在其写于 2019 年的文章《苦涩的教训》中指出的那样:真正通向智能的道路往往不是靠人们人类赋予的规则和技巧,而是依靠系统自己去探索、去学习、去构建。
Yuxuan 也表示,当前的 AI 模型的理解,往往停留在模式匹配和规则执行的层面,缺乏像人类那样基于丰富经验和对世界模型的深刻认知。Yuxuan 认为,可能需要我们在模型架构、学习方式以及如何将感知、经验等非符号化的信息融入到 AI 系统中进行更深入的探索。
崔浩表示:“哪怕未来的 AI 拥有复杂的世界模型,却很有可能依然无法像人类一样真正地理解世界。因为它们没有本能、直觉、情感与痛感,而这些是理解世界不可或缺的一部分。至于机器,或许只能在模拟中无限逼近,却无法等同。”
韩裕则认为:“跨越从符号操作到真实理解之间的鸿沟或许很难,但并非不可能。也许在不久的未来,随着下一次技术范式的到来,这一跨越将会成为现实。”
参考资料:
1.Masland, R. H. (2012). The neuronal organization of the retina.Neuron, 76(2), 266–280.
2.DiCarlo, J. J., Zoccolan, D., & Rust, N. C. (2012). How does the brain solve visual object recognition?Neuron, 73(3), 415-434.
3.Biederman, I. (1987). Recognition-by-components: A theory of human image understanding.Psychological Review, 94(2), 115-147.
4.Battaglia, P. W., Hamrick, J. B., Bapst, V., Sanchez-Gonzalez, A., et al. (2018). Relational inductive biases, deep learning, and graph networks.arXivpreprintarXiv:1806.01261.
5.Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention is all you need.Advances in Neural Information Processing Systems30.
6.Brown, T., Mann, B., Ryder, N., et al. (2020). Language models are few-shot learners.Advances in Neural Information Processing Systems, 33, 1877-1901.
7.Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the opportunities and risks of foundation models.arXivpreprintarXiv:2108.07258.
8.Alayrac, J.-B., Donahue, J., Simonyan, K., et al. (2022). Flamingo: A visual language model for few-shot learning.arXivpreprintarXiv:2204.14198.
9.Liu, H., Zhu, C., Hu, Z., et al. (2023). Visual instruction tuning with LLaVA.arXivpreprintarXiv:2304.08485.
10.OpenAI. (2023). GPT-4 technical report. Retrieved from https://openai.com/research/gpt-4
11.LeCun, Y. (2022). Path towards autonomous machine intelligence.Communications of the ACM, 65(10), 34-47.
12.Rao, A., Kumar, A., et al. (2021). Continuous control with deep reinforcement learning and physics priors.NeurIPS
13.Chen, R. T. Q., Rubanova, Y., Bettencourt, J., & Duvenaud, D. (2018). Neural ordinary differential equations.Advances in Neural Information Processing Systems, 31.
14.Grathwohl, W., Chen, R. T. Q., et al. (2019). FFJORD: Free-form continuous dynamics for scalable reversible generative models.International Conference on Learning Representations.
15.Raissi, M., Perdikaris, P., & Karniadakis, G. E. (2019). Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving partial differential equations.Journal of Computational Physics, 378, 686–707.
16.Ha, D., & Schmidhuber, J. (2018). World models.arXivpreprintarXiv:1803.10122.
运营/排版:何晨龙