导语
如果词语的组合本质上是某种数学结构,那么意义是否就藏在统计规律之中?更惊人的是,这种分析竟揭示了信息熵与拓扑学之间隐秘的联系,暗示数学与语言可能存在某种深层同构。这是否意味着,人类对语言的理解,本质上是一场关于‘相同与差异’的数学游戏?范畴论作为一种超越具体学科领域的研究方法,不仅在语言分析领域展现了巨大潜力,而且有希望催生出新的数学思想与工具。
关键词:范畴论,语言范畴,拓扑学,数学结构,信息论,熵
Joseph Howlett丨作者
彭晨丨译者
Quanta Magazine丨来源
小时候,Tai-danae Bradley 并不喜欢数学。 2008年,她进入纽约城市学院,为篮球队效力,并希望开始从事运动营养方面的工作。她认为数学只有天才真正擅长。她说:“我宁愿拔掉我所有的牙,也不愿以数学谋生。”
但在她大二的时候,微积分教授改变了她的想法。她了解到,数学是书写所有科学的语言。她说:“世界上有比教科书上的内容更深刻的东西。我们生活在一个非常令人兴奋的世界里,数学是洞察其中的一种方式。” 她退出了篮球队,决定双修数学和物理。现在,作为人工智能公司 SandboxAQ 的一名研究员,以及加州 Master's University 的客座教授,Bradley 正在利用数学语言来更好地理解语言本身。
她的研究视角聚焦于范畴论——这是一种超越具体学科领域的研究方法,致力于构建贯通各领域的底层统一框架。通过将语言视为数学范畴,她得以运用现有工具进行解析,从而获得新的洞见。语言学家期望她的模型能帮助验证某些理论(例如语法和语义如何从词串中涌现),并识别AI生成文本与人类语言的差异;而 Bradley 本人更关注的是:这种研究方式或许能催生新的数学工具。
Quanta 杂志就“数学如何启发语言研究,语言反过来如何影响数学研究”这一主题采访了 Bradley,以下为经过精简和润色的访谈内容。
Q:最初是什么问题促使您踏上这项研究之路?
我一直试图探寻:语言的数学结构究竟是什么?它的基本单元是什么?单词与短语间的数学关系,最终如何构建出有意义的内容?以数学方法研究语言存在多种途径。 譬如,可将语言视作一种代数结构——正如数字相乘生成新数,英语短语亦可通过特定方式“相乘”(即组合)而衍生出新短语。此外,还可以从范畴论视角看待语言。
Tai-Danae Bradley小时候不喜欢数学。但上大学后,她开始意识到数学与我们周围的世界是如何紧密相连的。
Q:范畴论是什么?
所谓范畴,由若干对象(objects)及对象间的态射(morphisms,即关系)构成。这些对象可以是集合、群、或是向量空间,而态射则负责建立对象间的关联。以集合为例,态射即是将一个集合映射至另一个集合的函数。
我常将范畴论比作数学界的“填词游戏”(Mad Libs)。游戏中,同一个框架因填入不同词语而诞生各异的故事版本。数学领域同样存在某些普适性构造——尽管不同分支可能采用不同术语(如用“群”替代“向量空间”),但只要按规则置换词汇,便能发现其底层框架本质相通。
初读研时接触范畴论,我曾深恶痛绝。当时心想:难怪人们讨厌数学,这根本就是为了抽象而抽象,毫无直觉根基。直到后来,我的博士导师 John Terilla 才让我领悟到范畴论何以成为利器。
为了适应广大非数学专业爱好者的需要,集智学园针对推出了两季课程(链接:https://campus.swarma.org/course/2723)。完成本课程,可以没有障碍地了解现代代数、拓扑、范畴等领域的许多基本概念,理解范畴论的抽象思维方式,掌握创新的工具。
Q:是什么让范畴论如此强大?
它让你双脚腾空,从高空俯瞰数学万象,洞察那些在地面难以察觉到的隐秘关联。如今,范畴论反成我最乐在其中的领域,当年还尚缺少足够的数学积淀与悟性,未能觉察到其中的妙处。
Bradley 看到了范畴论在生活中的作用,她对用它来理解语言特别感兴趣。
Q:范畴论能揭示哪些独到洞见?
数学中一个非常有意义的问题是:何谓“相同”?“相同”的含义是什么,它如何随不同数学分支而发生改变?例如,集合就像一个盛弹珠的布袋,它没有真正的结构。所以,两个集合“相同”,仅需元素数量相等。而群则不然,元素间存在特定运算法则。此时判断群是否“相同”,需要考虑这个附加结构。
范畴论为这些殊异的“同”之概念,提供了统一的描述模板。解决问题时,可以使用此模板在不同数学语境间自由切换。
Q:可以举个例子吗?
一个我最喜欢举的例子来源于拓扑学。被称为拓扑空间的形状构成一个范畴。你可以把一个空间拉伸成另一个,这种拉伸就是它们之间的态射。假设有两个拓扑空间,你想知道它们是否相同。如果相同,那么当你把一个空间拉伸成另一个时,它上面的孔洞数量不会改变。直接处理这些空间非常棘手,因此判断这一点可能相当困难。但是孔洞数总是等同于来自另一个完全不同的范畴的某个数值。
范畴论使我们得以在拓扑空间范畴与其他范畴间自由切换。例如,借助函子(functor)这一工具,可以将两个拓扑空间转化为向量空间,若此时发现两者维度不同(此特性更易观测),即可判断其原空间一定不相同。这来自跨越拓扑学与线性代数的洞见,正是范畴论赋予的独到智慧。
Q:如何运用范畴论理解语言?
语言与范畴论本就有天然契合之处。我们不必将刻板的数学模型强加于语言之上,不妨从基础词频入手,例如统计“猫”与特定词汇的共同出现的频率。若我说“好奇害死____”,便可计算下一词是“猫”而非“直升机”的概率。进而,可将所有可能的单词、短语(甚至字母组合)视为富范畴(enriched category)中的对象。每个对象皆通过转移概率与其他对象关联,这就是富范畴版的态射。不妨将其想象为词语间的箭头,每个箭头上都标注着概率数值。
Q:为什么范畴论框架对语言研究有帮助?
如果痴迷于某种东西,就会开始发现它随处可见。正因范畴论高度抽象且能贯通数学各领域,诸多数学家熟悉的概念皆可通过它重新诠释。其意义不止于此。一旦将语言视作范畴,相当于解锁了学界数十年来构建的整套工具箱。您只需翻阅这本“数学食谱”,便能择取适用方案:无论是探究人类语言本质,还是解析大语言模型的运作机理。
Q:如何使用这些“数学食谱”获取新认知?
学界一直以来困惑的一个问题是:如何仅凭词汇组合的基础信息,推演出更高阶的抽象概念?当要求 ChatGPT 列举“五种具有家宠属性的爬行动物”时,它是如何起建立“家宠属性”“爬行动物”这两类概念之间的关联?从符号串的统计特征到逻辑关系的跃迁,究竟如何实现?
我们可以借用范畴论的现成“食谱”来窥其奥秘:首先,为每个单词构建一个范畴论理论结构,该结构需囊括该词所有可能的短语组合及其常见度。进而,对两个不同单词对应的结构施加某些经典范畴论运算——这些运算本身是范畴论中非常传统的操作。最终获得的范畴结构会自动关联两个原始词语。以“大”(big)与“黄”(yellow)为例,该结构会为“大黄太阳”(big yellow sun)等高概率短语赋予较大数值,而对“大黄红宝石”(big yellow ruby)等低概率组合赋予较小数值。这套简单的范畴论运算,竟生成了具有语言学意义的成果:即构建复合概念(如“又大又黄之物”)的数学表达。
由此可证,仅凭基础统计信息,范畴论便能“数学地”推演出高层概念的形成机制。或许这正揭示了人类概念形成的某种本质(我无意断言人脑运作机制,其奥秘仍未知):语言使用数据中确实蕴含着概念雏形——仅从词频出发,便可以实现概念化。
Q:您认为大语言模型是这样运作的吗?
我参与本研究时,大语言模型尚未兴起。但它们确实与我们同源——皆始于词频统计。至于Transformer内部的真实运作机制,我也无从断言。或许当今学界对LLM的机制也尚未有定论,但这可以成为这场对话的起点。
Q:您的研究对语言本质有何启示?
我认为这表明,即使是在最基础的句法结构中(例如词语搭配关系),也蕴含着意义信息。观察“蓝色”(blue)常与哪些词共现,如“蓝色弹珠”(blue marble)、“蓝天”(blue sky),而“蓝色牛油果”很罕见(blue avocado),能否由此窥见“蓝色”一词的语义?这在语言学领域尚存争议。作为人类,我固然能从纸面语句获取意义,但文字并非认知世界的唯一渠道。近几十年来,“意义寓于词序”(meaning lives in the arrangement of words)这一传统观点已然式微,但语言学家们始终在辩论:理解书面语言的含义是否必须依赖外部世界模型。
然而本研究,以及 LLM 近年来的成功,共同佐证了一个观点:词语共同出现的统计规律中,自有意义存焉。或许,这正可为语言学界的争辩,投下一枚新的砝码。
在我们最新的论文中,也使用范畴论给语言研究带来了全新的概念。我们当时研究的范畴量级(magnitude of a category)——这种与拓扑学关联、用于表征范畴特性的“规模度量”,恰由合作者 Juan Pablo Vigneaux 新近提出算法实现该量级的计算。经改良后,我们决定在语言范畴中检验该理论。出乎意料的是,当推导出语言范畴的量级公式时,其数学表达式竟自然涌现出信息论的核心参量——熵(entropy),即信息量的度量方法。
Q:这一关联揭示了什么?
它揭示了熵与拓扑学之间玄妙的联系,这两大理论本互无关联,各居不同的科学领域。然而,近年来此类关联屡现端倪,此番发现或再添佐证。我尤其着迷于这种“殊途同归”的现象:表象迥异之物,竟在深层同构。
面对计算结果,我们亦不禁感叹:“其中有何深意?”熵之于语言,究竟如何理解?范畴量级的计算,可否用于比照不同语言的结构差异?抑或甄别人类语言与LLM生成文本?前路亦漫漫,这仅仅只是迈出的第一步。
Q:您希望这项研究将引领我们至何方?
我期待它能带我们抵达数学本质的更深处。诚然,研究语言现象本为更好地理解世界。但真正令人振奋的是——或许正因某些数学概念的缺席,才使语言之谜如此难解。同样,语言也能够帮助我们发现新的数学结构。这在数学史上屡见不鲜:数学家常邂逅无名之物,还有许多静待发现的结构。
我预见,五年之内,源自语言研究的数学新思想或将破土而生。
范畴论系列课程
范畴论被称为是“数学的数学”,为现代数学提供了一套基础语言。范畴论是一个关于关系的理论,描述并研究关系的所有可能性质。它提供了一种系统、精确、抽象的跨领域科学方法论,可直接付诸于各领域考察的问题,寻求跨领域的解决之道。这种数学语言与复杂性科学有众多相似之处,加之其本身作为数学工具的严密性,后续可能能为解决复杂性科学问题提供一把钥匙。范畴论系列课程包含两季的“范畴论入门系列课程”,和最新的「范畴论与机器学习」课程,该课程从范畴观点切入机器学习,包括对机器学习的某些方法论建立背景的具体范畴的研究方法,以及从神经网络架构等出发研究在范畴上的某些结构。 参看:
1.
2.
3.
4.
5.
6.