智东西
编译 徐豫
编辑 云鹏
智东西2月8日消息,谷歌旗下顶尖AI研究实验室DeepMind于2月7日发布论文,其开发的一套名为AlphaGeometry2的AI系统,解决国际数学奥林匹克竞赛(IMO)几何问题的表现,超越了金牌得主的平均水平。
AlphaGeometry2是DeepMind去年1月发布的AlphaGeometry系统的升级版。在最近发表的一项研究中,AlphaGeometry2能够解决过去25年IMO中84%的几何问题,而OpenAI的o1推理模型一道题都答不上来。IMO是一个高中生的全球顶尖数学比赛。
据DeepMind团队分享,AlphaGeometry2融合了神经网络理论和符号AI方法,其一方面采用基于神经网络架构搭建的谷歌Gemini系列模型,同时另一方面遵循符号AI的操作规则,以此提升AI系统理解、推理和逻辑证明能力,打开了实现通用AI的新思路。
事实上,今年夏天,DeepMind曾展示了一套结合AlphaGeometry2和AlphaProof的系统,后者是一个用于形式数学推理的AI模型。该系统成功解决了2024年IMO六道题中的四道。
那么,DeepMind为何会关注一个高中数学竞赛?
DeepMind认为,解开复杂几何问题的新方法,可能是开发更强大AI系统的关键,尤其是欧几里得几何问题(Euclidean geometry problems)。
证明数学定理这件事,例如逻辑性地说明为什么勾股定理(Pythagorean Theorem)成立,不仅需要推理能力,还需要从多种可能的解决步骤中作出选择。DeepMind认为,这种解决问题的能力或许能够成为未来通用AI模型的核心组成部分。
此外,除了几何问题,AlphaGeometry2这套方法还可以扩展到其他数学或科学领域,例如可以为复杂的工程计算提供帮助。
一、双引擎核心发力,兼顾逻辑推理和大规模数据处理
AlphaGeometry2内含多个关键组件,其中既有谷歌Gemini系列语言模型,也有一个“符号引擎”。同时,这个符号引擎在Gemini模型的帮助下,可以更好地利用数学规则推导出问题的解决方案,从而为给定的几何定理找到行得通的证明。
▲IMO考试中的一道典型几何问题的示意图。(图源:TechCrunch)
IMO中的几何问题通常需要添加辅助线,例如点、直线或圆等辅助构造,才能解答。AlphaGeometry2的Gemini模型可以预测图中需要添加哪些辅助线,然后符号引擎则基于这些辅助线进行推理。
简单来说,AlphaGeometry2的Gemini模型用一种形式化的数学语言,为符号引擎提供建议,而符号引擎可依据特定的规则,来检查这些步骤是否符合逻辑。
此外,该系统还配备了一种搜索算法,支持并行搜索多个解决方案,并且会把可能有用的发现存储在公共知识库中。
AlphaGeometry2认定一个问题已被解决的条件是,得出的答案能够结合Gemini模型的建议,以及符号引擎的已知原则,完成证明闭环。
另外,由于将几何证明转换成AI可理解格式的过程较为复杂,几何问题的训练数据极为稀缺。为此DeepMind自创了合成数据集,生成了超过3亿个复杂程度不同的定理和证明,用于训练AlphaGeometry2的语言模型。
二、横杀过去25年的竞赛几何题,成绩媲美金牌得主
DeepMind的研究团队选取了过去25年,即2000年至2024年,IMO中的45个几何问题,并将这些问题转换成一组共有50道题的大题组。这45个几何问题中既有线性方程,也有涉及平面几何对象移动的方程。
不过,由于技术原因,目前大题组中的部分题目需要被拆分处理。
根据论文,AlphaGeometry2成功解决了大题组中的42道题目,超过了金牌得主40.9分的平均成绩。
但同时,AlphaGeometry2也存在一定的局限性。
尽管得分可以说表现优异,AlphaGeometry2仍存在一些技术限制。例如,它暂时无法解决点数可变、非线性方程和不等式的问题。
在另一组难度更大一些的IMO题目中,AlphaGeometry2的表现稍逊。DeepMind研究团队挑选了29道曾被数学专家提名,但未曾出现在竞赛中的题目。而AlphaGeometry2仅成功解决了其中的20道。
此外,AlphaGeometry2也并非第一个达到几何金牌水平的AI系统,不过它是第一个在如此大规模题集上取得这一成就的AI系统。
三、符号AI与神经网络学派各执一词,DeepMind提出融合新法
DeepMind这项研究结果,可能会加剧关于AI系统是否应该基于符号操作构建的争论。换句话说,AI系统是应该使用规则来操作代表知识的符号,还是基于更类人脑的神经网络来构建。
AlphaGeometry2采用了混合方法,其Gemini模型使用的是神经网络架构,而符号引擎则是基于规则。
神经网络理论支持者认为,从语音识别到图像生成,智能行为可以通过大量数据和计算资源自发涌现。
而符号系统支持者则认为,符号系统通过定义一组专门用于特定任务的符号操作规则来解决问题,例如在文字处理软件中编辑一行文字。而神经网络则需要通过统计相似数据和大量示例,才学会如何解决任务。
一方面,神经网络是OpenAI o1推理模型等强大的AI系统的基石;另一方面,符号AI的支持者认为,神经网络并非万能的,符号AI或许在高效编码真实世界知识、推理复杂情境和自证解答过程等方面,更具优势。
AlphaGeometry2的成功表明,这两种方法的结合,或许是开发通用AI一条行之有效的路径。
事实上,根据DeepMind的论文,基于神经网络架构的OpenAI o1推理模型,无法解答AlphaGeometry2所解出的任何一道IMO问题。
然而,这种情况也许不会永远持续下去。在论文中,DeepMind团队称,他们发现了初步证据,可以说明AlphaGeometry2的语言模型有时候能够在没有符号引擎辅助的情况下,生成部分解决方案。
“这些结果在一定程度上支撑了,大模型可以在不依赖符号引擎等外部工具的情况下,自给自足的观点,”DeepMind团队在论文中写道,“但在模型速度得到提升,且幻觉问题完全解决之前,这些外部工具对于AI数学应用来说,仍将至关重要。”
结语:AI解难题更聪明了,但简单问题仍会“犯浑”
DeepMind的AI系统AlphaGeometry2成功挑战IMO竞赛金牌得主水平,一方面体现出AI数学、推理、逻辑证明能力的进步,可以与高中生竞争;另一方面也为AI界提供了通向AGI的新路径,在神经网络派和符号AI派的争论中,论证了二者相互配合提效AI推理的可行性。
与此同时,AI从纸上谈兵到实战演练,仍有很长的路要走。如何保证简单任务执行的准确性、拓宽复杂任务处理的可能性、降低开发和部署成本等,都是AI玩家亟待解决的议题。
卡内基梅隆大学计算机科学教授Vince Conitzer告诉TechCrunch,AI系统在这些基准测试上持续取得令人瞩目的进展,但与此同时,语言模型和最近推出的具有推理功能的模型,仍会在一些简单的常识问题上苦苦挣扎,这种对比令人震惊。
他补充道,我并不认为这一切进展都是虚张声势,但它确实表明了,我们仍然不清楚下一个AI系统会有什么样的行为。这也意味着,这些AI系统可能会带来重大影响,因此我们迫切需要深入了解它们,以及它们可能造成的风险。
来源:TechCrunch