新智元报道
编辑:定慧
【新智元导读】在「学」与「思」之间,AI需要跨越的不只是算力的堆砌。北大物理学院联合多个院系,推出了首个专注于物理感知与推理能力的大模型基准——PHYBench。首次系统性揭示了当前大语言模型在理解物理世界时的巨大短板。
学而不思则罔,思而不学则殆。
——《论语》
如果说大模型的训练是「学」的过程,那么各种基准测试就是大模型停下来「思」的片刻。
现在模型训练需要的算力和电量已经远超碳基人类的范畴,AI的学习只需要更多的卡和更多的电。
AI学习不成问题,但是AI能「思」吗?
但是对于AI的评估,似乎有些「迷惘」——AI的基准测试到底应该如何设计才能体现模型真正的能力?
来自datalearner.com上AI评测基准,只是一些还有很多
像DeepSeek-R1和OpenAI-o3等推理模型展现了复杂推理能力,这些推理模型能够理解、建模并回答奥林匹克级别的难题。
但是目前的这些基准有点像是「为了考试而考试」制作的考卷,AI们只需要在特定的数据集上完成训练,就可以做一个高分的考生。
这就像从学校走向社会的高分考生,不一定能从象牙塔一下子适应到外部社会的弱肉强食。
既然AI的能力需要辐射到现实生活,那么也许一个针对「物理」的评测指标是不是更能验证AI的现实可用性?
最近,由北大物理学院、人工智能研究院、计算科学研究中心、集成电路学院和元培学院共同组成的「天团」,推出了一个用于评估大语言模型在物理情境中的推理能力的高质量基准——PHYBench。
值得一提的是,这其中有很多人都是物理竞赛金牌得主。
论文地址:https://arxiv.org/abs/2504.16074
具体来说,PHYBench包含500个精心挑选的基于现实的物理问题。
涵盖了力学、电磁学、热力学、光学、现代物理学和高级物理学等领域,难度从高中习题到大学生问题,再到物理奥林匹克挑战题目不等。
有没有想起被高中物理支配的恐惧?
如何评价一个评测基准到底好与坏,适合与不适合?这里引用北大团队的一句话最为适合不过。
基准测试不会神化或贬低模型;它们引导人类和AI共同朝着AGI前进。
先来看下目前的推理基准通常会有的三个问题:
1. 过度简化的推理任务:随着模型性能越来越高,现有的基准已经不再足够。
2. 过度抽象的问题:虽然现有的基准测试通过抽象或建模建立了足够的推理难度,但它们往往缺乏物理现实和实际应用的基础。说人话就是,评测太抽象冷门,现实里大概率遇不到,通过了可能也无法指导现实。
3. 缺乏精确的评估指标:当前的自动化评估方法在捕捉复杂推理的细微方面仍然不足。简单说就是,评测结果不能简单的分段,最好是能具体到1-100比较精确的分数。
PHYBench就是为了解决这些问题,PHYBench涵盖了物理学中的多个领域,使用明确定义的物理表达式作为答案。
这确保了对模型的物理感知和稳健推理能力的准确评估。
基于策划的数据集,进一步提出了表达式编辑距离(EED)得分,这是一种利用树表达式和编辑距离的自动、细粒度的评估指标,展示了LLMs给出的表达式与真实值之间的「接近」程度。
来自 PHYBench的一个示例问题。使用两个主要指标来评估模型性能:表达式编辑距离(EED)得分和准确率。
上图展示了三个不同回答的得分,其中答案1和模型答案2分别由DeepSeek-R1和GPT-4o生成。
除了评估语言模型外,北大团队还通过招募北京大学的物理系本科生来解决相同的问题,建立了人类水平基线(这水平有点高了)。
结果显示,机器和人类的能力之间存在显著的性能差距。
即使是最先进的LLM——Gemini 2.5 Pro——也仅达到了36.9%的准确率,远低于人类基线的61.9%。
PHYBench基准测试
PHYBench的每道题目都基于一个具体的物理情景,要求模型根据给定条件推导出关键物理量的符号表达式。
所有问题都有明确的标准答案,且均可通过物理原理独立求解,无需依赖外部知识。
真正的挑战在于,模型需要能根据文本描述准确构建空间和相互作用关系,选择性地应用多条物理定律和定理,并在动态系统的演化与相互作用中进行复杂计算。
此外,大多数题目都涉及长链推理,模型必须在多步推导中剔除无关的物理作用和排除不合理的代数解,以避免计算复杂度急剧上升。
不同于以往注重高强度推理或穷举搜索空间的基准测试,PHYBench更加注重真实物理场景中的逐步感知与推理能力。
简单地说,就是希望LLMs像人一样进行逻辑推理,而不是类似「鸟枪法」的暴力解法。
数据集整理
PHYBench基准测试题目改编自面向人类的物理练习题,难度涵盖高中至大学物理竞赛水平。
邀请了来自北京大学物理学院的178名学生参与题目的贡献与打磨。
上图展示了数据整理的流程。数据来源包括非公开和公开的问题,这些题目无法通过直接的网络搜索或常规参考资料轻松获得。
在改编过程中,每一道题目都被视为一个具体的物理情景。整理人员会确定一个核心物理量作为目标变量,并设计问题,要求解题者根据给定条件推导出该物理量的符号表达式。
随后,每道题目都会经过多轮审核、筛选和打磨。首先,所有题目会被存入内部平台托管的题库中。接着,这些题目会分配给审阅人员进行评估。
审阅人员检查题目是否符合上述标准,如有不符合的地方会进行修改,必要时退回给原作者进一步编辑。
在审核过程中,内部平台会展示多种大语言模型(LLM)生成的解答,供审阅人员参考,以判断题目是否表述清晰、全面,并根据需要调整描述,直到不会再引发理解上的歧义。
一旦题目获得审阅人员批准并附上评语,就会进入审阅者题库。
题目进入审阅者题库后,还会经过多轮模型测试。
通过观察模型生成的答案,判断题目是否能促使模型产生符合标准的解答。
同时,使用GPT-4o对题目的语法和格式进行检查。根据模型测试的结果,会反复修订题目,直到所有题目的输出结果完全符合基准测试的格式要求。
最后,邀请了109位人类专家参与解题。
他们进一步评估题目的表述是否恰当,并根据专家反馈对题目进行最终的细致打磨。
评估指标
正如最开始介绍,PHYBench使用了两个指标,其中一个叫做表达式编辑距离得分(EED Score),另一个是准确率比较好理解。
EED Score是一种自动化、无需模型辅助的评估指标,用来判断AI生成解答的正确性。
EED Score通过计算两个符号表达式的表达式树编辑距离来评估它们的相似性。
所谓表达式树编辑距离,指的是将一个树状结构的表达式变换成另一个所需的最少节点级别编辑操作次数(包括插入、删除和更新)。
比如Answer 1中,大模型给出的答案和正确答案只差了一个系数。
而Answer 2中,和标准答案差的比较多,所以EED score要明显低于第一个答案。
选择使用EED Score而非传统的二分类评分,主要是为了更细致地反映模型解答的正确程度。
即便生成的答案存在一些小的计算错误或系数偏差,也能体现出模型对物理原理的部分理解,而不是完全错误。
模型实验
有了基准,就来看下各个模型的表现。
在PHYBench基准上测试了一系列不同类型的模型,包括最先进的模型和一些广泛应用或具有代表性的模型。
在基于API的评估中,选取了GPT-4o、o1、Gemini 2.0 Flash Thinking、DeepSeek-V3、DeepSeek-R1、Qwen2.5-max、o3-mini、Grok 3 Beta、Claude 3.7 Sonnet、Claude 3.7 Sonnet Thinking、Gemini 2.5 pro、o4-mini和o3。
其余模型DeepSeek-R1-Distill-Qwen-32B和QwQ-32B则在本地进行评估。
人类基线
招募了来自北京大学物理学院的81名学生,每人解答了8道取自PHYBench数据集的问题。
总共收集到了559份有效答卷,这些答卷对应于公开发布的PHYBench数据集范围内的问题。
人类答题的平均准确率为61.9±2.1%,EED分数为70.4±1.8,这里的不确定性是通过10,000次重采样获得的自助法标准误。
在99%的置信水平下,专家组在两个指标上均明显优于所有被评估的LLM。
此外,人类成绩分布的上四分位数达到了71.4%的准确率和80.4的EED分数。
主要结果
在PHYBench数据集上评估了多个模型,它们的准确率和EED分数可视化展示在下图。
结果表明,即使是最先进的推理模型,在物理推理任务中的表现仍然有限。
表现最好的模型是Gemini 2.5 pro,其准确率为36.9%,EED分数为49.5,仍然明显低于人类基线。
这种差距凸显了基准测试的高度复杂性。
值得注意的是,尽管专门为推理设计的模型整体上优于通用语言模型,但一些近期发布的通用模型,如 DeepSeek-V3、GPT-4.1 和 Claude 3.7 Sonnet,也表现出具有竞争力的成绩,准确率分别达到 13.6%、12.9% 和 13.2%。
此外,32B参数的模型,包括DeepSeek-Distill-32B和QwQ-32B,在PHYBench上的表现明显较弱,准确率分别只有2.6%和1.2%,EED分数分别为4.5和3.2,这与它们在其他基准测试中的强劲表现形成了鲜明对比。
各模型在不同领域的平均原始得分。(缩写:ALL=所有问题;Mech.=力学;Elec.=电学;Thmo.=热力学;Opt.=光学;Mod.=近代物理;Adv.=高级内容)
大模型在PHYBench上表现不佳,可能归因于任务具有长推理链特性或对物理直觉的挑战,这些超出了传统快速问答(QA)设置的能力范围。
在数据集上采用了准确率和EED分数两种评估指标。
虽然这两种指标在模型排序上几乎一致,但EED分数提供了更广泛的数值分布和更小的统计不确定性。
分析显示,EED指标在样本效率上平均提升了304%,标准差为80%。
换句话说,使用EED指标评估500道题目的效果,相当于用准确率指标评估约1500道题目的区分能力。
这种提升使得模型性能之间的差异可以更加可靠地体现出来。
不同领域下的模型性能
为了更清晰地展示各模型在不同领域的相对优势,引入了两个指标:绝对优势和相对优势。
值得注意的是,相对优势是在对领域平均分进行归一化之后计算的,这样可以减小某些低分问题对整体结果的不成比例影响。
进一步分析了模型在不同物理领域下的得分分布情况,在细分的领域中:
力学:主要考察空间推理和对动态过程的理解;
电磁学:评估模型理解场分布与空间划分的能力;
热力学:测试模型在多物理场交互和复杂过程理解方面的水平;
光学:同样强调空间推理能力;
近代与高等物理:则需要模型具备对复杂物理概念的深入理解与应用能力。
通过分析发现,传统模型(如GPT-4o)在力学领域的表现相对较差,这可能是因为它们在涉及三维几何和动态过程的数据上训练不足。
专注于推理能力的模型(如o1和QwQ-32B)在力学领域表现较好。
热力学问题通常涉及多步推理和复杂过程分析,在这里,推理型模型与非推理型模型之间的性能差异尤为明显。
而在近代与高等物理领域的结果也表明,各大语言模型在知识深度上存在显著差异。
通用型模型GPT-4.1在这些领域中,相比GPT-4o、o1和DeepSeek V3展现出了明显的优势,突出了其在科学问题解决任务中的卓越能力。
相对优势这一指标突出了各模型在特定领域内相对于同类模型的优势。
图4a中的雷达图展示了部分典型模型的相对优势,直观地呈现了前文所讨论的各模型优势分布情况。
图4b则展示了模型优势在不同问题难度等级下的分布情况。
错误分析
本节将详细分析在评估过程中发现的错误。
将PHYBench基准测试所评估的能力分为两个主要维度:物理感知(Physical Perception,简称PP)和稳健推理(Robust Reasoning,简称RR)。
为了更好地说明这两个类别,分析了大型语言模型(LLMs)的推理过程,特别是DeepSeek-R1的表现。
正如上面的例子所示,DeepSeek-R1的推理过程可以明显分为两个阶段,分别对应PP和RR。
在各种模型中,都能一致地观察到与这两个阶段相关的错误,说明这两个分类具有很好的代表性。
此外,提出的EED指标能够有效量化模型在PP和RR两个方面的表现。
理解模型推理过程
在分析多个模型的解题过程时,发现它们的推理链条具有典型的结构特征,与定义的两个挑战类别高度对应:
物理感知(PP):在这个阶段,模型需要进行大量的语义推理,花费较多认知资源来识别相关的物理对象、变量和动态过程。模型需要定性判断哪些物理效应是重要的,哪些可以忽略。PP主要体现在推理链中的关键决策节点上。
稳健推理(RR):在这个阶段,模型会推导出大量方程,并进行符号推理。这一过程将感知节点通过推理链条连接起来。RR主要包括连续的数学推导、解方程和正确应用已知条件等环节。
从结构上看,PP对应推理链中的关键决策点,而RR则是连接这些节点的推理链条。
如果在PP节点出错,可能会导致对物理情景的根本性误解,最终给出错误的答案;同时,也可能引入不必要的物理效应,增加后续符号推理的复杂度。
而RR阶段的错误,通常表现为推导表达式不一致、解方程错误或条件应用不当,这些问题会不断累积,使最终的结果越来越偏离正确答案。
物理感知(Physical Perception)
第一个典型挑战来自对物理过程理解不足和建模能力欠缺。
如上图所示,示例问题1描述了一个经典力学场景:三颗小球通过一根不可伸长的绳子连接在一起。
大型语言模型(LLM)的错误解答源于对这些小球之间运动关系的误解,特别是错误地认为中间绳段的角速度为零。
即使后续符号推导过程是正确的,最终得到的答案依然是错误的。
这个问题中的PP挑战,对于一般大学生来说并不难,但即便是像Gemini-2.5-Pro、o3和DeepSeek-R1这样最先进的模型,也未能正确处理这道运动学题目。
实验进一步发现,32B参数规模的模型在PP阶段表现尤为糟糕,甚至在基础问题上也频频出错。这种失败不仅暴露了模型在物理感知能力上的根本性局限,也反映了其在语义推理方面的不足。
PHYBench基准测试正是有意设计来区分真正理解物理过程的模型与那些仅靠记忆或模式识别解题的模型。
稳健推理(Robust Reasoning)
另一种常见错误出现在长且复杂的推理过程中,模型难以保持推理的一致性,或者在解方程时出错。
例如,在上图示例问题2中,场景是一个以相对论速度运动的镜子受到高能光子的反冲。虽然LLM正确理解了物理设定,也选用了恰当的方程,但在漫长的符号推导后,最终未能得出正确解答。
这种情况典型地反映了模型在数学推理稳健性方面的不足。
物理问题通常需要大量符号推导。由于篇幅限制,这里展示的两个示例问题都相对较短,但前文提到,PHYBench中一份完整解答的平均长度约为3000字符,人工解答通常需要使用几十步中间推导。
而未经外部数学工具辅助的LLMs,往往会比人类解答步骤更多,从而增加出错的风险。
这一观察说明,物理问题实际上是一种受多种明确规则约束的长链推理任务。
实验结果表明,长链符号推理仍然是当前模型面临的重要挑战。
用EED指标捕捉错误
EED分数能有效捕捉模型在PP和RR两个阶段的错误。
PP阶段的错误通常导致中间推导过程中的术语缺失或多余——小错误会引起系数偏差,大错误则可能增加或漏掉整个术语,显著拉低EED得分。
而RR阶段的错误则表现为推导过程中的表达式逐步偏离,EED能够平滑地捕捉到这种变化。
通过在PHYBench框架下对这些问题的分析,进一步验证了该基准测试在评估AI模型物理感知和逻辑推理能力上的有效性。
PHYBench通过提供真实且复杂的物理场景,迫使模型展示其真正的理解与推理能力。这不仅提升了评估AI推理能力的标准,也为开发更先进、能够理解并与物理世界互动的模型提供了方向。
这些问题的分析也是PHYBench被创建的核心目标。
通过呈现真实复杂的物理情景,PHYBench考察了超越传统物理解题的推理能力。
这两种能力——物理感知(PP)和稳健推理(RR)——可以作为衡量AI模型在多规则推理任务中表现的重要指标,不仅适用于物理学领域,也适用于更广泛的科学和工程任务。
它们反映了模型从现实信息中抽象出结构,并执行复杂长链推理任务的能力。
因此,PHYBench不仅为评估AI推理能力设定了新标准,也为开发能真正理解和与现实世界互动的更高级模型提供了指导。
要让AI在真实环境中有效运作,光靠模仿视频或文本学习,或者单纯积累专家知识是不够的,模型还必须具备自主构建内部表示并通过合理推理推导出可靠物理关系的能力。
参考资料:
https://arxiv.org/abs/2504.16074