大模型在过去一两年中受到了广泛关注,尤其是它在解算数数学题上取得的成绩。
实际上,早在 2022 年,Google Research 团队的研究人员,就提出了思维链(CoT,Chain-of-Thought)提示这种能够有效提高大模型数学推理的提示工程方法,并在少样本上下文学习中验证了它的有效性[1]。
虽然该方法很快便得到了广泛应用,但是关于其究竟如何激发大模型的算数推理能力,该领域的研究人员仍然知之甚少。
此前,已有的相关探索主要集中在,试验性地观察 CoT 提示语句中的不同组成部分,对大模型算数推理效果的影响。
具体来说,尝试替换或移除 CoT 提示语句中的组成部分,例如移除 CoT 样本中的文字推理部分,仅留下关键性数学公式,并通过观察替换或移除前后大模型在已有算数推理基准测试上的表现差异,来判断该替换或移除部分是否对激发大模型的算数推理能力有重要贡献。
虽然从这些研究中,该领域的研究人员已经发现了若干有趣的现象,但仍然无法从神经网络内部机制上解释,CoT 如何激发大模型的算数推理能力。
与此同时,这些研究也带来了更多问题。例如,为什么 CoT 的不同组成部分,会给大模型的算数推理带来不同程度的影响。
为解决上述问题,美国乔治梅森大学姚子瑜教授和团队,从“模型可解释性”的角度出发,在开源的 Llama2 模型上展开了一系列探索,并提出用“神经元激活”来系统性地解释已有研究在 CoT 上观察到的现象。
图丨课题组成员(来源:课题组)
近日,相关论文以《探究神经元激活作为一种统一视角,以解释大型语言模型中的链式思考引发算术推理》(An Investigation of Neuron Activation as a Unified Lens to Explain Chain-of-Thought Eliciting Arithmetic Reasoning of LLMs)为题被国际计算语言学年会(ACL,Annual Meeting of the Association for Computational Linguistics)2024 接收[2]。
乔治梅森大学博士研究生大金·莱(Daking Rai)是第一作者,姚子瑜担任通讯作者。
图丨相关论文(来源:ACL 2024)
研究中,他们首先集中探索了 Transformer 前馈层,是否表达了算数推理概念的神经元。
相关概念包括加减乘除的算数操作概念、算数推理过程中的逻辑链接概念(如“…所以”“…接下来”),以及其他算数计算概念(如“百分比”“算法”“公式”)。
因此,为发掘每个神经元所代表的概念,他们把神经元映射到了大模型的词汇空间,并通过标注神经元映射后在每个词汇上的概念比重,来总结该神经元代表的意义。
该课题组提出用 GPT-4 来阅读理解神经元的词汇映射,以自动化这一神经元标注和挖掘过程。
实验表明,Transformer 前馈层确实存在代表了算数概念的神经元。当这些神经元遭到破坏,大模型的算数推理能力就会受到损害。
同时,研究人员还观察到这些神经元的活跃程度,与大模型的算数推理能力成正相关。这样的正相关解释了,为什么不同提示语句会给大模型的算数推理带来不同的效果。
基于这些神经元,该团队系统地解释了已有研究观察到的四个 CoT 相关现象。
第一,当数学公式从 CoT 样本里移除而只留下运算结果时,大模型的算数推理能力会受损。
第二,当文字推理从 CoT 样本里移除而只留下数学公式时,模型能力也受损。
第三,当 CoT 样本失去运算多样性,比如所有的样本都只涉及加法运算时,模型能力受损。
第四,当 CoT 样本的运算结果错误而推理过程正确时,模型能力不受到显著影响。
“我们看到这些现象基本上都可以用神经元的激活程度来解释。比如在数学公式移除前后,激活状态的神经元数量下降,解释了为什么模型的算数推理能力受损。”研究人员解释道。
从应用上看,该成果将会在两个方面拥有应用前景。
其一,用来预测大模型的能力。
在实验中,研究人员已经可以看到,代表算数推理的神经元的激活程度,与 Llama2 模型的算数推理能力成正相关。这就意味着未来也许并不需要基准测试,就可以直接预测大模型在特定任务方面的能力。
同时,因为基准测试需要很多人力物力,如数据集标注和计算资源,所以通过理解大模型的内在机制来直接预测它的能力,也有助于节省成本。
另外,该领域的从业者都希望在不久的未来,大模型能够完成超人类的任务。但局限于人的能力,这些任务没有办法构建基准测试。而通过大模型的内在机制来预测模型能力,可以很好地规避这一问题。
其二,通过控制大模型的内在机制,来增强或削弱模型的能力。
“我们认为这一应用会在未来成为提高大模型安全性的重要方法之一,同时它也有潜力实现更高效的大模型训练,例如通过小数据定位神经元,然后通过控制神经元的激活来达到模型训练的目的。”课题组表示。
实际上,2023 年下半年,OpenAI 就提出了“超级对齐”的提议[3],旨在通过鼓励科研创新,来帮助人类监管和控制超人类 AI 模型。预测和控制模型能力,正是实现这一目的的两个重要任务。
“这项成果是我们在这个方向上的一个初步探索,希望后续我们或者其他研究员可以继续在这个方向探索。”该团队说。而该研究受到“机制解释性”的启发。
这是一个近几年迅速兴起并得到广泛关注的模型可解释性子领域。不同于以往的可解释方法,机制解释性试图通过对神经网络进行逆向工程,来理解该模型的行为机制。
目前,这类方法已经在大模型行为和结构功能的解释上得到了应用。
“而其中一个对我们有极大启发的研究是,来自美国艾伦人工智能研究所和以色列巴伊兰大学的研究员,在 Transformer 前馈层上的探索[4]。”研究人员说。
该研究发现,在大模型预测下一个词汇单元的过程中,模型的 Transformer 前馈层会通过在词汇空间中不断强化相关概念来构建预测。这个概念强化是通过激活 Transformer 前馈层的神经元来实现的。
“这个机制层面的发现启发了我们的猜想:CoT 之所以能够激发大模型在算数推理上的能力,也许是因为它能够有效激活 Transformer 前馈层中代表算数推理概念的神经元,而这些神经元帮助了大模型算数推理能力的强化。”课题组表示。
基于此,该课题组设想是否存在一种机制,能够直接增强大模型,尤其是小量级大模型的算数推理能力。
该团队指出:“这是一件非常有意义的事情,因为小量级大模型享有独特的运算效率、经济效率和安全性。”
并且,在同一时期,他们也看到一些研究通过收集高质量数据或修改训练目标函数,来提高小量级大模型在特定领域或任务上的能力。但是,机制解释性在这上面的应用还处在新兴阶段。
尽管如此,该团队的科研过程也并非一帆风顺,甚至在刚开始就面临“卡壳”。
其中,最大的难点在于,他们并没有充分了解大模型做算数推理的内在机制,也自然无法实现所畅想的模型控制。
“因此,我和学生莱,也就是该论文的第一作者,决定先把精力集中在解释大模型的算数推理上。”姚子瑜说。
但他们很快又遇到下一个难点。
“算数推理”是一个高度抽象的概念,而大模型的预测执行在具体的词汇单元层面。
如果要从“神经元在词汇空间的概念强化”这一角度,来理解大模型的算数推理能力,首先就要把这一高度抽象的概念,落实到具体的词汇层面的概念上。
为弥补这个差距,该课题组首先总结了若干算数推理相关的更低层级的概念,这包括算数运算符、算数推理中的逻辑语言表达,以及其他算数计算概念。
并通过运用 GPT-4 高效地标注和搜索表达了这些低层级概念的神经元。然后,他们又参考了前人研究,对这些搜索到的神经元进行验证。
“实验结果证明,这些神经元确实对我们实验的大模型 Llama2 有着重要作用。”课题组说。
这也让他们更有信心在这个方向继续探索。
他们想到用这些神经元的激活状态来统一地解释 CoT 对大模型算数推理能力的效果,包括解释若干之前工作观察到的现象。
而结果也基本上验证了他们的猜想,即 CoT 不同组成部分对大模型算数推理能力的激发作用,是可以用相关神经元的激活来解释的。
不过,该研究也指出,神经元激活并不能解释大模型所有的算数推理表现。同时,研究人员在 Llama2 上的发现是否适用于其他大模型族群,也有待进一步验证。
另据悉,姚子瑜实验室目前有若干 2025 年秋季入学的全奖博士名额。详情欢迎查看该团队网站 https://ziyuyao.org/ 和邮件咨询。
参考资料:
1.Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V. Le, and Denny Zhou. Chain-of-thought prompting elicits reasoning in large language models.Advances in neural information processing systems 35 (2022): 24824-24837.https://doi.org/10.48550/arXiv.2201.11903
2.Daking,Rai,Ziyu,Yao,An Investigation of Neuron Activation as a Unified Lens to Explain Chain-of-Thought Eliciting Arithmetic Reasoning of LLMs.arXiv:2406.12288.https://doi.org/10.48550/arXiv.2406.12288
3.OpenAI. Introducing Superalignment. https://openai.com/index/introducing-superalignment/. 2023.
4.Geva, Mor, Avi Caciularu, Kevin Wang, and Yoav Goldberg.Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space.InProceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pp. 30-45. 2022.https://arxiv.org/abs/2203.14680
排版:初嘉实
01/
02/
03/
04/
05/