新智元报道

编辑:KingHZ

【新智元导读】ChatGPT「舔狗化」事件背后,暴漏目前AI仍是「黑箱」。 一场关于「机制可解释性」的路线分歧,正撕裂AI研究最核心的价值共识。谷歌认怂,Anthropic死磕——AI还能被「看懂」吗?

然而,没有人知道这到底是因为什么。

这恰恰暴露了当前AI的致命短板:缺乏可解释性。

而关于AI可解释性的研究价值,专家间的讨论近期变得更加激烈。

具体而言,是AI巨头谷歌和Anthropic之间关于「机制可解释性」(mechanistic interpretability)的争论:

3月,谷歌DeepMind宣布将不再把「机制可解释性」作为研究重点

4月,Anthropic的首席执行官Dario Amodei主张应该更加重视「机制可解释性」的研究,并表达了对未来5到10年内实现「AI的核磁共振成像」(即深入了解AI内部机制)的乐观态度。

所谓的机制可解释性,目标是对AI系统进行「逆向工程」。

但十多年的研究成果表明,这种方法可能难以真正落地,而这一切都被不完善的基础假设误导。


人类无知之危,

GenAI悬顶之剑

很多与GenAI相关的风险和担忧,本质上都是因为这些算法内部机制的「黑箱」特性所引发的。

如果模型是可解释的,这些问题会更容易被解决。

但可解释性AI非常难以研究。

2018年,在一次采访中Geoffrey Hinton认为可解释性AI堪比「鸡生蛋 VS 蛋生鸡」。当时,他是这样说的:

人类在大多数时候其实都无法解释自己是如何做出决策的。 ……

神经网络也有类似的问题。你给它输入一张图片,它会输出合理的判断,比如判断这是不是行人。

但如果你问它「为什么这么判断?」,那问题在于:如果判断一张图片是否包含行人真的有一套简单规则,这个问题早就解决了。

纽约大学教授Bob Rehder曾写道:「解释会促使学习者寻找通用模式,但这也可能让他们忽视例外情况。结果就是,在那些例外频繁出现的领域中,解释反而可能带来负面效果。」


Anthropic联合创始人Chris Olah常说,GenAI更像是「被培养出来的」,而不是「被构建出来的」

——它们的内部机制是「涌现」的,而不是人为精心设计的


这有点像种菜或养花:人类可以设定整体的生长条件,但不可预测且难以解释最终形成的具体结构。

当我们试图去了解这些系统内部时,看到的只是由数十亿个数组成的庞大矩阵。这些数字能够完成重要的认知任务,但它们是如何做到这一点的,目前无人知晓。


AI系统的不可解释性,也意味着在许多重要领域无法使用AI,因为我们无法明确设定它们行为的边界,而一旦出现错误,后果可能极其严重

事实上,在某些场景下,模型不可解释甚至在法律上直接阻止了它们的使用。

同样地,AI在科学领域取得了重大进展。

比如对DNA和蛋白质序列的预测能力大幅提高,但这些由AI发现的模式和结构人类往往难以理解,也无法带来生物学上的真正洞见。


机制可解释性,主要是试图找出模型中哪些具体的「神经元」和「回路」在执行某项任务时发挥了作用。

研究者希望借此能够追踪模型的思考过程,从而以「硬件原理」的方式解释它的行为。

许多人认为这种详细的理解对于AI安全来说是无价的;它可以使研究人员精确地设计模型,在所有条件下按预期行为运作,可靠地避免所有风险。

谷歌:感觉被坑了

对机制可解释性的研究,源于研究人员对真理的信仰知识就是力量;命名即了解,了解即控制。

早在谷歌工作期间,Chris Olah尝试以系统化方式研究如何打开这个LLM「黑箱」、理解模型内部运作。


机制可解释性的早期阶段(2014–2020)主要集中在图像模型上,研究者成功识别出了一些与人类可理解概念对应的神经元。

这与早期神经科学的假设类似,例如大脑中存在识别特定人物或概念的神经元,被称为「Jennifer Aniston神经元」。


CLIP模型的最终层部分神经元

Anthropic:矢志不渝AI解释性

Anthropic创办时,联合创始人Chris Olah和Dario Amodei,决定将可解释性方法应用到语言模型


Dario Amodei

很快,他们就在模型中发现了一些基础机制,这些机制对语言理解至关重要,比如复制、序列匹配等。

同时,也找到了类似于图像模型中的、可以表示特定词语或概念的可解释神经元。


但问题的复杂性曾一度阻碍了解释性的研究进展,直到后来他们发现,信号处理领域已有的一种技术——

稀疏自编码器(sparse autoencoders,SAE)可以识别出神经元组合,这些组合能更清晰地表达接近人类理解的概念

相较于单个神经元,这些组合能表达更微妙的概念,比如「字面或隐喻上的犹豫与回避」,或是「表达不满情绪的音乐流派」。

这些组合被称为「特征」(features),并用稀疏自编码器方法映射了各种规模的模型,包括最先进的商用模型。

最近,他们的研究已经从「追踪和操作单个特征」拓展到了「追踪和操作一组特征」,称之为「回路」(circuits)。

借助这些回路,大家可以「追踪」模型的思维路径。

例如,当你问模型「达拉斯所在州的首府是哪座城市?」时,模型内部会启用一个「包含关系」(located within)的回路,使得「达拉斯」这个特征激活「德克萨斯」,接着再通过另一个回路,让「德克萨斯」和「首府」这两个概念共同激活「奥斯汀」。


使用回路追踪方法,Anthropic研究了Claude 3.5 Haiku所使用的内部机制。

谷歌DeepMind:暂缓SAE研究

事实证明,要让SAE稳定有效地工作非常困难

这正是DeepMind最近决定降低SAE优先级的原因之一。

DeepMind研究团队发表了技术博客,详细解释了为什么他们不看好稀疏子编码器的原因。


他们最初的核心动机在于,可解释性研究领域中的许多人,在稀疏自编码器(SAE)上投入了大量精力。

但SAE缺乏「真实」特征的客观参照标准,无法与语言模型中的真实结构进行比对,这很难判断它究竟工作得有多好。

虽然定性分析表明SAE确实捕捉到了某些结构(远非随机噪声所能解释),但局限性同样明显——

当在Neuronpedia中输入任意句子并观察激活的潜在变量时,这些变量往往无法对应清晰的语义解释。


Neuronpedia最初是专为稀疏自编码器(SAE)研究设计的平台,但现已升级为支持广义机制可解释性研究的开放基础设施

在决定是否继续优先发展SAE时,有必要更宏观地思考可解释性研究的评价标准。

传统思路假设模型内部存在某种精确的、人类可理解的「客观真相」,并试图通过逆向工程揭示它。

对SAE而言,这种理想化愿景体现为「希望SAE潜在变量能捕捉模型内部的规范概念集合」。

但现在谷歌清楚地认识到SAE存在众多问题:

现状评估:现有SAE技术距离这一目标相去甚远

哲学质疑:模型内部是否真的存在这种「真实概念」尚属未知

技术瓶颈:即使存在真实概念,SAE也存在多重固有缺陷:概念覆盖不全(missing concepts)、噪声表征问题(如微小激活量缺乏可解释性)、特征扭曲现象(如特征吸收等异常变形)、高假阴性率(看似可解释的潜在变量存在大量漏检)

研究团队精心设计并完成了探测实验,从中得到的关键新发现是:

当前的稀疏自编码器(SAE)不能识别出在某些关键任务中所需的「概念」;而线性探测器(linear probe)却能找到一个有用的方向。

这可能有多种解释,但无论是哪种情况,这都表明,SAE可能并不是在实际任务中所需要的合适工具

虽然任何一个单独的负面结果都不构成强有力的结论,但如果SAE真的是可解释性研究的一大突破,那应该不至于难以找到能够明显优于基线方法的应用场景。

DeepMind相关研究团队认为:在短期内,SAE以及基于SAE的技术不太可能带来革命性突破,甚至有可能永远无法成为真正的转折点。

十年研究,一地鸡毛

机制可解释性这个目标可能过于理想化。

在过去十多年里,各大公司和研究机构投入了大量人才和数百万美元,推进多个可解释性研究项目。

虽然这些研究常常带来短暂的兴奋和关注,但至今没有哪项成果真正经受住了时间的考验。

特征可视化

在2015年,Mordvintsev等人年提出特征可视化,发现哪些特征激活单个神经元来理解图像分类器的工作原理。

然而,对该技术的可靠性和实用性仍存疑虑。

神经元常常对多个不相关的特征产生反应,难以对其角色给出简洁的解释。


显著性图

显著性图生成了令人信服的图像,从人类视角看似乎突出了图像中最重要的部分。

但2020年的研究表明显著性图并未捕捉到训练模型所学内容或其关注的重点。


论文链接:https://arxiv.org/abs/1810.03292


引导反向传播是一种显著性图技术,对随机模型和实际训练模型提供相似的解释,表明它并未真正解释任何内容。

BERT可解释性错觉

语言模型的解释技术也存在类似的缺陷。

在2021年,研究人员描述了寻找能最大程度激活BERT模型中单个目标神经元的句子,最初发现了一个令人信服的模式。但当使用不同的数据集时,该模式消失,同一神经元对完全不同类型的句子反应最强烈。


论文链接:https://arxiv.org/abs/2104.07143

Chinchilla回路分析

在2023年,DeepMind的一篇论文中将可解释性方法应用于700亿参数的Chinchilla模型,结果喜忧参半。


论文链接:https://arxiv.org/abs/2307.09458

尽管作者发现了一组似乎与特定任务相关的神经元,但这一过程耗时数月,令人质疑以这种方式理解大型模型的实用性。

此外,当任务格式稍有变化时,识别节点的性能下降,表明它们仅提供了部分解释,模型的其他部分也必须参与其中。

迷途知返

这种「自下而上」「从局部到整体」的机制解释性研究,或许从根本上就错了?

毕竟,核磁共振(MRI)可以探测大脑中的血流,揭示哪些区域与某些想法或任务有关,但它无法逐个神经元地追踪人的思想。

非营利机构AI Frontiers的Dan Hendrycks(下图男士)和Laura Hiscott(下图女士),认为AI可解释性研究应当从更高层次的特征入手。


研究人员应该借鉴其他复杂系统的方法,就像气象学家、生物学家和心理学家往往先研究其对象的高层特征一样,

我们也应该采取「自上而下」的方式来推动AI的可解释性研究,而不是从底层机制出发的「自下而上」方法。

2001年,Leo Breiman发表了一篇开创性但当时极具争议的论文,主张复杂而不透明的机器学习系统远比整洁的统计公式更强大。


从这个角度看,机制可解释性可能更像是一种吸引「理性审美」的研究方向,而不是一个具有广阔前景的实用领域。

而执着于机制可解释性,或许在希望深度学习系统变成本质上「面目全非」的样子。

参考资料:

https://www.ai-frontiers.org/articles/the-misguided-quest-for-mechanistic-ai-interpretability

https://www.darioamodei.com/post/the-urgency-of-interpretability

https://www.alignmentforum.org/posts/4uXCAJNuPKtKBsi28/sae-progress-update-2-draft

ad1 webp
ad2 webp
ad1 webp
ad2 webp