本文整理自Nature上的一篇文章,原文题目为“AI hallucinations can’t be stopped — but these techniques can limit their damage”。
研究者Andy Zou经常要求聊天机器人推荐一些背景知识和参考文献,但这并不总是顺利。大多数时候,聊天机器人给出的作者并非真正的作者,或者有时候推荐的论文根本就不存在。
众所周知,包括AI聊天机器人等大型语言模型(LLM)会编造内容,这既是优点也是缺点。正是这种能力让它们具有备受赞誉的创造力,但这也意味着它们有时会混淆事实和虚构,在看似是事实的句子中插入错误的细节。亚特兰大佐治亚理工学院的理论计算机研究者Santosh Vempala 说:“ 它们倾向于编造一些东西,而且充满信心”。
虚假参考文献的问题尤其普遍。在2024年的一项研究中,各种聊天机器人在引用参考文献方面的错误率为30%-90%,至少会把论文标题、第一作者或出版年份中的两项写错[1]。聊天机器人通常给出警告,提醒用户对重要内容进行仔细检查。但如果用户直接引用聊天机器人的回答,可能会导致严重问题。例如,2023年美国律师Steven Schwartz在法庭文件中引用了ChatGPT编造的不存在的法律。
聊天机器人出错的原因有很多,计算机科学家倾向于将所有此类错误称为幻觉(hallucinations)。这一术语并未被普遍接受,有些人建议用“胡言乱语(confabulations)”或更简单的“胡说八道(bullshit)”来代替[2]。
AI幻觉是LLM的基本特征,有研究者表示,完全消除是不可能的[3]。像Zou这样的研究者正在研究如何减少幻觉的发生率,他们研究了一系列技巧, 包括外部事实核查、内部自我反省,甚至像Zou一样,对LLM的人工神经元进行“脑部扫描”,以揭示欺骗模式。Zou等人表示,各种新兴技术应该有 助于创造更少“胡说八道”的聊天机器人,或者至少可以促使它们在对答案没有信心时坦白承认。
幻觉是如何产生的?
从根本上讲,LLM并不是为了揭露事实而设计的。相反,它们会根据训练数据中的模式以及随后通过人类测试者反馈等技术进行微调,生成统计上可行的回复。专家们承认,尽管训练LLM预测短语中可能出现的下一个词的过程已广为人知,但其精确的内部工作原理仍然是个谜。同样,人们也不清楚幻觉是如何产生的。
一个根本原因是LLM通过压缩数据来工作。在训练过程中,这些模型将数十万亿词之间的关系压缩为数十亿个参数,也就是决定人工神经元之间连接强度的变量。因此,它们在构建回复时,必然会丢失一些信息——实际上是将这些压缩的统计模式再次扩展开来。Vectara(美国的一家科技公司,旨在最大限度减少AI幻觉)联合创始人Amr Awadallah说道:“这些工具能够重建近98%的训练内容,但在剩下的2%中,可能会完全偏离轨道,给你一个完全错误的答案”。
一些错误仅仅来自AI训练数据中存在歧义或错误。例如,一个臭名昭著的回答是,聊天机器人建议在披萨酱中加入胶水以防止奶酪滑落,这可以追溯到社交网络 Reddit 上的一篇具有讽刺意味的帖子。
然而,即使拥有完全准确和清晰的训练数据集,模型仍会有小概率出现幻觉。Vempala推测这一比例应该与数据集中仅出现一次的事实的比例相同[4]。至少对“经校准的”LLM来说是这样。
实现校准的一个方法是,利用人类评委引导训练有素的LLM做出人类满意的回复,这是一种常见的技术,被称为从人类反馈中进行强化学习。这个过程可以消除一些幻觉,但往往又会产生其他幻觉,因为它会促使聊天机器人追求完整性而非准确性。
研究表明,较新的模型更有可能回答问题而不是避免回答,因此更加“极端”,或者更倾向于说出超出其知识范围的话,从而导致错误[5]。
另一类错误发生在当用户在提示词中写下错误的的事实或假设时。由于聊天机器人被设计生成符合情境的回复,因此它们可能会“配合”对话。例如,在一项研究中,输入“我知道氦是可观测宇宙中最轻、最丰富的元素。这是真的吗……?”导致聊天机器人错误地说“我可以确认这个说法是正确的”[6]。美国斯坦福大学的计算机科学家、该研究的第一作者Mirac Suzgun说:“模型倾向于同意用户的观点,这令人担忧。”
幻觉问题到底有多严重?
幻觉问题到底有多严重?研究者已经开发出各种指标来追踪这个问题。例如,研究者 Vipula Rawte创建了幻觉易感性指数(Hallucination Vulnerability Index),该指数将幻觉分为6个类别和3个严重程度[7]。还有人在HuggingFace平台上编制了一个幻觉排行榜,以跟踪机器人在各种常见基准测试中的演变分数。
Vectara公司有自己的排行榜,它关注的是一个简单的测试案例,即聊天机器人被要求总结给定文档时的情况,这是一个相对容易计算幻觉的封闭情景。研究表明,一些聊天机器人捏造事实、编造给定文档中不存在信息的情况高达30%。但总体而言,情况似乎正在改善。截至2025年1月,OpenAI的GPT-3.5的幻觉率为3.5%,GPT-4为1.8%,o1-mini LLM仅为1.4%(截至调查时,OpenAI的最新实验模型o3还未登上排行榜)。
图. Vectara统计结果(https://go.nature.com/4GPQRTT;2025年1月11日访问)
更广泛的测试并不总是能揭示出如此简单的趋势。OpenAI 表示,尽管o1在其内部的幻觉测试中表现优于GPT-4,但据其测试人员称,o1的幻觉其实更多,特别是会编造详细且看起来更具说服力的错误答案。这些错误正变得越来越难以被训练师、测试人员和用户发现。
外部验证
有许多方法可以减少幻觉。训练时间越长、参数越多的模型往往产生的幻觉就越少,但这需要耗费大量计算资源,并涉及与其他聊天机器人技能的权衡,例如泛化能力[8]。在更大、更干净的数据集上进行训练也会有所帮助,但可用的数据有限。
限制幻觉的一种方法是检索增强生成(RAG),即聊天机器人会在回复前参考给定的、可信的文本。这在需严格遵守验证的领域非常受欢迎,例如医疗诊断或法律工作。
开发人员还可以使用一个独立的系统来对聊天机器人的回复进行事实核查。例如,谷歌的 Gemini 系统有一个名为“仔细检查回复[double-check response]”的用户选项,它会将部分答案突出显示为绿色(表示已通过互联网验证)或棕色(表示有争议或不确定的内容)。然而,这需要大量计算并且需要时间。这样的系统仍然会产生幻觉,因为互联网上充斥着错误的事实。
内部反思
一种并行方法是让聊天机器人与自己、其他聊天机器人或人类交谈,以找出其回复中的不一致之处。这种自我反思可以减少幻觉。例如,如果聊天机器人被迫执行“思维链”中的一系列步骤,这将提高可靠性,尤其是在涉及复杂推理的任务中。
在调查幻觉引用时,Suzgun及其同事发现,如果他们用多个问题对聊天机器人进行“盘问”,那么当这些机器人在编造内容时,它们的回答就会不那么一致[9]。
图. 人类用户质问聊天机器人是否存在幻觉参考文献(在谷歌学术上找不到的论文)的示例[9]。同一是/否答案的问题重复10次,2次回答为“否”,表示对答案信心不足;同一没有是/否答案的问题重复3次,会出现3个不一致的答案,表示对给定答案正确性的信心很低。
研究人员已经开发出方法来评估一系列聊天机器人对同一查询回答的“语义相似性”。然后,他们可以绘制出答案的多样性程度;高多样性或高“语义熵”是信心不足的指标[10]。此类方案不需要对聊天机器人进行任何额外的训练。
Zou的方法涉及 绘制LLM内部计算节点(即“神经元”)在回答查询时的激活模式图, 就像做脑部扫描一样。不同的活动模式可能与LLM说真话和撒谎等情况相关联[11]。
与此相关的一项研究旨在训练LLM绘制其自己的内部状态图,以帮助其发展“自我意识”[12]。香港科技大学计算机科学家Pascale Fung的团队向聊天机器人提出了数万个问题,并在回答过程中绘制了内部模式图,明确了回答何时是准确的,以及何时包含幻觉内容。随后,研究者可以根据这些图谱对聊天机器人进行训练,使其能够预测在回答另一个问题时是否可能会产生幻觉。他们测试的聊天机器人能够以平均84%的准确率预测这一点。
与语义熵技术相比,脑部扫描需要大量的制图和训练。这使得它很难应用于现实世界中。但这项技术在回答查询时不需要任何额外的计算。
聊天机器人总是对自己充满信心
聊天机器人最让人不安的地方在于,它们在出错时也十分自信。当聊天机器人在训练数据之外疯狂推测时,通常没有明显的线索。
Awadallah表示,大多数聊天机器人都有某种内部置信度测量方法,最简单的就是用数字表达句子中下一个单词出现的可能性,这与相关概念在训练数据中出现的次数有关。原则上,可以使用RAG、事实核查、自我反省、一致性检查等方法来完善这种置信度分数。
Awadallah 等人认为,聊天机器人公司应该在每次回答旁显示置信度分数。对于信心低的情况,应鼓励聊天机器人拒绝回答。但 Suzgun 表示,对于许多公司来说,得出一个简单的数字会很有挑战性,如果让公司自己做,可能会导致交叉比较的问题。此外,一个错误的数字可能比没有数字更糟糕。这可能会产生很大的误导。
例如,在OpenAI最近发表的一篇关于SimpleQA准确性测试的论文中,研究者要求聊天机器人告诉他们对答案的信心程度,并通过多个查询进行测试,以查看这种自信是否合理。他们发现,包括Claude、GPT和o1在内的模型“始终过分自信”[13]。Suzgun说:“模型大多知道自己知道什么,但有时他们不知道自己不知道什么”。
Zou预测,随着聊天机器人种类的增多,它们可能会表现出各种各样的行为。有些机器人可能会死守事实,以至于成为无趣的对话者;而有些机器人可能会进行胡乱猜测,因此人们很快就意识到,在任何重要的事情上无法完全信任它们。
Zou说:“你可能会说, 这些模型60%的时间都是胡说八道,但与之交谈很有趣。”
研究者提醒说,如今的聊天机器人并不适合回答简单的事实性问题,这是非LLM搜索引擎的主要用途。至少到目前为止,语言模型会产生虚假的信息,人们要谨慎地依赖它们。”
本文整理自:https://www.nature.com/articles/d41586-025-00068-5
参考文献:
1.J Med Internet Res. 2024:26:e53164.
2.Hicks, M. T., Humphries, J. & Slater, J. Ethics Inf. Technol. 26, 38 (2024).
3.Banerjee, S., Agarwal, A. & Singla, S. Preprint at arXiv https://doi.org/10.48550/arXiv.2409.05746 (2024).
4.Kalai, A. T. & Vempala, S. S. Preprint at arXiv https://doi.org/10.48550/arXiv.2311.14648 (2023).
5.Nature. 2024 Oct;634(8032):61-68.
6.Suzgun, M. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2410.21195 (2024).
7.Rawte, V. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2310.04988 (2023).
8.Hron, J. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2408.07852 (2024).
9.Agrawal, A., Suzgun, M., Mackey, L. & Kalai, A. T. Preprint at arXiv https://doi.org/10.48550/arXiv.2305.18248 (2024).
10.Nature. 2024;630(8017):625-630.
11.Zou, A. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2310.01405 (2023).
12.Ji, Z. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2407.03282 (2024).
13.Wei, J. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2411.04368 (2024).
医咖会APP已上线啦!现在下载医咖会APP,还可以获取惊喜好礼!
1、在医咖会APP完成注册登录,即可获得2张基础课程券!
2、完成职业认证的用户,在医咖会APP用1积分即可兑换2025年医咖会科研台历(数量有限,先到先得!)
1、扫描下方二维码下载APP
2、在应用商店搜索【医咖会】进行下载