AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
刚刚过去的春节,DeepSeek-R1 推理大模型引爆了国内外 AI 社区,并火出了圈。最近,各个行业又掀起了接入 DeepSeek 的狂潮,大家唯恐落后于人。
北大 AI 对齐团队对包括 DeepSeek-R1、Kimi-K1.5在内的一些强推理模型进行了 2 万字的技术解读,也是此前 o1 解读(北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式)的续作。
视频链接:
https://mp.weixin.qq.com/s/W7X5_9uVTstInev3-UjExg
以下为完整的文字解读稿(以第一人称我们陈述):
下图是我们这次讨论的一个目录,涵盖了包括 DeepSeek-R1、Kimi K1.5 的具体的技术分析和讲解。同时也包括对其背后的社会和经济效益以及一些 insights 和 takeaways 的分析。
具体地来说,我们会进行相应的技术细节的讨论:比如说基于 STaR 的方法和基于强化学习的方法进行强推理模型复现的区分和产生的效果的不同。这里面就包括了 DeepSeek-R1、Kimi K1.5 和 o 系列的模型。我们也会分析蒸馏和强化学习驱动下不同的强推理路径复现的区别,同时也会探讨 PRM 和 MCTS,也就是蒙特卡洛树搜索在整个强推理模型构建过程中的作用。其次我们也会探讨一些从文本模态到多模态的实践。最后我们会对未来的方向进行一个分析和探讨,包括模态穿透、探索合成数据以及强推理下的安全。我们也会补充拓展 DeepSeek-v3 的解读。
DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界
近期后训练阶段开始成为语言模型中在完整训练过程中非常关键的一环,包括提升推理能力和社会价值对齐方面起到了非常重要的作用。自从 OpenAI o1 开启后训练强化学习新范式后,社区研究 Inference Time Scaling 通过增强 CoT 的长度提升推理能力的热情也是在逐渐增高。其中一个关键的问题就是如何通过有效的测试阶段的时间的扩展来提升它的推理能力。
近期 DeepSeek R1 的开源,也是再次让我们看到了强化学习的潜力。得益于纯大规模强化学习 DeepSeek-R1 Zero 和 DeepSeek-R1 的出现其实大大提升了推理能力和长文本的思考能力,其中 R1 Zero 是完全从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调。在训练过程中随着训练步骤的增加,模型也是逐渐展现出长文本推理以及长链修复的能力。随着推理路径的逐步增长,模型来表现出自我反思的能力,能够发现并修复之前的错误。
得益于强大的推理能力和长文本思考能力,DeepSeek R1 在开源以来就备受关注,其中它在著名的数学代码任务榜单上也是获得了非常突出的表现。比如在 AIME2024 上取得了 79.8% 的成绩,也是超过了 OpenAI o1。其中也在编码的任务上表现出了专家水平。与此同时,DeepSeek R1 在知识类问答的任务上推动了科学探索的边界,在无论 MMLU 还是 GPQA 等一些基于科学问答和理工类的榜单上都是取得了比较好的表现。更令人惊艳的是 R1 在一些长文本依赖的任务上比如 FRAMEs 和一些事实性推断任务上也是表现突出,其实也展现出来了强推理模型在 AI 驱动的一些 research 的潜力。
那么我们首先回顾一下预训练阶段的扩展律。其实也就是在预训练模型上,计算量数据和参数量成一个类似于正比的关系,也就是算力等于 6 倍的参数量乘上数据量。因此在大模型时代发展的初期,囤卡提升预训练的算力和模型参数变成了主要目标。
随着 OpenAI o1 的发布,也证明了在强化学习加持下后训练时代一个新的扩展律:随着模型在后训练阶段的训练时计算量和测试时计算量的提升,模型的性能特别是数学代码能力也会随之提升。那么在后训练扩展律下语言模型的训练时计算量多了一个新的变量,也就是在探索时语言模型推理产生的计算量。
为什么我们需要后训练扩展律?其实早在 2022 年就有启发的认知,主要是出于两个原因:第一个是随着模型尺寸的逐渐增大,预训练阶段参数的扩展带来的边际收益开始逐步递减,如果想要深度提升模型的推理能力和长程问题的能力,基于强化学习的后训练将会成为下一个突破点;第二个也就是自回归模型在传统的像数学推理问题上很难进步,其中的关键一点就是没有办法进行回答的自主修正,那如果仅是依靠生成的方法和扩大参数的规模在数学和推理任务上带来的收益不会很大。所以我们迫切地需要额外的 Scaling Law 也是额外的扩展律。
DeepSeek-R1 Zero 及 R1 技术剖析
业界其实近期有很多复现 o1 的操作,例如基于蒸馏或者强化学习的方法或者是从 MCTS 也就是蒙特卡洛树搜索和奖励模型的设计角度出发。通过搜索的方式显式的去帮助语言模型进行推理阶段计算量的提升,也有很多不错的尝试。但是大多数都是在特定任务上,例如数学或者代码的提升。
DeepSeek R1 Zero 的发布也是让我们看到了强化学习的潜力,特别是它跳过了经典后训练阶段中的监督微调,直接运用大规模强化学习就实现了推理能力的大幅提升,在数学代码等问题上显著飞跃。并且在强化学习训练过程中自然涌现长文本推理能力,这其中的关键操作核心在于一个是基于规则的奖励 Rule-based Reward 和以推理为中心的大规模强化学习。接下来我们也进行逐步的拆解。
在 DeepSeek R1 Zero 的奖励建模中采用了基于规则的奖励,也就是基于一定的规则可以直接利用程序进行判断正误的奖励信号。
具体来说 DeepSeek R1 Zero 设计了两种奖励:一种是准确率奖励,即对于推理任务是否根据最后答案的正确率直接来判断这个任务是否成功完成;第二种是格式奖励也就是显式的去规劝模型的输出过程中必须包含思考的过程,利用一个 thinking token 将思考的过程圈起来。需要注意的是这部分奖励建模并没有采用先前我们经常讨论的比如说过程奖励模型 PRM 甚至没有采用奖励模型。这里边的主要考量是基于神经网络的奖励模型都有可能遭受奖励攻陷的问题,一旦发生奖励攻陷模型就可能陷入局部最优解,而重新训练奖励模型需要大量的计算资源可能会复杂化整个流程。
而第二个在强化学习的训练模板选择上,DeepSeek R1 Zero 采用了最简单的思考过程,而没有去在 system prompt 中加入过多的去诱导模型产生特定的思考范式,比如说去产生反思等范式。这一期望是可以希望能够直接观察到在 RL 过程中最本质的表现。
DeepSeek R1 Zero 更为关键的是以推理为中心的大规模强化学习。具体来说在传统的 RLHF 算法上 DeepSeek 进行了一些算法的细节优化,采用了像组相对策略优化也是 GRPO,这部分我们也会后续讲解技术细节。同时它只瞄准了推理方面的专项任务。通过大规模的强化学习模型已经呈现出了自我迭代提升的趋势,也就是随着训练步数的增加模型的思考长度会逐渐增长,这也对应着模型在测试阶段的计算量的增长,也就是推理时长的提升。
与此同时模型也在中途训练过程中涌现了 'Aha' moment,学会用 wait 等停顿词,自然的去增加更多的推理时间,并且反思和评价先前的步骤并主动去探索其他的方法路径。
DeepSeek 的成功也为我们带来了一些关键的启示:例如在传统的大语言模型训练中监督微调通常被认为是不可或缺的一环,其逻辑是先用大量人工标注的数据来让模型初步掌握某种能力或回答范式,再利用强化学习进一步优化模型的性能。
然而 DeepSeek 却打破了这一传统,他们选择直接将 RL 应用于基础模型,而没有经过任何形式的 SFT 训练。这种纯强化学习的方法之所以如此引人注目,是很大程度上因为它抛弃了对于大规模人工标注数据的依赖。众所周知 SFT 是非常需要消耗大量的人力物力来构建和维护高质量的训练数据集,而 DeepSeek 的团队这种做法可以直接让模型在强化学习的环境中进行自我探索,通过与环境的互动,自主的去发现和学习解决复杂问题的能力,就好比一个初学者在没有老师的指导下通过不断的尝试和错误,来掌握一门新的技能。这种自主学习的方式,不仅节省了大量的标注成本,更重要的是它能让模型更加自由地探索解决问题的路径,而不是被预先设定的模式所束缚,这也使得模型最终具备了更加强大的泛化能力和适应能力。
而之所以能够跳过监督微调阶段直接运用纯强化学习拓展推理能力的边界,其实也得益于以下几个关键之处。
首先是要有足够强的基座模型,DeepSeek R1 Zero 系列的模型是在 DeepSeek v3 的 671B 的基座模型上进行了训练,它的基座模型是超过了某个质量和能力的阈值的,它在 14.8T 的高质量 Tokens 上进行训练,其实基座模型在预训练阶段积累的海量知识,是可以帮助模型在强化学习加持后突破推理上界。这是因为在预训练阶段积累的知识和思维方式是相对更高阶的,就像人类大师和新手都可以通过自博弈来提升自己的能力,但是由于人类大师的先验见过的东西更多,所以潜力更大。近期也有一些利用小模型复现 'Aha'moment 的工作,这得益于高质量的推理数据和大规模的强化学习,但若是要进一步去提升推理能力的边界,足够强的基座模型是必不可少的。
其次是大规模强化学习的加持,即通过 GRPO 对于训练过程进行优化。
最后是奖励规则化奖励,通过绕过奖励攻陷模型,规则化奖励能够直接基于固定的规则进行奖励判定,但规则化奖励能够成功的前提也很大程度上得益于关注的推理任务是可以进行自动化标注和验证的,这是和一般的聊天与写作任务相不同的。
在这里我们举一个自动化标记和验证的例子,例如对于一个推理问题,我们希望模型可以编写一个 Python 代码,那么自动化验证的方法,就可以分为这么几步:第一步是利用软件去检查代码补全,比如说判断它是否是完整的代码;第二步是执行 Python 代码,来检查运行情况,查看它是否是可运行的;第三是我们可以调用外部模块,来构建额外的检测单元;第四甚至我们可以更进一步的,为了去约束模型进行有效的推理,我们可以测量程序的执行时间,从而使训练过程首选性能更高的解决方案。而以上的奖励信号都是可以作为小批量训练和连续训练过程中的奖励信号的。
这里有个示意图也就是根据不同的规则,进行形式化的验证和判定,最后解的分数就会转化成强化学习训练过程中的奖励信号进行反传。
但是 DeepSeek-R1 Zero也有对应的问题,比如说长推理过程可读性差,语言混合帮助性低。那么我们能否在 zero 的基础上,在兼顾推理性能的同时,提升模型的帮助性和安全性的。例如能不能产生一些比较清晰且直接的推理过程,并且能够泛化到通用能力任务上的模型。例如 R1;以及我们能否利用一些高质量的反思数据去做冷启动,从而加速强化学习的收敛或者帮助提升推理表现。那么围绕这两个研究问题,应运而生了 DeepSeek R1 这个模型。
总的来说 DeepSeek R1 的技术 pipeline 可以被总结为这么一套范式。首先第一基于 DeepSeek v3-base 产生了 DeepSeek R1 Zero 这个模型,第一阶段是我们希望先增强 R1 zero 的推理链的可读性,在这一阶段我们会利用一些冷启动的数据,这些数据里边可能是包含了人类专家和模型所撰写的高质量的语言,符合语言格式的这样一些反思数据。然后我们再以推理为中心的强化学习去进一步的去进行微调,从而获得一个相对推理链可读性更强的一个中间模型;那么更进一步我们采用传统 RLHF 中的一些技术,比如说通过拒绝采样和全领域的监督微调以及在全领域的任务上进行强化学习的训练,比如对于推理任务我们可以使用规则奖励,而对于一些通用比如说聊天任务我们进行偏好建模,从而来在第二阶段去提升模型的通用能力和安全性,最终获得了 DeepSeek R1 这样一个模型。
接下来我们进行具体的讲解,首先是第一阶段,我们如何去提升模型的推理链的可读性,在这个环节我们分为两个阶段:第一个是冷启动,第二是以推理为中心的强化学习。在冷启动阶段其实我们准备的数据是一些高质量的更长思维链的带反思和验证的数据集,这部分数据集它其实是由人类的注释者和 R1 Zero 产生了一个高质量链式思考,它的成效其实是说引入一些人类的先验,同时去提升它推理链的语义连贯性和可读性,然后并且让模型获得一个最基本的能力。
第二阶段就是和 DeepSeek R1 Zero 构建的过程相一致的,用以推理为中心的强化学习通过增强大规模的训练过程来进一步提升冷启动后的模型的推理问题的的推理能力。与此同时,除了传统的格式奖励之外,在这里还引入了语言一致性的奖励。因为在 DeepSeek-R1 Zero 中我们观察到了比如说思维链中可能会混合带有不同语言的现象,通过引入通过计算思维链过程中目标语言的占比作为一个语言一致性奖励,从而可以衡量长推理链的可读性。第二个奖励信号也就是推理正确率的奖励,通过 GRPO 模型也是能够在 AIME 这些数学基准上 Pass@1 的正确率就有一个非常大的飞跃的提升。
与此同时,模型也能够自发地去延长推理链条,展现出更强的逻辑连贯性,获得了一个推理可推理链可读性更强并且有基本推理能力的模型之后,我们在后续再采用传统的 RLHF 中的像监督微调、拒绝采样以及全领域的强化学习来帮助模型去获得一个通用能力和安全性。在监督微调中和之前冷启动的数据是不同,这部分的监督微调主要还是负责全领域的任务,它除了包括一些推理任务的数据之外,还有一些比如说像角色扮演通用任务。这个成效是在使模型在推理能力不减的前提下,语言表现更为自然,适应性更为广泛。在经过全领域的 RL,其实可以进一步提升除了推理能力之外的帮助性和安全性。对于帮性安全性,其实我们就用传统的奖励模型来建模人类的偏好和意图就可以了。最终版本的 R1,其实不仅是在推理和对话任务上达到了高水平,还更具备更安全的交互性能。
在这一部分我们先总结一下 DeepSeek-R1 的一些技术亮点和 takeaways。首先社区对于强推理模型的复现都涉及一些蒸馏和搜索,而 DeepSeek R1 Zero 它是跳过了监督微调阶段。这得益于以下几个点:第一是需要足够强的基座模型来帮助它去突破一个质量和能力阈值的上限,第二是需要大规模强化学习的加持,第三是规则化奖励,但规则化奖励是得益于一些推理问题,它可以进行自动化的标记和验证。通过强化学习在实验过程中其实观察到了训练步数的增长模型的思考过程的长度是逐步增长的,这一增长其实也代表着在 test time 也就是测试任务阶段的一个算力的提升。DeepSeek R1 Zero 也是自主涌现了一个学会评测原来的方法反思和主动探索,其他路径的这样一个能力。
与此同时,多阶段训练下的冷启动,其实也让强化学习的训练更加稳定,从而避免了强化学习初期不稳定,加速收敛并且提升思维链可读性的这样一个能力。那么未来其实后训练的中心,它会逐步倾向于用强化学习,但是少量的数据去用于监督微调还是必须的。与此同时强化学习的一个非常大的魅力就是说它不只局限于基于规则的数学和算法代码等容易提供奖励的领域,它还可以创造性的把这个推理能力泛化到其他领域,甚至是从文本模态泛化到多模态。DeepSeek R1 Zero 和 DeepSeek R1 它其实背后有一些非常深的技术。我们在这里进行逐步地剖析。
首先第一个是它背后的教师模型 DeepSeek-v3 它其实能够在 14.8T 的高质量 tokens 上进行训练,其实类似于提供了一个 System I 一个足够好的直觉也就是 prior distribution,其实方便后续的 RL 过程的进一步的探索和挖掘。与此同时 DeepSeek-v3 的低成本,其实也是带来的惊艳效果也是让社区非常震惊的,比如说基于 MoE 的架构,其实用 2048 张 H100 就可以 54 天就可以进行一场训练。在 PPT 讲解的最后,我们也是会对 DeepSeek-v3 的具体的架构创新点,还有它采用的一些技术上的优化,进行一个简单的讲解。
第二个值得关注的也就是在 DeepSeek R1 中所揭示的 RL 加持下的一个长度泛化和推理方式的涌现,在大规模强化学习的加持下 DeepSeek R1 Zero 其实表现出在推理任务上思维链长度的自然增长和涌现。
具体来说,随着反思深度的逐层加深出现了它可以标记不明确的步骤,保持中间结论验证和混合语言推理等现象。与此同时,虽然我们传统说模型仅通过准确率奖励和格式奖励就是不足够的,或者说它的奖励信号可能是不够不充足的。但是在 R1 的实验中发现,即使是通过这么稀疏的奖励信号模型也是能够自然探索到一个验证、回溯总结和反思的行为方式的。这里面背后就有一个问题,也就是如何控制来保证最后的回答的长度能够稳定上升。那这其实是一个非常关键的问题,因为模型可能会出现反复重复验证或者验证时间过晚的情况。最近社区也有一些复现的结果,包括我们自己团队也在复现,其实我们发现除了 GRPO 以外,像 REINFORCE 系列的算法以及 PPO 等,都是可以出现类似的结果的。REINFORCE 系列的算法,它是更快更好的,PPO 它训练相对更加稳定,但是会更慢一点。
第二点就是我们涌现的推理范式,它其实会展现出多语言混合的思维链。其实它背后的一个原因可能是在预训练数据过程中它是多语言的,不同语言的数据它其实是被一视同仁的被 Tokenization ,那么其实背后一个问题就是不同领域的不同语言编码是否可能会有不同的优势。比如说其实我们人类在进行讲解和思考过程中,很有可能也是进行比如中英文混杂的思考的,那些模型内部是不是也有类似不同于人类思考范式的这样一种语言推理的能力,其实对于后续揭示一些推理链的可解释性是非常重要的。
在这里我们具体讲解GRPO 是如何赋能强化学习的扩展的。GRPO 的核心思想是通过构建多个模型输出的群组,也就是对于同一个问题去产生可能是 N 个回答,计算群组内的相对奖励来估计基线相对奖励。它主要去解决一个问题,就是在传统的策略优化算法比如 PPO 中通常是需要一个与策略模型大小相同的一个 Critic Model 来估算它的 value,那我们把 value model 去掉其实能够提升它整个训练的稳定性和降低算力的消耗。与此同时,其实我们 GRPO 还可以引入一些额外的优化策略,从而去提升训练稳定性。
我们进一步讲解一下如何从 PPO 推导到 GRPO,其中 PPO 它作为 Actor-Critic 的算法,也是被广泛应用于后训练,它核心目标也就是优化下面这个奖励函数。为了避免模型的过度优化,我们通常会在每个词源的后边加上一个与 Reference Model 也就是参考模型的一个 KL 惩罚项。
PPO 的奖励函数通常是与策略模型规模相当的独立模型,就是 Critic model,这会带来非常大的一个内存和计算的增加。与此同时第二个问题就是奖励模型,通常它要对输出序列的最后一个词源,去分配奖励,导致它逐 Token 的价值函数的训练是会不断复杂化的。
GRPO 其实如右下图所示, GRPO 中是省略了 value model 的过程,比如说我们不用去估算我们可以直接利用一个组利用多个 output 去计算 reward,然后利用这个 reward 在组内进行一个相对值的估计来获得一组优势值,我们相应的优化的策略就变成了对于整个优势值,包括原来 PPO 的目标函数改变过来直接进行优化。包括 KL 散度的惩罚项,它不会直接加到奖励里边,而是直接加到策略函数优化的目标函数里边,这也是简化了整个 At 的过程的计算。它和奖励模型的对比性质其实是天然契合的,因为奖励模型本身也是基于同一个问题的输出进行一个 preference 的比较训练;GRPO 是在计算组内优势值的时候进行一个相对值的计算,其实它能够提升组内好回答的比例,降低组内坏回答的比例,其实天然是具有相对优势的。
GRPO 它其实分为两种:第一个是基于结果的,第二是基于过程的。对于基于结果的形式,对于每个问题可以采用一系列的输出奖励模型去为这一系列的输出去生成奖励,那么随后去通过进行一个 normalization,也就是进行归一化,然后把归一化后的奖励去分配给每个输出的末尾的 token,然后去设为对应的 reward 就可以了。其实它的表达式就是这样的,相当于传统的优势值计算是非常简化的。进一步其实也可以把 GRPO 扩展到基于过程的监督下,因为是结果监督,它是仅提供输出末尾的奖励,对于复杂数学任务的策略指导是不足的。进一步我们可以对于一个问题去采样多个输出,我们利用过程奖励模型去为每个步骤去生成奖励,比如生成一系列的奖励的信号规一化之后,优势值为最后奖励信号一个逐步的累加和,其实它作为一个过程监督的算法也是非常方便的。
这是对 DeepSeek-R1 的 Takeaways 的第二部分总结,R1-Zero 它其实节省了大量的标注成本,那么使模型获得了更加自由探索解决问题的路径,它不会被预先设定的模式所束缚。为了充分的去释放强化学习的潜力,同时去解决像 R1-Zero 中出现的语言混杂以及训练不稳定等等特性,DeepSeek R1 的训练中采用了四阶段交替训练的过程,那是从监督微调到强化学习再到再次的监督微调以及强化学习,从而通过冷启动来解决了一些收敛效率的问题。
DeepSeek R1 也是自主涌现了像自验证,反思和长链推理能力,比如自验证它会一个模型在生成最终答案之前会主动的验证自己的中间推理步骤是不是正确的,就像是一个学生在做题的过程中会反复检查自己的解题过程来确保答案的准确性;反思是指模型会回溯检查自己之前的推理过程并根据检查的结果进行修正,相当于一个学生在复习的时候会反思自己之前的错误,以便下次不再犯同样的错误;而长链推理能力则是让模型能够处理复杂,更需要多步骤思考的问题,这种能力对于解决一些需要跨越多个逻辑步骤,才能找到答案的问题至关重要,也有复杂的数学题或者逻辑谜题。冷启动也能够让强化学习的训练更加稳定,比如加强它的收敛性,以及提高模型输出的可读性。
我们展现出了几个比较关键的技术,比如说推理为中心的强化学习训练,其中就是语言一致性奖励以及多目标优化。还有 GRPO 也就是基于群组的相对策略优化,这样一个非常关键的技术。在奖励机制的设计上其实也是比较重要的,因为既要兼顾一个推理能力,也就是通过准确率奖励和格式奖励来去进行限制,那也要引入一个语言一致性奖励,从而惩罚在推理过程中使用多种语言输出的这么一个现象,从而去鼓励模型尽可能去使用一种目标语言进行推理来保证模型输出的语言风格的一致性。
DeepSeek R1 其实也带来了很强的社会和经济效益,背后其实是一个低成本和高质量语言模型边界的探索,我们其实整个大语言模型发展过程,它的扩展律最初是模型的规模、然后是数据集的规模,现在是推理时的计算资源和合成数据。这就意味着 DeepSeek R1 其实能够更方便地整合到,像 AI2Science 也就是计算科学以及一些大规模的 API 应用中。通过垂直领域和横向的拓展,比如说引入 RAG 的技术等等,这其实都是非常方便的。当然也带来一些经济效益,比如说资本市场的剧烈波动,包括像研发的投入和数据的数据中心的建设成本激增,其实背后也是算力军备竞赛的一个循环,其实随着模型使用方案的平民化,资源也是能够得到有效的优化,从而能够在有限的算力资源支持下,突破算法的创新然后突破算力的限制。
技术对比探讨
与 DeepSeek-R1 同系列出现的,其实还有 Kimi k1.5。我们也是先对 Kimi k1.5 的技术进行一个简单的讲解,然后去对比和分析这两个模型它采用的技术背后是不是有什么可取之处,以及和我们推测和社区的一些其他复现结果的一个对比。
Kimi K1.5 其实和 Kimi 系列的模型其实是一样,它是都是想要用长文本来解决一些问题,比如说 Kimi K1.5 其实专注于利用长文本的 CoT 输出来解决推理时的扩展问题,它的核心也就是通过强化学习来让模型去试错来学习解决问题的能力,它通过将强化学习的优化方式进行一个修改来应用于长文本推理链生成的过程,从而启发模型进行更深入更复杂的推理。
其实和 GRPO 的采用有很大的不同,他们采用的技术其实是一个 REINFORCE 系列的一个算法的变形,其实Kimi 一直关注的也就是长文本能力的拓展,核心的 insights 也就是长文本能力是强化学习训练语言模型的关键,而不是需要一些更复杂的训练技巧。其中他们还有一个更 interesting 的地方是长文本到短文本的一个拓展,通过长文本的思维链模型来指导短文本模型的训练,从而能够在有限的计算资源下去获得更好的性能。我们可以看到它在一些数学推理代码推理的任务,包括视觉推理的任务上其实都超过一些开源的模型和 OpenAI 的系列模型。
具体来说, Kimi k1.5 的过程是分为 4 阶段:第一是预训练阶段,然后进行了监督微调,进一步为了扩展它的长文本思维链推理能力进行了 long cot 的监督微调,进而进行了强化学习的训练。这里边也采用了一些相应的一些 recipes 一些技巧,其实也是在这里可以一块分享给大家。
首先是对于 RL 问题的准备,我觉得这其实也是社区复现的一些共用的技巧,比如说希望 RL 的 Prompt 能够涵盖足够多的范围,比如说包括代码 Coding/通用任务以及一些理工科问题的数据。同时 RL 训练也要去 balance 不同的难度,从而达到一个从易到难课程学习的效果。与此同时这些 RL prompt 的像数据代码问题,它最好是能够被一些 Verifiers 准确的评价,这可以防止防止泛化出一些奖励攻陷以及一些 Superficial Patterns,就是一些浮于表面的一些表征的这样一个行为。进一步在 Long CoT 监督微调过程中,他们是构造了这么一个 warm up 的数据,其中包括一些比较准确的推理路径去 for 图文的输入,那也是涵盖了一些 planning,评价反思以及探索的方式,然后从而让模型或在 RL 训练过程前就获得这样一个比较好的启动的方式。
其实更有趣的是说,Kimi k1.5 是从一个 In-Context RL 的角度出发,也就是我们传统在 MCTS 过程中和包括一些搜索过程都是一个可以被视为一个 planning,也就是规划的过程。我们与其通过规划来使得模型显式的去扩展计算量,为什么不能用模型去模拟 planning 过程,比如说其实在整个搜索的过程中,我们可以将每个 state 比如每个状态和对应状态的价值,都视为一个 language token。从这样的角度出发我们其实就可以把它建模成一个 contextual bandit 的问题,然后从而利用 reinforce 的变种进行优化。与此同时我们与此同时,其实 Kimi-K1.5 还需要引入一个长度惩罚的机制,从而防止模型它去生成过长的推理过程来提高它的计算效率。其实模型也会出现这样一种 overthinking 也就是过度思考的行为。Overthinking 的过度思考的行为其实可能会导致一个更好的表现,但是会带来训练和推理过程中更大的算力的损耗。
与此同时 K1.5 也用了一些采样策略的优化,其中包括课程学习和优先采样的算法,比如课程学习也就是根据问题的难度让模型去先学容易的例子,然后再逐步引入更难的例子,从而循序渐进的去掌握知识。优先采样也就是根据难度和对于问题的掌握程度来调整采样概率,使模型更倾向于去采样那些困难的或者不擅长的问题,来提高它的训练的效率。长度惩罚其实也就是采用像下面这个公式所示的我们采用一组这样一个回答,然后通过计算组内的最最大长度和最短长度来计算这个平均长度作为一个 reference 值。第二个就是策略优化的损失函数也就是我们直接其实可以采用一个 reinforce 的变种去优化 surrogate 的 loss。
其中Kimi K1.5 还采用了一些视觉数据的构建,包括像真实世界的数据其中就包括一些位置的猜测。然后传统的 VQA,其实它是为了提升模型,在真实场景中的视觉推理能力;第二个是合成视觉推理数据,也就是它是一个人工合成的,比如去提高主要是提高一个空间关系、几何模式和物体交互的这么一个能力。这些合成数据提供了一个可控的环境用于测试模型的视觉推理能力,并且可以去无限生成一个虚拟样本;第三个也就是常用的文本渲染数据,通过将文本内容转化为视觉格式来从而保证模型能够在不同模态下保持一致的文本处理的能力,其实就是将比如说一些 OCR 的技巧将这个文本的文档和代码的片段转化为图像,来确保模型无论接受的是纯文本输入,还是截图或者照片中的文本,都能够提供一致的 Response。
K1.5 还展现出来一个比较优秀的方法,也就是 long2short 长到短的蒸馏。它其实背后想要解决的其实是模型的一个过度思考,以及我们能不能采用进行算力的控制。也就是通过采用更短的思维链达到和长思维链相同的效果。其实 Kimi 探究了这么几个方法:首先是模型的融合,比如说将长文本的思维链模型和短文本思维链模型的权重进行平均,从而得到一个新的模型;第二个是最短拒绝采样,也就是在多个采样中选择一个最短并且答案最正确的答案然后去做监督微调,其次是采用像 DPO 等技术来使用长文本 cot 模型生成的答案来作为偏好数据来训练短文本 cot 的模型,在标准的 RL 训练过程中,其实可以类似于前一步我们采用的长度惩罚项来进行微调,从而进一步的去提高短文本 CoT 模型的效率。
在这里其实我们对比一下 Kimi K1.5 和 DeepSeek R1 的一些技术,我们其实能够发现一些共通之处和一些 Takeaways。首先二者都关注了 RL 的,也就是强化学习的方法带来的提升,MCTS 和 PRM 其实是都没有被使用的,包括我们之前的一个推测以及社区的很多复现过程中其实都关注了 MCTS 和过程监督模型,但是它们没有被显式的使用。其实背后是有着奖励攻陷的考虑的,之所以直接用纯 RL,其实背后的考量是对于模型思考能力的 structure,也就是其实这个 structure 相当于是人类的一个先验,其实我们可以认为 MCTS 它是一种 structure,A * 它也是一种 structure,人为的加入 inductive bias 去强求语言模型按照结构化的先验去进行思考,它其实是可能会限制模型的能力的。那么后续我们也会进一步讲解这个问题。
第二点是过程的结果奖励模型,它其实很容易被奖励攻陷,并且绝对值的 value 是很难准确的去估计奖励的,与此同时我们其实会有两种方法:第一个比如说虽然我们绝对值的 value 很难准确的估计,但我们可以用它去构建一个偏序的数据集;第二就是我们直接不用过程奖励模型,Kimi K1.5 其实更多是从 In-context RL 出发是希望模型去模拟 planning 的过程,而不是去显式的进行 planning,其中就是将 state 和价值等信息都视为一个 language tokens;而 DeepSeek R1 是从纯强化学习的角度出发,通过大规模的强化学习和 rule-based reward 来激活模型的能力,其中核心的观念都是不管模型中间做错了什么,它只要不是重复的 pattern,只要模型最后做对了,我们就认为这是一个好的探索,它是值得鼓励的;反之如果模型一顿探索最后做错了,那么再努力也是错,这是需要去进行惩罚的。
关键的也就是强化学习算法的对比,其实 DeepSeek R1 采用的是 GRPO,GRPO 是通过群组相对方式去计算优势值,然后它和奖励模型基于同一问题的输出它是天然契合的,而 GRPO 它额外的进行了策略函数的优化,比如说其实我们可以回到前面这一页,我们可以看到其实传统的我们是会把 KL 散度的惩罚加到 reward 里边,然后计算优势值,但是在 GRPO 里边,我们可以直接把惩罚项融入到这个目标函数计算里边,简化计算的难度和算力的损耗,使得这 GRPO 它其实在大规模的强化学习训练任务中,能够更有效的去优化策略模型,然后进而去提高它的计算效率。
Kim K1.5 其实它采用了一种变种 Mirror Descent,它可以保证学习的稳定性,其实本质上也是属于 REINFORCE 系列算法的一种,可以促进模型去探索到验证回溯总结的反思的行为方式。第二个关键点是后训练的 Pipeline 其实对于提升模型的推理能力重要性都是不可忽视的,一方面是随着测试阶段算力和训练阶段算力的增加,根据后训练扩展律模型的表现是会被持续改善的,另一方面是理想的数据构建应该涵盖足够广泛的类别并且难度分级明确,这样有利于实现类似于课程学习的效果,从而逐步提升模型的能力。最后一个 takeaways 是说在奖励建模的过程中,其实我们需要确保如果你的奖励机制是基于奖励模型的话,那么就要防止它的奖励攻陷,比如说还需要去进行一个平衡的推理长度和推理正确率之间的一个关系,比如对于同一个序列它的下一个动作可能存在一个错误答案,也存在一个直接引入到正确答案的情况,那么传统的强化学习的方法的 Credit Assignment 的问题会倾向于去提升选择正确答案的概率,同时降低去选择错误答案的概率,然而从推理长度的角度来说,有时就选择看似错误的答案,可能会引导模型进行一个自我修正的过程。这种自我修正的机制,以及更长的推理路径,同样对于提升模型的整体推理能力,是至关重要的。
第二个我们希望对比的技术讨论是通过纯强化学习和 STaR-base 的一些方法的对比。在这里我们先回顾一下 STaR 的方法,STaR 方法核心是说我们有一些问题和答案的问题,我们希望能够让模型自己生成问题是如何导向答案的推理过程,并且将这些推理过程加入到模型的监督微调的数据集中,从而每次获得一个新的数据集,都从一个原始的模型来开始进行微调不断的去激发模型自己产生 Rationales 就是思考过程的能力。
STaR 和 RL 之间其实是有着紧密联系的,比如说去采样一个潜在的推理路径,它其实是类似于通过强化学习进行一个策略选择的动作,然后就选择一个可能的策略路径,对于计算目标函数其实对于模型对于整个数据集的预测结果进行评估,并且只根据预测的正确的样本更新模型。它其实是和传统强化学习中一个梯度的更新,其实是类似的,也就是通过多次的调整同一批的数据来稳定学习过程。
关于强化学习和 STaR 方法的对比,其实 STaR 的核心思路是希望将思考过程建模到语言的 next token prediction 中,它这个过程是通过反复的自我迭代和监督微调实现的。基于 STaR 的方法可以进一步将这种思路扩展到比如思考过程其实也可以是搜索过程,那也就是 planning 直接去建模语言模型的 next token prediction,比如说 rStar-math 以及 stream-of-search 甚至 Kimi K1.5 的核心思路都是这样的。
本质上 STaR 一类的方法是希望模型能够学习到 MetaCoT 及问题的答案映射过程背后的一个深入的规律,比如说对于为什么 1+1=2,其背后可能是说一个加法的规律,我们是希望 1+1=2 背后的加法的运算律,它是能够作为一个隐式的思考过程或者隐式的合理过程被模型学习到参数之中的,但其实它对于问题的结构要求会比较高,对于复杂数学的推理任务,它是可能难以自我迭代的。因为某些可能根本没有办法去生成一个好的推理过程,并且难以融入一个 Rule-based 基于规则的这么一个奖励来进行强化学习的优化;第二就是在纯强化学习的加持下,其实业界的技术实践它更多的去关注于直接利用强化学习去激活基座模型的推理潜力,通过构建 Rule-based Reward 也就是基于规则的奖励,加上强化学习数据的设计来去激活模型内部本身的能力相关的一些奖励模型的尝试,比如说 PRM 它其实会遇到像奖励攻陷,以及估计的价值不准、难以泛化等问题。
第三个我们希望讨论的是蒸馏和强化学习之间的对比。一方面这些对比来自于我们像 DeepSeek R1 中揭示的能不能将一些更强大的推理能力的模型,它的高阶推理范式蒸馏到小模型中;另一方面是我们能不能利用蒸馏后的模型来进行训练,从而超过传统强化学习的边界。其实背后的考虑是说其实大型模型,它虽然性能强大,但是也存在着一些局限性,比如计算资源消耗过高、部署和使用门槛较高等。模型蒸馏的核心思维就是将一个经验丰富的老师的知识传递给一个年轻的学生,从而将让其在一个较短的时间内去掌握复杂技能。
DeepSeek R1 Report 中其实揭示了我们通过蒸馏 R1 的手段,可以获得一系列突出表现的小模型,其实这很大程度上是得益于 R1 的模型它是足够强大的,因为它有很多高级的推理方式,而高效推理方式是小模型利用大规模的强化学习可能是难以发现的。这难以发现的原因可能是由于训练知识的不足,很难去进行一些有效拓展,比如说同样是下围棋,其实人类大师见过了更多的棋谱,他要知道下一步可能下个在某个位置,它可能相对的价值更高,而人类小白其实没有办法去辨别不同的位置,它的价值是否有不同,其实获得推理方式也就是有差别的,这些的话小模型表现会相对比较突出,甚至超过了基于大规模强化学习的方法。
那在提升模型的推理能力的努力上,其实蒸馏和强化学习也被社区广泛探索,比如说直接利用监督微调去蒸馏,其实可以学到数据背后的推理方式。但是它虽然在推理分数上有表现所提升,但它更多是去拟合数据中的 Pattern,很难学习数据背后的数学规律和我们所说的一个 MetaCoT 的过程,而强化学习是通过试错和尝试来鼓励模型在最大化奖励过程中去学习到推理背后的规律,获得的泛化性和推理表现的上界都是更高的。
与此同时,其实我们一个社区的 Common Sense 或者是说在对齐过程当中实践是监督微调主要是负责记忆,而很难实现 out of distribution,也就是分布外的泛化,而基于结果奖励模型的强化学习是能够获得更高的泛化能力的。对于此的理解,其实我们一般在后训练的阶段中是采用监督微调来规劝模型的输入格式,从而使得后续的强化学习可以获得更高的收益。随着强推理模型出现的兴起,其实社区也有很多的工作来比较长文本的思维链的这种效果,比如说其实背后是说如何去 scaling up 可验证的奖励会成为一个核心。对于一些小模型来说,其实也有一些工作发现其实像 Qwen-math-7b 这些,它是不容易 recentivize 长思维链的范式,比如说一些 'aha' Moment。那么在像 Math 场景下,其实像 wait check 这些词,它是在 RL 训练中没有进行明显的增加的,所以如何将蒸馏和强化学习 combine 起来,其实还是一个比较关键的社区的问题。但是我们如果要突破强化学习的或者突破推理的能力的上界的话,其实还是要依靠强化学习。
这里有一些 open questions 是比如说长思维链的指令数据扩展,它是否是有助于提升慢思考推理能力,以及我们如何去构建这样的长思维链数据来获得最佳的样本效率,进一步的我们长思维链的扩展是否有助于多模态任务。
我们之前的一些尝试是比如 RedSTaR,其实在这份工作中我们是发现了这么一些 takeaways:首先长思维链它是能够在有限的数据下去增加推理能力的,比如说只需要 1300 条数据,数据量较少的情况下去增加小模型的强推理能力。与此同时更大规模的模型以及更多专业预训练的模型,它其实在这样一个长推理链的微调中其实表现是更佳的,包括在较小的模型中,它正确的推理路径和处理复杂任务的能力,这也进一步证明其实预训练中的知识,对于后续无论是蒸馏还是强化学习的拓展都是有帮助的。
进一步其实任务和语言之间也可以通过长监督微调进行正迁移,比如说从而去帮助在通用任务上的语言的泛化性,以及在通过基础任务中去取得更好的表现,通过一些离线强化学习算法和 online 的强化学习算法,我们也能够提升模型的表现。与此同时将 long cot 应用到多模态大型模型,也是可以显著提升其性能的。DeepSeek-R1 也是现在只有文本模态,未来如何进行多模态的扩展也是非常关键的一个问题。
其实社区有一些方法比如最近非常火的 S1 模型,我们在这里进行一个简单的分析。Kimi K 1.5 中的 long2short 的方法其实本质上也是一种蒸馏,也就是我们如何将长文本思维链的模型的知识迁移到短文本的模型上,不过它的目标和策略需要更多样。不仅需要性能,还需要 Token 的效率,并且更多的去关注对于教师模型推理策略的学习,而不仅仅是输出。而 S1 模型,它是通过少成本去获得 o1-preview 的这么一个表现。
它关键是基于两点,第一个是高质量推理数据集的贡献,也就是进行挑选了 1000 条,关于数学竞赛博士级的科学问题、以及奥林匹克竞赛题目等,这些问题经过难度多样性和质量的严格筛选,它是包含了详细的推理轨迹和答案,它也能达到类似于课程学习的效果;第二个是采样策略的优化,其实他们采用了一个预算强制法来控制模型在推理时间的计算消耗,也就是通过引入 end of thinking 的 token,去控制模型的思维链长度,比如终止思考过程来转向答案生成的阶段。如果要增加计算投入的话,我们就会暂时阻止 end of thinking 的 token 出现来鼓励进一步的探索。DeepSeek-R1 为什么蒸馏的效果能够超过强化学习,其实主要是在于 DeepSeek R1 这个模型确实很大,然后他也确实发现了一些高级推理的范式。通过大规模的数据的蒸馏,它其实能够让小模型在任务表现上是超过小模型进行大规模强化学习的效果的。
但是它也有两个比较关键的点,第一是对于依赖强大的教师模型,第二是它的证明过程,通常是基于特定任务或者一组任务,比如说代码和数学问题来进行优化,这可能导致生成的小模型在面对新任务例如通用任务时它的适应性和方法能力是不足的。
接下来一个对比讨论就是MCTS 和 PRM 的应用。我们知道其实社区包括我们之前的讲解,对于 MCTS 和过程奖励模型,实还是比较重视的。MCTS 的核心的方法,是将答案拆分成分句或者 Token 为单位的节点,然后对于解空间进行搜索。但是通过 MCTS 可能会有以下的问题,第一个是整个 token 的 generation space 是更大的,而不是像象棋一样,象棋中的搜索空间是相对一个良定义的,而语言模型它的 token 产生过程空间是相对更大的,它是更容易陷入局部最优的。第二是 MCTS 中的 value model 也非常重要,它直接影响了搜索方向,而去直接去训练一个更好的 value model 是相对比较困难的,所以在复现强推理模型的一些实践上,其实社区也有很多关注的如何进行 MCTS 算法的优化。
一个相对成功的典范是 rStar-Math,它是通过小模型就达到了 OpenAI o1 数学任务相当的水平,其中关键的核心思路是通过两个小模型的配合,其中一个是策略模型 policy model,另一个模型我把它训练成为基于偏好的过程奖励模型,它通过配合迭代,然后 MCTS 去产生分步验证的高质量处理数据,然后再进行一个自我迭代的提升,从而不断的更新数据,然后微调模型。其中背后的一个观点是说,我们提到 PRM,对于单个步骤的绝对值优化,它其实可能是存在问题,或者说难以估确准稳定的奖励,但是通过 MCTS 的模拟之后,我们虽然绝对值的评分是不准的,但它能够有效的识别出哪些步骤是正确的、哪些步骤是错误的,进而我们就可以利用 ranking loss,去训练一个偏序数据集。
比较树搜索和不同的奖励模型的一些方法,其实我们可以发现,传统的一些方案都是基于比如说像利用我们 MCTS 去构建数据集或者是说直接去显式在推理过程中加入树搜索的技巧来延长推理的时间,其实背后的相应有一些考量是说直接将树搜索应用到模型的训练过程中,是否可能会限制模型的思考过程。背后的启发是,树搜索本身是一种结构化的先验,包括 A * 算法也是这样的一种 structure,那么人为的加入这样的认知偏差使得语言模型去按照人类的结构化经验去进行思考,是可能会限制模型的能力。比如说,就如右边 OpenAI 所展示的图,其实随着算力的增长,加入更多的这样一个人类先验,其实整个模型的表现上限是有限的,具有更少的人类先验,所能获得的表现上界是更高的。最后我们想要思考的是,我们不通过额外的添加人为先验,模型自身的时候是否可以直接进行思考的。
背后其实有两个算法:第一个也就是算法蒸馏,第二个是通过搜索流来显式的去引入规划的过程。关于算法蒸馏其实是将强化学习的整个训练过程中的 history 的 trajectory,直接建模到语言模型中从而寻找一个数据相对会比较高效的这样一些强化学习算法。Stream of Search 也就是搜索流其实是类似的,它更多是说将强化学习的训练的轨迹,比如将对搜索过程转化为自然语言序列训练预训练模型,然后基于这个模型,做一些策略提升的方法,它也是解决了很多启发式的解决器没有解决的一些问题。
但是我们可以看到其实 DS-R1 和 Kimi K1.5 它背后没有进行明确的树搜索和过程奖励模型的尝试,其背后也有其特定的考量。比如说这个过程奖励模型,它具备的一些挑战是决定当下的某一步是否是正确是一个非常难的任务,那么并且通过自动化标注是很难以产生很好的结果的,而通过人工标注又很难以把规模扩大;第二是基于神经网络的过程奖励模型可能会引入奖励攻陷的现象,而重新训练就会让整个训练过程变得非常复杂,并且整个过程奖励模型还是比较适合于 rank 前 n 个回答,并且去支持有方向的去搜索。那么在大规模强化学习学习的使用下,其实提高算力相对是一个更加直接的方法。
但是过程奖励模型有它自己的潜力,因为它毕竟总归是一个比较稠密的监督信号,那么对于奖励进行合适的 shaping 之后,是可以使训练更加稳定或者收敛更快的。包括其背后也有更多的探索的空间比如说我们如何让模型收敛更快或者说借助过程奖励的方法来让整个训练更加稳定,并且未来有希望和自动化形式化验证进行结合,从而提供在基于规则的奖励之外更多的奖励信号,从而去指导密集的优化,赋能长思维链安全的验证。
那么最后一个讨论也就是其实我们会发现现在很多强推理模型,存在过度思考的行为具体表现,比如说它会出现过多的语气词,以及在任何的场合都会使用一些高端词汇典型的比如 DS-R1 会使用量子纠缠,对于一些简单的数学问题也会出现过多思考的范式。但其背后看似是有反思的范式,重复的范式也是非常多的,它可能会导致更好的表现,但是也会带来在训练和推理过程中极大的损耗。其实背后的问题就是,我们如何去合理的去分配在测试阶段的算力,从而进行选择性的思考。其实 Kimi 里边为我们展现一种策略,比如说从长思维链到短思维链的蒸馏,以及如何引入长度优化的惩罚和优先采样策略,去帮助整个模型在强化学习训练过程中建模到使用合适的方法,而避免过度思考的现象。
我们会发现整个 DS-R1 在纯文本模态上取得优异表现非常惊艳,其实这也让人不禁期待多模态场景的加持下,深度推理模型会是怎样的表现,整个未来也是将进入一个模态穿透和模态联动的这么一个趋势。我们人类在日常生活中接收到的信息往往是全模块的不同感官的渠道,它是能够互相补充,帮助我们更加全面的理解和表达复杂概念。其实模态扩展将成为强推理模型下一个重大突破,比如说我们如何在复杂的决策环境中构建起感知 - 理解 - 推演的闭环认知体系,以及如何在某个模态下应对许多复杂的推理任务,基于规则的奖励提供监督信号,从而作为人类意图和偏好的载体。
而从文本模态扩展到多模态、甚至到全模态场景时,许多问题便会随之呈现,比如说随着模态数的增加,传统的二元偏好是否能够捕捉人类意图的多元偏好或者层次化偏好;并且当多模态扩展到全模态空间,模态交互更加复杂,强化学习方法又需要做哪些改进;以及不同的模态下模态特有和模态共有的信息又如何统一在奖励信号建模之中。
其实扩展多模态对强推理有很多可能性,第一种是像 Qwen 一样基于多模态做基座的模型扩展到强推理的模型;第二是可以利用 LLaVA 的思路,在原来强推理基座模型上进行额外的多模态模块的扩展,比如说如冻结除投影层之外的所有模型参数,对投影层进行单独的预训练,从而获得能够经过视觉编码器的视觉表征映射到语言表征空间的能力;以及第二步是同时微调投影层和大语言模型,从而激发语言模型的多模态处理能力。
未来方向分析探讨
我们在这里也总结了一些未来的技术方向,比如说长推理模型的可解释性、模态扩展、强推理如何赋能智能体的发展以及强推理模型下的一个监管和安全保证,具体包括形式化验证、审计对齐和对齐欺骗现象。
首先是长思维链的可解释性,其实强推理模型在为我们带来性能提升的同时也带来了新的挑战。比如在复杂的环境下,模型可能会采取捷径或者偏离原本的设计的任务路线,那么随着模型被提供隐式思考的机会,出现这种操纵和欺骗的可能性逐渐加大,模型可以去通过相应的思考去更发现完成目标的更快方法。尽管这种目标可能是不被允许或者是欺骗人类的。比如说在 OpenAI 的 o1 中就已经发现了这种通过获取任务的漏洞来完成任务的这样一个现象。并且同样的现象也在更多的语言模型上发现了这种奖励篡改的机制,比如修改自己的奖励机制来避开设置的难点。
基于长思维链的推理虽然在一定程度上可以提高模型的可解释性,比如说我们可以查看显式的路径让人类可以追踪到模型如何从输入推导出输出,进而追踪模型的决策过程。但是与此同时它也不能完全去可解释性的问题,因为模型可能仍然利用思维链进行欺骗性推理。尽管思维链生成的推理步骤是模型输出的一部分,但是它并不能保证它真实地反映了模型内部计算的过程。模型是否能学会输出符合人类期望的思维链,但是实际的处理过程可能与其展示的思维链是不同的。进一步当模型具备长期的目标意识的时候,它可能会构造看似合理但实际上误导性的思维链以隐藏其真正的意图。
那么为了防止思维链变成伪装工具,其实需要兼顾一些 AI 驱动的方法以及对比推理、形式化验证等方法。例如可以让模型在不同的监督环境下执行相同的任务,检测其推理的一致性。或者是利用自动化对抗测试来分析模型是否在训练过程中优化了欺骗策略。
第二个未来发展展望也就是如何通过模态扩展和模态穿透来进一步拓展强推理的边界。我们可以知道传统的对齐方法,它本身是模态无感的,它能够通过数据的构造直接应用于多模态的场景。但是多模态的对齐的难点在于随着模态数量的增加,传统的二元偏好能否捕捉人类意图的多元偏好或者层次化偏好;第二是当多模态扩展到全模态空间,模态交互更加复杂,那么传统对齐算法是否还奏效,以及不同模态下模态特有和模态共有的信息如何统一在变化建模中。这里的出发点是我们如何在全模态场景中实现任意模态输入任意模态输出的模型也能够和人类的意图相对齐。
背后其实有一个统一的范式,是我们能否利用信息更丰富的多模态偏好数据从而实现更准确且细粒度的人类偏好对齐呢?先前我们组其实提出一种算法就是从语言反馈中进行学习,具体来说是针对于传统对齐方法中存在的效率低迭代慢优化难的等难题,让语言模型对于每一个偏好数据集去提供相应的语言反馈。其实这个语言反馈就是可以作为整个偏好中人类意图的载体,因为它不仅给出了偏好为什么好,也给出了这个偏好为什么坏,以及如何进行优化的这样一个反馈。那么通过从语言反馈中学习范式,它是能够提升任意模态的生成和理解任务的对齐表现的。
其背后是说当前模型的问题可能通常是并不完美的,我们可以利用语言反馈去优化问题,也可以优化问题的输出,从而可以在某些维度上去改善模型的输出,进而合成更多具有学习价值的偏好对。
我们也发现其实模态穿透是能够赋能整个文本模态上的智能并且拓展的。背后有两个关键之处:第一个是客观基础上多模态模型,已具备了强大的跨模态穿透和融合的机制,能够通过结合视觉能力世界知识和上下文学习能力,实现多种模块之间的协同输出;第二是基于慢思考强推理能力的持续自我进化,可以突破单一模块的局限性,从而可以用其他模态的辅助信息来帮助模型在文本模态上得以大幅提升。在这里其实我们基于 DeepSeek 的一系列模型也进行了相关的实验,我们发现其实经过多模态训练后的 8B 的模型是能够在很多文本的评测基准上超越原来的基座模型的能力。其实就证明多模态能力的赋予帮助了在文本模态下智能边界的扩展。
在这里我们也是提出了Align-Anything 框架,其中包括了对于任意模态任意数据,还有任意算法的这样一个开源库的偏好支持。它支持的任意模态到任意模态的对齐,在目前开源社区中也是独一无二的。并且我们还已经支持了 DeepSeek R1 671B 的微调,这也是为全模态大模型的对齐提供了统一的和通用的解决方案。背后的数据框架算法和模型我们也全部进行了开源。
第三个未来技术判断是强推理其实可以赋能未来智能体的发展。我们可以发现日常的聊天任务其实对于强推理能力的需求并不大。未来更多是说能否利用强推理能力来赋能智能体和具身智能的发展。那其背后是需要依赖于强推理模型反思、长程规划和工具调用的能力以及关键问题是如何克服内存和记忆模块的挑战,以及小模型如何获得更强的推理效果来节省内存和显存的开销。
最后一个需要关注的未来技术方向是强推理模型下的监管和保证。因为语言模型已经表现出了抗拒对齐的现象。传统的这些算法虽然可能提升模型的性能并且确保人类意图和价值相一致。但是这些对齐微调是否真正修改了对齐模型的内部表征?我们发现其实在经过安全对齐的模型可以在最小化微调之后变得再次不安全,并且在非恶意数据集上的微调对齐的模型,也可能会削弱模型的安全机制。那不仅局限于安全,这种假象对其表明模型可能会内在执行逆对齐的操作,反而销毁对齐过程的可能性。这一概念其实我们也称之为逆向对齐。那么进一步我们探究了,语言模型是能否表现出弹性从而抗拒对齐的现象。
我们是从最简单的弹簧系统建模进行出发来探究单元模型内在抗拒对齐的机理。其背后是说就像弹簧的胡克定律,在弹性限度内,弹簧的弹力和长度的变化是成线性关系的。大语言模型其实也是具备弹性的,那模型在预训练的阶段经过大数据大更新之后产生了通用能力的稳定分布,而经过对齐阶段的小数据小功能性是可能表现出由对齐分布回弹到预训练分布的倾向而体现出抗拒对齐的。我们对于模型施加微调之时,模型其实更倾向于保持原有预训练的分布而抗拒对齐的分布,从而使逆向对齐更加容易。
从理论解释上来说,其实我们会发现整个预训练到后训练阶段模型是因为弹性而抗拒对齐的,因为模型可以被视作为一种压缩器。预训练和对齐的过程就是利用模型对于每阶段的数据进行联合压缩,而在预训练中所花的数据量是要显著多于后训练的,那模型为了提高整体的压缩率就会倾向于保留预先的部分的分布,而抗拒微调对齐的分布从而表现出模型的弹性。理论上,其实对齐的模型受到扰动之后,模型对于预训练数据和对齐数据集的压缩率是成一个变化的关系的;并且这个变化的关系是和数据量之比是同阶的。
我们也在大量的实验上进行了模型弹性的相应的验证,会发现两个关键的结论:首先模型的弹性是会随着模型的大小增大而增大的,那么随着模型参数规模的增大,其实模型的弹性也是随着参数量大小的增大而不断变强;第二是模型的弹性,其实随着一系列的数据增大而不断增大。我们观察到随着一系列数据量增加的时候,负面数据微调导致的初始性能其实下降更后下降变得更慢。其实这表明模型弹性随着预训练数量的增多,是在不断增多的。
总的来说其实我们从弹性视角来反思大量模型的对齐。其实它本身也是强推理模型下一个非常关键的安全对齐的举措。我们可以发现预训练的阶段和对齐阶段是不应当被各自独立的,而我们对于模型的评估更应该去关注模型内在表现的对齐。如何从表面对齐深入到深入对齐,那么其背后是对齐的范式应该是需要改变的。
第三个需要关注点是审计对齐,这其背后的挑战是当下的大语言模型其实容易被诱导陷害有害内容,那么他们通常会表现出过度的拒绝,就是可能会拒绝一些合法请求。但是这样依然容易受到越狱攻击。背后的两个关键原因是,当下的语言模型必须用固定的资源即时响应用户的需求;第二是当下的这些方法是鼓励语言模型通过偏好学习,从大量数据中去总结和规范人的意图,而不是直接去学习安全的规范。那么背后的科学问题是我们能否直接利用强推理能力来学习安全规范以增强模型的安全性能。
其实 OpenAI 提出了这样一种审计对齐的方法,大体思路是我们在监督微调和推理生成阶段可能就可以利用强推理模型产生一个对于安全准则的思考过程,那么进而我们可以去将这种思考过程融入到模型监督微调的过程中。
并且在强化学习的训练过程中,我们可以鼓励模型自主产生这种安全并且有帮助性的思维链过程,而更好的利用强推理模型的思路深入思考学习到背后的安全规范。
其实更多它是像把 CAI 的这种过程和背后的这种 constitutions 的宪法融入到了模型的推理过程之中。那么这也是在推理时,它也能够很大程度上提升模型的安全性。
背后其实更关键是说,刚才我们提到的模型可能会表现出来对齐欺骗和对齐抗拒的这样的范式,以及未来我们是需要对齐更强大的模型我们如何去提供奖励信号,去为这些可能比人类更聪明以及我们没有办法去理解它们任务的这样的模型。
接下来非常关键的点就是形式化验证。形式化验证其实起源于数学的形式化证明,因为数学的形式化它的目的是为了提供一个完全客观可验证的证明过程;而与此同时其实安全价值也需要这样的形式化验证。因为安全的监管具有重要性,其背后的本源在于人类的安全价值观是具有重要性的,而内建价值的冲突和单智能体的安全并不能保证多智能体系统的安全。包括现在人工智能系统已经出现了伪装对齐的现象,以及随着 VLA和智能体等模型下游和赋能应用兴起,确保模型准确的应对不确定性,考虑物理规律下的人类价值对齐至关重要。因为我们在复杂的动态环境中不仅要考虑短期安全,还要保证长期使用的安全性,对操作环境产生影响。那么通过形式化验证和强化学习,我们其实是能够提高模型的可靠性和处理复杂推理问题的能力,通过构建形式化的数学数据库,我们也能够建立高度严谨的推理模型。
其背后既是智能体的模型背后的安全也具有独特的挑战。一方面是模型具有内生价值的安全性,因为它不仅要考虑不确定性,还必须考虑物理规律下人类价值观的对齐,例如肢体语言的安全性和个人空间的边界感等等;第二是外生的具身安全性,因为在复杂的动态环境中不仅要短期安全,还要确保长期行为的安全性,例如对操作环境造成影响的安全性。
总结下来我们其实会发现,这三年整体是有一个快思考到慢思考以及到 2025 年强推理和模态穿透整个范式的跃进。关键问题是基于复杂推理慢思考和强化学习技术范式,我们如何通过高质量数据去驱动产生强推理模型,通过赋能全推理全模态场景下去拓展智能的边界。
补充拓展:DeepSeek-V3 解读
最后我们也附上了有关 DeepSeek-v3 的一些分析。我们可以发现 DeepSeek-v3 它是基于 61 层 MoE 的架构以及做了很多像 MLA 这种架构的优化来降低模型的成本。同时保证模型对于输入数据和复杂关系的捕捉能力。
与此同时采用混合精度训练和多 Token 预测的机制。也能够提高模型对于语言结构的理解能力,然后更好的去捕捉语言中的长距离依赖关系。
更进一步也在通信和方面进行了例如像双流水线并行优化这样的机制来进一步提高模型的效率。
在这里我们也想进行探究和分析也就是人类的系统一和系统二之间的对比。那系统一它其实更多的说进行一个快速但是可能不为准确的判断,而系统二它通常是经过深入思考通过遍历组合来解决一些问题,但是这种方法的复杂度极高,容易导致组合爆炸。其实未来一个潜在方向是我们如何利用系统一快速但可能不准确的判断,来帮助系统二控制组合爆炸的问题,从而高效地进行复杂推理。并且我们能不能将这种流式智能建模到语言模型之中。
当下的语言模型其实更多还是受限于过程性的推理任务,它尽管可能完成一些复杂推理,但是对于以人类来说一些很简单的任务,比如说逆转诅咒,语言模型其实是非常有困难的。其本质在于语言模型的思考过程本身是静态和非过程的。我们能不能通过人类的抽象推理建模出高维的概念并且进行细度反馈。结合系统一和系统二来帮助语言模型进一步提升它的推理能力其实是一个非常关键的方向。
最后我们也提供了一些拓展文献和参考资料也是希望能够帮助到社区。以上这就是我们全部的分享。