• 梦晨 发自 凹非寺
    量子位 | 公众号 QbitAI

一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。

o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。

那么,想提升大模型在其他学科领域的能力该怎么办?

腾讯&苏州大学团队提出新框架RLVR,将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科。

RLVR使用基于生成模型的软奖励,与传统基于二元规则的奖励相比,在泛化、稳健性和可扩展性方面有显著的提升。



除论文外,还开源了奖励模型和多学科数据集。



7B奖励模型搞定全学科

研究基于一个有趣的发现:当任务有客观参考答案时,不同大型语言模型在做二元判断(正确/错误)时表现出高度一致性。

这或许意味着,并不需要在每个领域都训练一个大规模的奖励模型。相反,直接用现成的大语言模型来充当验证器就能有效。

像这样的二元奖励虽然简单直接,但在参考答案缺乏结构化的领域又不直接适用。

于是研究团队进一步引入基于模型的软奖励(model-basedsoft scroing),相比直接给出0或1的二元硬标签,软奖励根据生成式验证器判断的置信度打分,有了更高的灵活性。

受启发于“大模型判断高度一致”的发现,团队用72B参数的Qwen2.5-Instruct蒸馏出一个7B的奖励模型。蒸馏过程不需要领域特定的标注,完全依靠在线探索阶段采集的数据进行训练。

整个过程分为3步流水线:



实验数据从ExamQA中随机采样了6000个问题,广泛分布于理工人文各学科。



实验对比基础模型(Base)、微调基础模型(SFT)、基于规则的RL、使用SFT模型作为验证器,以及本文蒸馏的RM-7B模型作为验证器的多种方法,有以下结论:

  • RM-7B在自由形式答案任务中表现出色
  • 基于模型的奖励在处理非结构化参考答案场景中优于基于规则的奖励
  • 软奖励在处理多学科任务中,面对复杂判断时比二元奖励表现更好



此外实验还验证了基于模型的奖励在数据量增加时可扩展性更好。



在讨论部分,作者指出本研究中未使用思维链推理(CoT),虽然CoT在有参考和无参考的场景中都有用,但对于评估同语言的参考答案和模型响应之间的语义等价性,深入的推理依据是否必要仍有待研究。此外,在RLVR的过程奖励建模中,当中间步骤缺乏直接监督时,如何分配奖励也是一个开放问题。

本研究也不对参考答案或模型响应设置格式约束,这样做好处是减少了数据标准化和模式设计的人力投入,但格式相关约束和奖励在这种情况下的作用仍需重新审视。

One More Thing

论文作者腾讯涂兆鹏发帖介绍了这篇文章,探讨强化学习是否可以扩展到数学和编码任务之外。



评论区有网友指出很有可能成立,因为不同的训练方法可以看成有不同边界条件的学习空间。

涂兆鹏也认为这个视角与RLVR方法的观点一致。



论文地址:
https://arxiv.org/abs/2503.23829

HuggingFace:
https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f


[1]https://x.com/tuzhaopeng/status/1906975869538914570

ad1 webp
ad2 webp
ad1 webp
ad2 webp