图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练,以强化其指令跟随能力。受语言领域的启发,多模态偏好优化技术凭借其在数据效率和性能增益方面的优势,被广泛用于对齐人类偏好。目前,该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。然而,这一方法不仅资源消耗巨大,训练过程仍然极具挑战。

受到基于规则的强化学习(Rule-Based Reinforcement Learning)在 R1 上成功应用的启发,中科院自动化研究所与中科紫东太初团队探索了如何结合高质量指令对齐数据与类 R1 的强化学习方法,进一步增强图文大模型的视觉定位能力。该方法首次在 Object Detection、Visual Grounding 等复杂视觉任务上,使 Qwen2.5-VL 模型实现了最高 50% 的性能提升,超越了参数规模超过 10 倍的 SOTA 模型。

目前,相关工作论文、模型及数据集代码均已开源。



  • 论文标题:Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
  • 论文地址:https://arxiv.org/pdf/2503.18013
  • Github 仓库:https://github.com/jefferyZhan/Griffon/tree/master/Vision-R1
  • Huggingface 仓库:https://huggingface.co/collections/JefferyZhan/vision-r1-67e166f8b6a9ec3f6a664262

引言

目标定位任务要求模型能够精准识别用户输入的任意感兴趣目标,并给出精确的目标框,对图文大模型的细粒度感知和空间理解能力提出了严峻挑战。当前,图文大模型通常将目标定位建模为文本序列预测任务,并通过大规模预训练和指令数据的监督微调,以 Next Token Prediction 实现对不同粒度目标描述的精准定位。尽管在指代表达理解等任务上已超越传统视觉专家模型,但在更复杂、目标密集的场景中,其视觉定位与目标检测能力仍与专家模型存在显著差距。

R1 的成功应用推动了对基于规则的任务级别奖励监督的探索,使模型摆脱了对人工偏好数据标注和奖励模型训练的依赖。值得注意的是,视觉定位指令数据本身具有精准的空间位置标注,并与与人类对精准目标定位偏好高度一致。基于这些优势,Vision-R1 通过设计类 R1 的强化学习后训练框架,在任务级别监督中引入基于视觉任务评价指标的反馈奖励信号,为增强图文大模型的细粒度视觉定位能力提供了创新突破方向。



Vision-R1 关键设计示意图

Vision Criteria-Driven Reward Function

聚焦图文大模型目标定位问题

在文本序列的统一建模和大规模数据的自回归训练下,图文大模型在目标定位任务上取得了显著的性能提升。然而,其进一步发展仍受到三大关键问题的限制:(1)密集场景中的长序列预测易出现格式错误,(2)有效预测目标的召回率较低,(3)目标定位精度不足。

这些问题制约了模型在更复杂视觉任务上的表现。在自回归 Token 级别的监督机制下,模型无法获得实例级别的反馈,而直接在单目标场景下应用 GRPO 训练方法又忽视了视觉定位任务的特性及 Completion 级别监督的优势。

为此,研究团队结合图文大模型在视觉定位任务中面临的挑战,提出了一种基于视觉任务评价准则驱动的奖励函数,其设计包括以下四个核心部分:

  • 框优先的预测匹配:与仅针对单个目标进行设计的方法不同,Vision-R1 采用多目标预测的统一建模方式。为了计算包含多个目标预测的奖励,Vision-R1 首先对文本序列化的预测结果进行反序列化,提取出每个目标的预测框及其标签,并将预测结果与真实标注进行匹配,以确保奖励机制能够全面衡量多目标场景下的定位质量。
  • 双重格式奖励:该奖励项旨在解决密集场景下长序列预测的格式错误问题。对于每个预测文本序列,模型需满足指定的模板格式(如 Qwen2.5-VL 采用的 JSON 格式),并确保目标坐标的数值正确性。仅当预测结果同时满足格式和内容要求时,模型才能获得奖励 1,从而引导其生成符合标准的预测输出。
  • 召回奖励:该奖励项针对有效预测目标召回率低的问题,鼓励模型尽可能多地识别目标。具体而言,针对每个预测目标及其匹配的真实目标(GT),当两者的 IoU 超过预设阈值 ζ 时,视为该预测有效。对于一个预测序列,其召回奖励定义为有效预测目标数量与实际需要预测目标数量的比例,以此激励模型提高目标的覆盖率。



  • 精度奖励:精度奖励与召回奖励协同作用,形成「1+1>2」的优化效果。其中,召回奖励提升模型对目标的全面识别能力,而精度奖励则确保预测的准确性。精度奖励从单实例角度衡量预测质量,其核心目标是鼓励模型生成高质量的边界框。具体地,精度奖励被定义为所有有效预测的平均 IoU 值,以直接激励模型优化目标框的精确度:





Vision-R1 整体框架

Progressive Rule Refinement Strategy

实现持续性能提升

在目标定位任务中,预测高质量(高 IoU)的目标框始终是一个挑战,尤其是在密集场景和小目标情况下。这种困难可能导致模型在同组预测中奖励差异较小,从而影响优化效果。针对这一问题,研究团队提出了渐进式规则调整策略,该策略通过在训练过程中动态调整奖励计算规则,旨在实现模型的持续性能提升。该策略主要包括两个核心部分:

差异化策略:该策略的目标是扩大预测结果与实际奖励之间的映射差异。具体而言,通过惩罚低召回率(Recall)和低平均 IoU 的预测,并对高召回率和高 IoU 的预测给予较高奖励,从而鼓励模型生成更高质量的预测,尤其是在当前能够达到的最佳预测上获得最大奖励。这一策略引导模型在训练过程中逐渐提高预测精度,同时避免低质量预测的奖励过高,促进其优化。具体实现如下:



阶段渐近策略:类似于许多有效的学习方法,给初学者设定容易实现的目标并逐步提升奖励难度是一个常见且行之有效的策略。在 Vision-R1 中,训练过程被划分为初学阶段和进阶阶段,并通过逐步调整阈值 ζ 来实现奖励规则的逐渐变化。具体来说:

  • 初学阶段(Beginner Phase): 在这一阶段,设置较低的 ζ 阈值(0.5/0.75),给予模型相对宽松的奖励标准,帮助其快速入门并学习基础的定位能力。
  • 进阶阶段(Advanced Phase): 随着训练的深入,逐步提高 ζ 阈值,增加标准要求,以促使模型达到更高的准确度,避免模型依赖简单策略,从而持续推动模型性能的提升。

不同模型的域内外目标检测评测

为全面评估 Vision-R1 的效果,研究团队选择了近期定位能力大幅提升的 Qwen2.5-VL-7B 模型和定位能力突出的 Griffon-G-7B 模型,在更有挑战的经典目标检测数据集 COCO 和多样场景的 ODINW-13 上进行测试,以展现方法对不同定位水平模型的适用性。



经典 COCO/ODINW 数据集上 Vision-R1 方法相较于基线模型性能的提升

实验结果表明,无论基础性能如何,与基线模型相比这些模型在 Vision-R1 训练后性能大幅提升,甚至超过同系列 SOTA 模型,进一步接近了定位专家模型。

研究团队还在模型没有训练的域外定位数据集上进行测试,Vision-R1 在不同模型的四个数据集上取得了平均 6% 的性能提升,充分论证了方法的泛化性。



域外数据集上 Vision-R1 方法相较于基线模型性能的提升

模型通用问答能力评测

研究团队进一步评估了模型在非定位等通用任务上的性能,以验证方法是否能在少量影响模型通用能力的情况下,大幅度提升模型的视觉定位能力。研究团队发现,Vision-R1 近乎不损失模型的通用能力,在通用问答、图表问答等评测集上模型实现了与基准模型基本一致的性能。



通用问答数据集上 Vision-R1 方法与基线模型性能的比较

可视化分析

研究团队提供了在 Qwen2.5-VL-7B 模型上使用 Vision-R1 后在多个场景下的目标检测可视化结果。如结果所示,Vision-R1 训练后,模型能够更好召回所感兴趣的物体,并进一步提升定位的精度。



Vision-R1 训练模型与基准模型检测结果可视化

ad1 webp
ad2 webp
ad1 webp
ad2 webp