多模态做到了强推理！工业界首个开源的R1V，视觉思考进入o1时代

机器之心报道

编辑：杜伟、泽南

DeepSeek-R1 问世后，我们一直在期待能「强推理、慢思考」的大模型进化成多模态模式。如果能在视觉等各领域复刻强化学习（RL）在文本上的突破，AI 应用势必会将更多领域推入新的范式。

毫无疑问，这也是众多科技公司正在探索的方向。

3 月 18 号，昆仑万维正式发布 Skywork R1V（以下简称 R1V）系列模型，实现了 SOTA 级别的视觉推理和强大的通用推理能力。随着新模型的到来，昆仑万维成为了国内第一家开源多模态思维链推理模型的企业。

目前，昆仑万维已经开源了 R1V 的模型权重和技术报告。

Hugging Face 地址：https://huggingface.co/Skywork/Skywork-R1V-38B
Github 地址：https://github.com/SkyworkAI/Skywork-R1V
技术报告地址：https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf

具体表现如何呢？从多项基准测试来看，R1V-38B 相比较文本推理模型，已经在数学推理、代码生成等任务中达到了领先水平，在部分任务上接近了更大尺寸的闭源模型。相比较传统多模态模型（如 OpenAI 4o、Claude 3.5 Sonnet），R1V 的推理能力更是遥遥领先，相比多模态开源大模型 DeepSeek V3 也有所提升。

在推理能力方面，R1V-38B 同样可以达到顶尖水平。在权威的 MATH500 和 AIME 数学推理基准测试中，R1V 分别取得了 94.0 和 72.0 的高分，并在逻辑推理和数学问题求解上展现出了人类专家级水准，从而在行业内众多主流模型中脱颖而出。

而在视觉能力方面，R1V 成功实现了强文本推理能力的多模态迁移，在视觉推理任务上表现出色，凭借着创新的跨模态迁移技术与优化框架，R1V 在 MMMU 与 MathVista 等视觉推理基准中分别取得了 69 和 67.5 的成绩，不仅超越了多个开源竞品模型，更达到了与更大规模闭源模型媲美的水准。

更值得关注的是，R1V 成为全球范围内首个在数学推理能力上接近 OpenAI o1 的开源多模态模型。

最近一段时间，DeepSeek 的突破让我们看到了在大模型上引入强化学习的潜力。现在，昆仑万维的实践似乎也已经给多模态打开了方向。

多模态喜获「强推理」

AI 应用格局打开

昆仑万维表示，R1V 视觉推理模型可以同时处理文本与视觉信息，拥有强大的跨模态推理能力，可轻松应对复杂的逻辑推理、数学问题、科学分析以及医学影像诊断等场景。

因为多模态 + 强推理的能力，大模型「睁开了眼睛」，因此也拓展了一大堆新的应用方向。

我们搜罗了一些不同学科（包括数学、化学、医学等）的题目，对 R1V 的解题推理能力来了一波考察。

先来一道 2025 考研数学题目：

很快，R1V 的完整解题思路和正确答案就展现了在我们面前：

接着让 R1V 分析下图化学分子式描述的是哪种立体几何构型：

这类题目要求多模态推理模型熟练、准确地判断、区分各类化学分子图，经过了抽丝剥茧的推理过程，R1V 给出了正确答案。

R1V 的知识面还不止于此，它甚至还略懂医学影像，看看它是如何诊断这张 CT 图片的。当然，分析结果仅供参考，最终的诊断和治疗还是要交给医生，由他们根据实际情况来做出。

最后，我们还测试了 R1V 的其他视觉推理能力，比如柱状图的数值分析：

视频链接：https://mp.weixin.qq.com/s/IPPDuApVVKNJffAZcJqFRA

可见，无论是数学等不同学科的一般性问题，还是一些更需要「眼力见」的视觉场景，R1V 都可以应付自如。

三大核心技术创新

让开源视觉思考模型成功「上位」

为什么到了 R1V 的程度，多模态上的强推理就能跑通了？在 R1V 发布的技术报告中，我们可以了解到其中的技术创新。

视觉多模态的特殊性决定了其推理与数学、逻辑等自然语言推理的不同，前者要解决跨模态对齐等一系列挑战。尽管当前的视觉语言模型（VLM）在描述性任务（比如为图像生成连贯且上下文相关的文本描述）方面表现出色，但它们在几何证明、科学问答等涉及深度逻辑的多模态任务中仍然不如单模态系统。

图片来自英伟达博客：https://developer.nvidia.com/blog/vision-language-model-prompt-engineering-guide-for-image-and-video-understanding/

对此，学界提出将具有推理能力的语言模型集成到 VLM 中来增强后者的推理能力。虽然这一方案很有潜力，但实现过程中也面临挑战。比如，推理任务的独特性要求在训练时使用专门的推理格式的数据，然而当前的 VLM 数据集主要由非推理内容组成，即使是一些包含 VLM 思维链的示例，往往缺乏高级推理任务所需的复杂性。

此外，VLM 的推理能力提升也依赖多模态表征学习、知识增强、模块化架构设计等技术层面的协同进步。显然，昆仑万维的 R1V 在这些方面做出了突破。

作为一个 VLM 推理模型，R1V 采用高效的多模态迁移方法，最大程度保留了文本推理能力，同时优化视觉任务表现。同时，R1V 提出通过混合优化策略来加强视觉文本对齐，显著提升了跨模态集成效率。最后，R1V 引入自适应长度思维链蒸馏方法来生成推理数据。

正是有了这三大核心技术的支撑，R1-V 才取得了领先的多模态推理性能。我们接下来一一来解析。

一，高效多模态推理能力迁移。该工作首次提出了利用轻量级 Skywork-VL 视觉投影器，使 R1V 模型实现了无缝多模态适应。这样一来，无需重新训练基础语言模型或视觉编码器，就能高效地将文本推理能力迁移到视觉任务中，同时将原有优秀的推理文本能力保留了下来。

二，多模态混合式训练，具体来讲是将迭代监督微调（Iterative SFT）与 DeepSeek-R1 的核心 RL 算法群组（相对策略优化，GRPO）相结合，分阶段地对齐视觉 - 文本表征，达成跨模态任务的高效融合，将跨模态任务的表现提升了一大步。

其中在迭代监督微调阶段，对于利用奖励模型从全部数据中挑选出的高质量数据以及在前序训练过程中模型未能正确处理的难点数据，进行反复迭代微调，让 R1V 持续地巩固自身知识并自我纠错，稳步提升视觉推理能力。

在GRPO 强化学习阶段，不额外引入评判器，仅对 R1V 生成的不同答案进行组内对比学习，最终大幅提升多模态推理的稳定性、精度和泛化表现。

如下为混合优化框架的示意图，包括了三个细化步骤：基于完整数据集的原始训练、利用自定义数据的迭代训练以及强化学习。三个阶段共同作用，成为 R1V 多模态推理能力提升的关键。

多模态混合式训练

三，自适应长度思维链蒸馏（AL-CoTD）。R1V 引入了一种基于视觉 - 文本复杂度的自适应推理链长度控制机制，可以对模型的推理过程进行动态优化，在提升推理效率的同时避免模型过度思考。此外结合多阶段自蒸馏策略，提升了数据生成与推理过程的质量，确保模型在复杂多模态任务中依然有不俗的表现。

下图为具体的流程，包括了质量和难度评估模块（QDAM），从视觉评分和文本评分两个主要维度来系统地评估图像 - 文本查询对；视觉 - 文本集成分析器（VTIA），通过句法和语义分析确定跨模态集成所需要的深度，并根据图像 - 文本查询中的模式识别来计算集成评分；动态推理长度控制器（DRLC）以及在此基础上形成的多阶段自蒸馏 pipeline。

AL-CoTD 流程

除了整体技术方案的优化，R1V 的创新性还特别体现在训练过程中，通过「三阶段方法」将文本端强大的推理能力高效迁移至视觉任务上。

首先是视觉语言表征的初始对齐。训练时首先使用轻量级的视觉适配器（MLP）连接视觉编码器（ViT）与语言模型，在已有的 200 万条常规多模态数据上进行训练，使 MLP 初步学习如何将图像特征映射至语言空间。这一阶段仅训练 MLP 适配器，在保持视觉编码器和语言模型的数冻结不变的情况下，快速、高效地达成视觉与语言表征初步对齐的目的。

其次是推理能力迁移。基于第一阶段训练好的 MLP 适配器，直接将视觉编码器与原始的强推理语言模型（R1-distilled-Qwen-32B）连接，形成 R1V 视觉推理模型。虽然此时语言模型的参数发生了改变，但得益于语言模型架构的高度相似性和 MLP 的泛化能力，重组后的模型已能表现出一定的视觉推理能力，初始性能即达到了业内同等规模的先进水平。

最后是视觉与文本模态精准对齐，即上面提到的「混合优化框架」，结合迭代监督微调和 GRPO 进一步精准对齐视觉和语言模态表征。

结果显而易见，高效的训练策略带来了 R1V 视觉推理任务的突破性进展，在跨多学科的不同公开评测基准中达到或超过了现有领先模型的性能，具体可见下表 1（与开源近似尺寸横向对比）、图 1 （与开源同等及更大尺寸模型对比）和图 2 （与开源大尺寸模型以及闭源专有模型对比）。

表 1：与开源近似尺寸模型横向对比

图 1：与开源同等及更大尺寸模型对比

图 2：与开源更大尺寸模型以及闭源专有模型对比

在开源 R1V 模型并公开方法之后，昆仑万维希望能够推动全球范围内的学术研究与产业应用探索。不仅如此，昆仑万维 Skywork 团队正在进行从视觉多模态跨越到全模态的技术探索，将包括「文本、视觉、语音」在内所有环节打通并开源。

为此，该团队设计了一种在 R1V 模型中灵活扩展语音模态的方式，从而构建了一个全模态思考大模型，不仅在单个模型中同时实现了图像、视频、语音的全模态理解能力，还在语音和视觉理解评测中取得多项 SOTA 成绩。未来将公布相关评测成绩并同样开源这一全模态思考大模型。

结语

从今年 1 月 DeepSeek-R1 的提出，到人们开始在多模态大模型、甚至自动驾驶的 VLM 中加入 GRPO，仅仅过去了不到两个月。我们可以看到在这一波开源的浪潮下，AI 领域的发展肉眼可见地再次加速，下一次突破可能已近在眼前。

不过在这股浪潮中，能算得上引领潮流的团队只是少数。

进入大模型时代之后，昆仑万维在多模态领域的探索一直引人关注。过去三年，昆仑万维在音乐大模型、文本大模型和视频模型等方向取得了一系列成绩，建立了自己的 AI 产品矩阵，包括懂金融、学术的天工 AI 搜索、全球首个 AI 音乐创作平台 Mureka、AI 短剧平台 SkyReels、AI 社交产品 Linky 等等。

今年 2 月，昆仑万维发布世界模型 Matrix-Zero 系列，把探索延伸到了 AI 领域最前沿的方向。在可以模拟物理世界的 AI 模型中，我们可以运行许多实验和仿真任务，或是完成不同以往的影视创作。再加上今天开源出来的 R1V 大模型，在让大模型实现多模态强推理之后，AI 面对物理世界获得了更强大的理解、推理、交互能力。

此举也彰显了昆仑万维在 AI 时代始终秉持的开源初心。过去几年，这家「All in AGI」的 AI 科技公司在推出前沿大模型及技术的同时，一直通过开源回馈社区与开发者，先后开源了百亿级「天工」Skywork-13B 系列、2 千亿参数稀疏大模型 Skywork-MoE 和国内首个面向 AI 短剧创作的视频生成模型 SkyReels-V1 等。这些举措在扩大自身技术影响力的同时，无疑也对开源社区、开发生态和整个 AI 行业的健康发展起到了积极作用。

一面是技术前沿的开拓，一面是更多样化的整合与落地，昆仑万维已经形成了「AI 前沿基础研究 —— 基座模型 ——AI 矩阵产品 / 应用」的产业链。

似乎已经可以隐隐听到 AGI 的脚步声了。