机器之心报道

机器之心编辑部

这是阶跃星辰 Step 系列模型家族的首个推理模型。

类似 OpenAI o1 的推理模型在国内终于卷起来了。

刚刚,国产大模型「六小虎」成员阶跃星辰发布了最新一代模型 ——Step Reasoner mini(简称「Step R-mini」)。这是阶跃星辰 Step 系列模型家族的首个推理模型。



体验地址:https://yuewen.cn

新模型擅长主动进行规划、尝试和反思,能通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。

而且,它既擅长通过超长推理能力,解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。或者按阶跃星辰自己的说法是「文理兼修」。

根据阶跃星辰公布的基准测试数据,Step R-mini 在 AIME 2024 和 Math500 这两个数学基准上均达到了 SOTA 水平,其中在 Math500 上更是比 o1-mini 还多 2 分。Step Reasoner mini 写代码的能力也很不错:在 LiveCodeBench 代码任务上超过了 o1-preview。



这一切是怎么做到的呢?机器之心从阶跃星辰相关人士了解到,新模型的「RL」含量很高,因此泛化性比较好。此外,他们还在数据质量、测试时计算、模型大小等多个方面进行了 scaling,再次验证了 Scaling Law 的有效性。

除了语言推理模型,他们也在打造能够进行多模态推理的视觉推理模型。而且相关人士强调说,这个多模态推理模型「是真的在视觉领域的推理」,即在图上进行推理,「而不仅仅是看着图却只在文字领域的推理」。

看来,阶跃星辰在自己的路线图上又往前迈了一步。

Step Reasoner mini 是如何炼成的?

根据阶跃星辰的介绍,Step R-mini 的设计与开发遵循了当前主流的推理模型开发范式。具体来说,它通过在推理阶段增加计算量,并结合思维链等技术,实现了「慢思考」。该系统能够根据任务的复杂性进行主动规划、尝试和反思,从而通过反复验证的逻辑机制,提供准确且可靠的反馈。

阶跃星辰表示,Step Reasoner mini 最大的亮点之一是实现了「文理兼修」。具体来说,Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。这一切是通过大规模的强化学习训练,并使用 On-Policy(同策略)强化学习算法来实现的。

此外,模型推理能力的提升也离不开阶跃星辰对 Scaling Law 原则的坚持。这包括以下几点:

  1. Scaling 强化学习:从模仿学习到强化学习,从人类偏好到环境反馈,阶跃星辰坚持 Scaling 强化训练,以强化学习为模型迭代的核心训练阶段。
  2. Scaling 数据质量:数据质量是重中之重。在确保数据质量的前提下,阶跃星辰持续扩大数据分布与规模,为强化学习训练提供坚实保障。
  3. Scaling Test-Time Compute:坚定执行 Training-Time Scaling 的同时,亦兼顾 Test-Time Scaling。在测试阶段,阶跃星辰发现,System 2 范式能让 Step Reasoner mini 在极复杂任务推理上达到 50,000 规模的思考 token,进而实现深度思考。
  4. Scaling 模型大小:这是最经典的 Scaling 方式。阶跃星辰表示,坚持模型大小 Scaling 仍然是 System-2 的核心,已经在开发更智能、更通用、综合能力更强的 Step Reasoner 推理模型。

一手实测效果如何?

既然 Step Reasoner mini 宣称「文理兼修」,我们首先就用一个文理融合的题目来考校它一番:《梦游天姥吟留别》中,一个数与其倍数在同一句的是哪一句?问题不难,但这既需要 AI 记得并理解古诗词,还需要它懂得基本的算术。虽然很多人认为答案应该是「天台四万八千丈,对此欲倒东南倾。」但是其实四万八千是一个单独的数,这一句中也没有其倍数,因此这句并不算。而 Step Reasoner mini 也在推理思考中确认了这一点,并最终找到了正确答案:「千岩万转路不定」。



下面来看一道 2024 年的高考数学题:



可以看到,Step Reasoner mini 进行了一番思考后得到了正确答案。同样可以看到,该模型在第一轮思考得到答案之后会再执行两轮思考,以验证答案的正确性。实测中我们发现,如果第一轮和第二轮的答案不一致,Step Reasoner mini 还会持续进行多轮思考,直到得到正确答案。



接下来上一道逻辑推理题:



可以看到,Step Reasoner mini 系统地整理了题目中几个人的关系,并将最终答案以非常清晰的形式呈现了出来。



单纯的「文科」任务呢?比如如果要求模型霸气地翻译「I'm not in danger,I'm the danger.」它会怎么处理?结果发现,Step Reasoner mini 经过多次尝试,最终找到了一个相当霸气的译法:「我非但无险,我就是那险途。」更有意思的是,它还在思考过程中引经据典,参考了《黑暗骑士》中的类似台词。



另外,我们知道,最近小红书涌入了大量外国网友,他们的一大需求便是起中文名。「文理兼修」的 Step Reasoner mini 能帮助他们吗?



可以看到,对于英语问题,Step Reasoner mini 能流畅地切换成英语思考模式,同时还能在其中穿插对汉语含义的思考。至于最终得到的名字「星莉」,感觉还是不错的。



彩蛋:视觉推理模型也在路上了

从今天公布的消息来看,除了语言推理模型,阶跃星辰还放出了一个小彩蛋:正在打造视觉推理模型,将推理能力融入更多交互形态的大模型中。

针对复杂视觉场景下的 Reasoning 问题,阶跃星辰引入了慢感知和空间推理的思想,把 Test-Time Scaling 从文本空间转移到视觉空间,实现在视觉空间下的 Spatial-Slow-Thinking。

效果如何?看展示:

1. 解答图中的题目



2. 从蓝色箭头出发,我能到达哪个?



3. 这些小球分别对应什么数字?



对视觉推理模型,期待住了有没有?

ad1 webp
ad2 webp
ad1 webp
ad2 webp