新智元报道
编辑:编辑部 HYZ
【新智元导读】唯一一个在全国产算力上训练的深度推理模型来了!今天,讯飞星火深度推理大模型X1发布,发布会上现场摇数学题开做,答案全部正确。强强pk全国产胜,中文数学能力远超国内外「o1」级推理模型?
就在刚刚,国内第一个全国产算力的深度推理模型,重磅上线了!
科大讯飞的正式下场,再次搅动了本就已经十分激烈的推理模型战局。
现在,进入「讯飞星火」网页端和App端,搜索「深度推理模型X1」智能体,即可体验
此前,随着OpenAI的o1模型的发布,国内的o1级推理模型也如雨后春笋一般冒出。
细数一下,现在已经有了DeepSeek-r1、Skywork-o1、QwQ、Kimi-k1、GLM-Zero等多个模型。
那么,推理模型之战,谁才是最强?
全国产算力平台唯一深度推理模型
作为当前业界全国产算力平台上唯一的深度推理模型,X1的成绩着实亮眼。
《通用认知智能大模型测评体系》指导构建测试集CogNKLab-MathEval-2.0显示,X1的中文全学段数学及奥赛能力已经超越了OpenAI o1,实现国内最好。
而且模型只用更少的算力,就实现了业内一流效果,多项指标国内第一。
讯飞星火X1在小初高(含竞赛)、大学(含竞赛)、AIME、MATH 500等多项「考试」中,成绩十分亮眼。
所谓深度推理模型,当然就是更擅长做数学题这类复杂任务,而且有全面的思考推理过程。
X1的数学题,究竟做得怎么样?
科大讯飞也是猛,直接现场摇题给X1做,摇到哪道是哪道!
一上来,就是道2024高考数学题的大题。
X1的思考过程显示,它通过确认正弦值、解方程求角、应用正弦定理等步骤,将过程拆解出许多小任务,从而一步步解出答案。
对照参考答案可见,讯飞星火X1给出的答案完全正确。
接下来现场考验X1的,是一道2024年AIME数学竞赛题。
可以看出,这道题涉及多变量对数求解,难度不小。
X1在思考过程中,把对数转换成了指数。注意,解题过程考验的不仅仅是X1的数学能力,还涉及到了英文理解能力。
最终,X1给出了答案「33」,再次回答正确。
最后,试一试X1能不能做对国内的高中数学奥数题。
解题过程中,X1尝试理解等比数列的性质,试图理解各项和与各项平方和的关系,还重新反思了无穷级数和平方和。
可以看出,星火深度推理模型X1具有以下三大特点——
化繁为简,通过长思维链进行分步骤解析;
会自我探索和反思验证;
会根据「优质reward」来进行强化训练。
因此,像数学这种有明确答案和结果的问题,就天然适配X1模型。
其实,之所以如此迅速做出X1推理模型,也是因为科大讯飞在此领域早有积累。
比如基于自我评价迭代的评语模型技术,已经用于高考作文评分。数学答题领域的多路径和反思迭代强化学习,已用于数学教师助手。
因此,o1-preview发布一个月内,讯飞团队就迅速跑通了关键算法。
实测来了
接下来,就是讯飞星火X1和OpenAI o1推理模型真刀实枪见真章的环节。
第一道题,我们就要开始上难度了。
点击进去就能看到模型的详细思考过程,每一步都很清晰。
接下来,是高中生常见知识点中,最容易出错的题。
这一道,是高考数学中常见的集合问题。
X1用时35秒,顺利给出了正确答案。
看起来,这个结果没什么好惊讶的,因为这道题并不难,对吧?
然而,真正的实战过程中,不少推理大模型连如此简单的问题都折戟了!
接下来,再上升难度,上传一道美国数学竞赛AIME的一道题目,看看X1表现又如何?
X1用时2分,通过四步证明,最终得出了正确答案f(2024^2, 2024)。
再来看它的推理思维过程,也是非常缜密。
而最强o1,却在这道题上答错了。
为什么现在都在卷推理模型?
为什么最近国内的大模型厂商,都在狂卷推理模型?
这自然是因为,推理模型在AI技术商业化落地中起到的关键作用已经不言而喻。
这一商机,国外的科技公司早已率先嗅到。
随着OpenAI扣动扳机发布o1和o3,谷歌发布Gemini 2.0 Flash Thinking,DeepSeek-V3在海内外掀起巨大风暴,推理AI之战已经打响。
从应用端看,在聊天机器人、语音助手等商业化落地场景,推理模型的性能直接关乎到产品的用户体验。
在搜索引擎、社交平台等大规模部署场景中,推理成本是一个核心问题;更高效的推理模型,能显著降低成本。
在手机、IoT设备这类资源有限的硬件中,模型运行时更是需要在计算、内存和能耗之间实现平衡;此时,轻量化的推理模型就是最好的选择。
而从技术端看,OpenAI再度验证了Scaling Law并没有撞墙,只是从预训练阶段转向了推理阶段,也就是常说的测试时计算。
但问题在于,针对这一阶段的Scaling,对算力的消耗十分巨大。
因此,在中美竞争态势愈发严峻的当下,通过全国产算力拿下这块「兵家必争之地」,具有着比以往更加重大的意义。
全国产算力,勇闯无人区
讯飞星火深度推理模型X1,是昇腾算力体系下,首个原生的深度推理模型。
技术团队揭秘,在利用国产算力训练模型的过程中,遭遇了数据构建、框架调优、模型验证等诸多难题,让团队额外多花费了不少时间。
在这个过程中,没有任何成功的案例可借鉴,只能一点点啃下难题,好在最终成功攻关。
最终,算法不仅在国产算力上成功适配,而且用更少的算力,实现了业界一流的水平,推出了可以和国际领先模型扳手腕的X1。
回望过去,从一开始,星火大模型就坚定地走全国产的路线。
在和华为合作的过程中,双方始终坚持「勇闯无人区」,持续拔高全国产算力和大模型的上限,为世界提供第二种选择。
讯飞星火X1已「上岗」,多场景无缝衔接
与其他类「o1」模型不同的是,讯飞星火X1一经发布就已经实现了实战应用。
2022年12月,讯飞正式启动了「1+N」战略,就是要将底座大模型,赋能到教育、医疗、人机交互、办公等多个行业中。
如今,星火大模型早已在不同场景遍地开花。所以,这次星火X1也会率先落到实际场景中。
教育,是最典型的一个场景。
去年的1024开发者节大会上,讯飞联合中国教科院首次发布了基于「问题链」的高中数学智能教室助手。
当时,就已联合许多教师、教研员,打造了上万个优秀案例。
现在,讯飞星火X1已经在北京八中数学教研组、北京101中学数学教研组,以及合肥七中数学教研组等进行了部署。
来自北京、上海、合肥多地的一线教师在上手体验之后,一致给出了好评。
他们都认为,讯飞星火X1在解决创新数学题目时,可以做到一题多解,教学知识关联,还能拓展学生们的高阶思维。
来自北京八中的教师表示,「X1推理过程和思路更加清晰,如果遇到数学创新题,X1的思路会带来很大帮助」。
不光老师觉得好用,X1对学生来说,也是一个好帮手。
讯飞AI学习机曾首创了AI 1对1个性化精准学,帮助学生减负增效,因材施教。
因此,讯飞AI学习深受孩子和家长们的喜爱,用户净推荐值NPS稳坐第一,持续领跑行业。
在医疗这个专业性超强的领域,X1也交出了一份不错的成绩单。
基于知识反思和CoT,再结合医疗循证推理技术,X1在专科辅助诊断和复杂病例内涵质控方面的准确率,已经达到了90%!
作为医疗大模型领域「第一股」,讯飞医疗还将在2025年上半年推出X1升级版医疗大模型。
这次升级的目标非常明确,要在诊断推理和质控能力上,继续领跑业界,更大范围为医生们提供更专业的辅助。
1+N落地,前景无限
不可否认的是,在应用落地上,讯飞一直都是行业领导者。
成立26年,这家公司已经在认知智能领域拓展了丰富的to B/C的应用场景。
to B方面,有教育行业因材施教和个性化学习、医疗行业的人工智能辅诊、智慧城市便民便企服务、面向企事业单位的智能办公等。
to C方面,又有AI学习机、翻译机、录音笔、智能办公本等全系硬件产品布局。
2024年,被誉为大模型落地元年,讯飞也以实际行动证明了自己的实力。
截至24年12月,讯飞已成为央国企大模型的首选合作伙伴,与200+行业头部企业共同打造行业大模型,覆盖了300+应用场景,为行业树立了风向标。
第三方数据显示,讯飞在2024年大模型招投标中,独占鳌头。以91个中标项目和84780.8万元中标金额,成为当之无愧的「标王」。
这一成绩不仅仅体现在数量上,更体现在广度上,覆盖了通信、金融、能源等多个领域。
提到汽车领域,讯飞更是「霸主」级存在。中国汽车出海十强企业中,有8家都选了讯飞的技术。
而且,长城、广汽等七大企业的量产车都开始用上了星火大模型,可以说是全面开启了「汽车+大模型」的新时代。
在工业领域,讯飞羚羊工业互联网平台也是一匹黑马,连续三年入选工信部「双跨」平台,还获得了诸多荣誉。
在金融领域,讯飞也毫不示弱,星火大模型已成为交通银行、中国人保等多家金融机构的「数字底座」。
此外,讯飞还为企业提供了贴心的数智化升级方式,包括全套私有化部署方案,或者通过星火智能体平台、星火飞码iFlyCode等工具快速开发应用。
不难看出,科大讯飞已经打通了多个应用场景,一旦有了新模型的出世,就能顺利无缝铺开,并能得到很好的应用。
也就意味着,未来,讯飞星火X1的应用范围还将进一步扩大。
底座大模型再升级,中国AI队实力担当
或许你会问,国内的类「o1」推理模型已有不少,为什么讯飞星火X1依旧能够傲视群雄?
作为中国AI国家队,讯飞依托其自身技术的深厚积累,以及其专业的研发团队实力,由此在X1模型上实现了突破性进展。
回顾其发展历程,从最初的智能语音起步,到如今认知智能全面布局,这家公司始终坚持走在技术创新的前沿。
2023年5月,星火大模型首次亮相,经过多次迭代升级,已经在文本生成、语言理解、知识问答等七大核心能力上,取得了显著的成果。
随后在24年的1024大会上发布的讯飞星火4.0 Turbo更是在9项国际主流测试中,综合能力均拿下第一。
就在今天,讯飞星火4.0 Turbo底座能力全面升级,金融、油气、能源、电力、钢铁、 航司等领域综合能力的绝对提升全部超过10%,成为「最懂行业」的大模型。
面对算力资源短缺的迫切需求,讯飞还携手华为,在2023年10月发布了具有里程碑意义的「飞行一号」——国内首个全国产算力平台。
去年10月,「飞星二号」正式启动,万卡级算力集群继续深化布局,真正做到了从算力到模型全链条自主可控。
这一平台实现了对万亿参数大模型常态化训练支持,标志着中国在大模型底层技术上实现了关键突破。
这一次,基于国产算力平台首个深度推理模型X1的发布,不仅展现了中国AI队的创新实力,更为大模型的实战应用树立了新标杆。
站在新的起点上,科大讯飞继续勇攀高峰。
参考资料:
https://xinghuo.xfyun.cn