DeepSeek-R1的热度尚未消散,DeepSeek-R2就要来了?

日前路透社报道称,三位知情人士透露,原计划今年5月发布的DeepSeek-R2模型,正在加速开发,或将提前发布,新模型有望可以生成更好的代码,并且使用英语之外的语言进行推理。对此,DeepSeek母公司幻方量化回应称,以官方消息为准。

考虑到DeepSeek成立于2023年7月17日,至今不满两年时间,已开发出了涵盖编程、数学推理、大语言、多模态、对话等不同场景的多个模型。今年5月前推出R2模型,属于DeepSeek大模型的正常更新频率。R1模型到R2模型,DeepSeek正在改变AI行业。

巨头惊慌失措,R1模型创下奇迹

2023年3月OpenAI发布GPT-4后,整个AI行业不但没有因这款大模型的到来更加活跃,反而显得有些沉寂。哪怕后续OpenAI接连推出了GPT-4o、o1、Sora等大模型,其他企业也纷纷推出了各种大语言、视频生成、多模态模型,却未能再现GPT-3到GPT-4的突破性进展。

直到DeepSeek-R1的到来,仿佛为AI行业注入了活力,让各行各业都积极拥抱AI和R1模型。R1模型的能力得到证实后,国内手机、电视、PC等行业大量企业纷纷为旗下的产品接入了R1模型。


(图源:DeepSeek)

以手机行业为例,华为、荣耀、OPPO、vivo率先官宣,为智能助手接入R1模型,小米略作犹豫后也选择跟进,为超级小爱接入了R1模型。日前著名数码博主@i冰宇宙爆料称,三星也在积极推进为国行版机型接入R1模型的工作。

不仅如此,腾讯、百度、360等互联网企业,虽已组建AI团队,开发出了自己的大模型,但依然选择为旗下的AI工具接入R1模型。可见,就连其他AI企业,也承认了R1模型在某些领域领先自己。

更关键的是,R1模型诞生之前AI工具虽以免费使用为主,可不乏收费服务的平台,例如ChatGPT和文心一言。OpenAI为了实现盈利,甚至放弃了开源模式,从OpenAI变成「CloseAI」,百度更是闭源方案的拥趸。

然而在R1模型的冲击下,这两家企业也改变了原有路线。百度宣布文心一言将从4月1日起免费为用户提供服务,并于6月30日正式开源。OpenAI则承诺,免费版ChatGPT在标准模式下可无限制使用GPT-5,其CEO山姆·奥特曼还在X平台表示,将打造开源项目,并向网友们征集意见,究竟打造仍需在GPU上运行的o3-mini模型,还是能力强大的端侧模型。


(图源:豆包AI生成)

DeepSeek还通过R1模型证明了通过知识蒸馏、混合并行策略、动态稀疏训练、即时编译、层次化稀疏注意力等技术,大幅压缩AI大模型训练成本的可能性。过去AI企业训练大模型,不但需要用到规模庞大的算力集群,还需要大量数据,OpenAI甚至招聘人员编写数据供大模型训练所用。马斯克旗下的xAI为训练Grok 3模型,不惜搭建了一个具有10万张GPU的全球最大算力集群。

长此以往,AI未必不会变成互联网巨头比拼财力的游戏,最终因数据量的不足进展缓慢。DeepSeek之所以能够给AI行业带来巨大的冲击,能力强、训练成本低、开源三大因素缺一不可。尤其是采用指令集框架PTX和CUDA、ROCm、OpenCL等底层指令都封装为统一接口的特性,让其不再依赖NVIDIA GPU,能够更加自由的部署在各种设备上。

在R1撬动了AI行业的地基后,DeepSeek并未止步不前,如今R2模型即将到来,或将接力R1模型,进一步改变AI行业。

延续低成本、高性能传统,R2模型拉满期待值

R1模型逻辑推理能力不输字节跳动、阿里巴巴、月之暗面等企业花高成本训练出的大模型,对标行业领导者OpenAI开发的o1模型。但OpenAI不只有o1模型,ChatGPT专业版会员已能够使用更强的o1 Pro和o3模型。在R1模型追上o1模型后,R2模型自然要向o3模型发起挑战。

在动态稀疏架构、量化知识蒸馏、混合专家(MoE)架构与多头潜在注意力(MLA)等技术的加持下,DeepSeek训练R2模型的成本有望进一步降低。开发训练数据与模型参数的共适应系统,则可动态调整数据与模型参数的协同关系,提升机器学习系统的效率、泛化性和适应性。

最近几天DeepSeek每天都会公开一批开源代码库,其公布的DeepGEMM采用FP8通用矩阵乘法,支持稠密和MoE模型,仅300行代码即可实现超越专家优化的内核,能够降低AI大模型的推理成本,该技术自然也要被用于R2模型。


(图源:豆包AI生成)

R1模型的论文中提到,RL(强化学习)数据的增加,不仅可以提升AI大模型面对复杂任务时的推理能力,还会自发地出现一些复杂行为能力,比如反思和探索不同方法。现阶段R1模型所拥有的RL数据较少,未来版本将会大幅增加。

综合来看,R2模型与R1模型相同,基于V3底座,对标OpenAI o3模型,以常规升级为主。在更多RL数据的支持下,R2模型有望提高推理能力和响应速度,并依靠「反思」能力,生成更准确的推理结果。

未来将诞生的V4,对标OpenAI计划在今年中期发布的GPT-4.5。基于V4底座+RL开发的R3模型,竞争对手则是OpenAI下一代模型GPT-5。

除了成本和能力方面的提升,R2模型要将把开源理念推向新高度。从o1模型开始,OpenAI强化了闭源理念,不但大模型不再开放,就连思维链也被取消,甚至警告用户使用提示词诱导模型输出完整思维链会被限制账号,GPT-4.5将成为OpenAI最后一个独立发布的基座模型。GPT-5将进入混合模型时代,让AI大模型彻底变成「黑盒」模式。


(图源:豆包AI生成)

DeepSeek坚持开源理念,允许其他企业或个人部署、使用、修改、分发R2模型,持续推动AI行业的发展。360 CEO周鸿祎曾表示,没有开源就没有 Linux、没有互联网,甚至包括我们自己借助了开源技术才能发展至今。闭源固然有机会获取更多营收,但开源才能加快行业向前迈进。

从GPT-4发布以来,AI大模型虽不断进步,却不再有划时代的改变。R1模型依靠低成本、高性能的特性,一定程度改变了AI行业。R2难以复刻R1的盛况,但推理能力方面会有大幅提升,给予其他AI企业更大压力。

DeepSeek成「卷王」,友商被卷到头疼?

DeepSeek-V1和R1模型发布时间间隔仅13个月,R1模型和R2模型之间间隔可能仅有三四个月,堪称「终极卷王」。百度、腾讯、360等企业可以像之前接入R1模型一样,再次接入R2模型,但头部互联网企业需要打造出自己的AI大模型,而不是指望着DeepSeek的开源模型去升级AI工具的能力。

就小雷的体验而言,绝大多数国产AI大模型在深度思考方面表现不如R1模型,仅有少数能够在部分场景下与R1模型平分秋色。将要到来的R2模型,给了AI企业更多压力,他们需要在R2模型上线前,强化自己大模型的能力,避免被DeepSeek甩在身后。

借助DeepSeek开源模型提高AI工具的能力只是权宜之计,百度、腾讯、360从未放弃AI大模型的开发工作,例如百度的文心4.5已在路上。


(图源:豆包AI生成)

作为用户,我们自然更倾向于AI工具能够同时接入多个模型,方便自己选择最好用的模型。尤其是头部AI企业,拥有更庞大的算力规模,接入R1模型后执行推理任务时响应更流畅,体验优于DeepSeek官网或App。

DeepSeek不仅仅带来了能力出众的R1模型,所采用的多种低成本方案,还给其他AI企业指明了方向,通过知识蒸馏和混合精度等技术,任何AI公司都可以实现低成本训练大模型,至于大模型的能力如何,则要看研发人员的实力。

以开源为基调的DeepSeek将在AI行业起到鲶鱼效应,督促每一家AI企业加快新模型的研发工作,并不断探索新方向。


ad1 webp
ad2 webp
ad1 webp
ad2 webp