智东西
作者 程茜
编辑 漠影

DeepSeek的迅速蹿红,正将大模型领域的激烈竞争推向全新高度!

一方面,全球大模型厂商打得火热,DeepSeek登顶中美应用市场,OpenAI、谷歌纷纷出招反攻;另一方面,算力竞争作为AI竞争核心战场的角色被重塑,DeepSeek获海内外各家云巨头、芯片企业力挺。

随之而来的是,DeepSeek在海外面临重重考验。美国、澳大利亚政府宣布全面禁用,意大利、爱尔兰、英国等多国政府或已开展封锁行动或计划对DeepSeek进行审查。

这背后的一大隐忧就是,DeepSeek当下的成就也是基于以英伟达为代表的海外算力平台达成,与此同时,海外针对芯片供应的封锁手段不断升级,给DeepSeek带来的限制日益增多,在这样的大背景下,实现国产算力的自主可控就显得尤为关键,它不仅关乎DeepSeek未来的发展走向,更对整个行业的稳定与安全有着举足轻重的意义。

要想在这一赛道上抢占先机,算力竞争早已成为无法回避的关键战场,纵观整个国内市场,已经有一家公司在全国产算力平台这条道路上先发制人。

2023年7月,国产头部大模型玩家和国产算力提供方联合拉开了全国产算力平台的序幕,这就是讯飞星火大模型与华为昇腾自主创新算力平台的结合。2023年10月24日,科大讯飞携手华为正式宣布首个支撑万亿参数大模型训练的万卡国产算力平台“飞星一号”启用。2024年1月30日,首个在全国产算力平台上训练的讯飞星火V3.5发布,性能对标国际最先进水平,之后,讯飞星火大模型底座连续升级,截至目前仍然是国内唯一全栈国产算力训练、推理双实现的大模型

当下,大模型对于算力的需求,不仅如潮水般持续涌动,且呈愈演愈烈之势,一路高歌猛进。与此同时,地缘政治的复杂博弈下,海外芯片遭遇的封锁态势愈发严峻,丝毫没有缓和的迹象。在这样的大环境下,国产大模型与国产算力的深度融合,将成为未来发展的必然走向

DeepSeek的爆火将对国内模型产业、算力竞争提出哪些新的思考?全国产算力平台在这一阶段的重要性如何?它将如何发力,推动国内大模型产业迈向全新的发展高度?我们试图找到这些问题的答案。

一、中国公司破局,性能和成本制胜美国同行

众所周知,算力、算法、数据是AI时代的三大引擎,构建强大算力集群、持续创新算法、广泛收集和精细处理数据来推动大模型发展,无疑是业界一直以来的重点。

此次,DeepSeek就是通过算法创新实现突围,其爆火的关键因素可以用两点概括:性能成本

性能层面,DeepSeek R1在数学、代码、自然语言推理等任务上达到国际一流水平。

但反常识的是,其强大性能背后并没有望尘莫及的成本消耗

根据DeepSeek的论文,其训练成本为557.6万美元,使用了2048颗H800 GPU,在两个月内训练了6710亿个参数的V3大模型,相当于280万个GPU小时。

从其公布的API定价推算,DeepSeek每百万tokens输入价格0.14美元(缓存命中)、0.55美元(缓存未命中),每百万tokens输出价格2.19美元,远低于OpenAI o1甚至其最新发布的OpenAI o3-mini价格。

在算法优化的路径上,深耕AI领域多年的科大讯飞,也在这两个角度有所积累。

科大讯飞的讯飞星火大模型自发布之初,就锚定了阶段性的发展目标。2024年讯飞星火已经完成5次持续升级,持续对标GPT-4 Turbo和GPT-4o。


就在今年1月初,其发布了具备深度思考和推理能力的讯飞星火深度推理模型X1,实现了更小尺寸、更高性能,多项测试集指标超过OpenAI o1。


擅长深度推理讯飞星火X1可以在给出答案的同时,对解题思路和步骤进行拆解


深度推理模型在处理复杂任务时,与其他模型相比,在推理能力、特征学习、泛化学习等方面具有诸多独特优势。

其推理能力支持其更好处理多条件、多步骤的逻辑推理问题以及分析复杂因果关系等,同时当深入B端企业的业务场景时,还能对复杂数据进行深入分析、推理,为其制定战略、规划业务方向、优化资源配置等提供更精准的决策依据。

同时,深度推理模型还具有强大的泛化能力,可以学习到数据的一般规律和模式,遇到新的数据或问题也能保持相对稳定的性能。

在这些层面,深度推理模型已经展现出了提高效率和竞争力的优势。而对于用户对输出速度有高要求、简单直接的任务场景,通用大模型更为契合用户需求。

因此,未来侧重于提供广泛知识和基础能力的通用大模型与专注解决复杂问题、进行深度推理的深度推理模型,两者将互为补充在特定的任务和领域中发挥关键作用。

讯飞星火X1还有一大颇受关注的特征就是,全国产算力平台训练。自主可控的算力平台,从根本上为大模型成本控制提供了支持。

科大讯飞董事长刘庆峰坦言,由于讯飞星火X1的部分任务确实很难,而且在国产化算力平台上的训练时间较短、数据量较少,还有很大提升空间,未来一个月内将有新升级

DeepSeek用算法创新为国产GPU打开了“黄金窗口”,科大讯飞的全栈自主可控技术体系已经在这种AI新战局中先人一步。

二、打破垄断,全国产算力平台冲锋

一直以来,在AI和高性能计算等领域,英伟达的GPU常被视作圭臬,但从芯片到DeepSeek,美国连番的禁令发布,使得国产算力的关键价值愈发凸显,一路水涨船高。

在算法创新一路疾驰、强势驱动行业变革的背后,算力领域既迎来了前所未有的发展机遇,也面临着诸多严峻的挑战。

首先是机遇

DeepSeek以低成本达成高性能成果,吸引了诸多头部平台和芯片厂商合作,不仅为自身发展拓展了市场空间,同时尽管部分国产GPU在性能上与英伟达产品存在差距,但也使得其在优化算法、创新应用场景等方面看到了更多发展的可能性。

与此同时,其已经走通的低成本、高性能发展范式,为诸多技术、资金积累并不充分的AI企业提供了借鉴和思路,使其能在有限资源下实现大模型性能突破。更多企业的入局,对算力的需求增加,同样也是国产算力的一大市场机遇。

其次是挑战

全国产的算力平台上做训练+推理难度极大,但这两者缺一不可。

大模型对算力的需求包含训练和推理两个方面,受限于国产芯片的单卡性能、各厂家生态体系不兼容、大规模训练时故障率高、互联通信等因素,大模型训练的难度相比于推理更高。

除此以外,大模型训练期间并行算法的优化、数据传输速度、软件工具链的成熟、专业人才等都会成为构建全国产算力平台的门槛,这也让诸多企业望而却步,因此部分公司鉴于训练难度高,会选择专攻推理。

从 “全国产” 算力平台的维度审视,其前路是未经踏足的 “无人区”。

当构建超大规模的全国产算力集群时,需要进行国产算力平台的适配和效率优化,而其中如何实现高效的集群调度、稳定的通信架构以及低延迟的数据交互,尚无成熟的技术路径和实践经验可供参考。

机遇与挑战并存的当下,首先将“全国产算力平台”变成现实的就是科大讯飞

在研发团队的长期攻坚下,基于科大讯飞与华为打造的首个支撑万亿参数大模型训练的万卡国产算力平台“飞星一号”训练,星火大模型实现全栈国产适配优化。

刘庆峰曾透露,在昇腾910B的基础上,科大讯飞攻克了诸多疑难杂症,解决了数百次基础软硬件问题、模型适配问题等,使得大模型训练从对标A100/A800的20%~30%提升到90%以上。国产算力的提升,使得国内企业在进行大模型训练时,对国外算力租赁的依赖降低,这对于降低大模型成本的影响深远。

继“飞星一号”之后,2024年10月,科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台“飞星二号”正式启动,并将于今年交付首批算力。

讯飞星火大模型正是全国产算力平台最直接的验证,也是科大讯飞在全国产算力平台这条道路上前行的一个关键里程碑。

自主可控、全国产算力已经深深刻进了科大讯飞的发展基因中,现状也证明,科大讯飞走“全国产算力平台”的必要性与正确性。

三、生态协同、行业应用,国内大模型产业链已起飞

DeepSeek在成为业界热议焦点的同时,开启了国内大模型产业对生态协同与行业应用的深度思考。

国内大模型上下游产业链玩家纷纷宣布合作。不仅有摩尔线程、燧原科技等国产GPU企业,还有华为云、阿里云等国内云计算巨头,无问芯穹、硅基流动等AI基础设施企业,均已宣布适配及上架DeepSeek模型服务。

DeepSeek狂飙在前,也给大模型产业发出警醒,数据安全、行业应用、生态健康正借势发展。

算法创新、算力发展背后,数据同样是模型能力发展的重中之重,让大模型深入企业内部、重要行业的关键之一就是,能保证其核心数据的安全,并使得这些数据被有效利用起来。

在AI领域20余年的深耕,也为科大讯飞提供了数据优势。科大讯飞正利用自主可控的技术能力和行业合作优势,构建高质量数据飞轮。

场景应用层面,大模型发展的核心命题就是深入场景,实现降本增效。在这一关键节点,如何让DeepSeek带动的产业红利深入不同行业,真正在关键场景发挥作用,势必需要结合此前产业玩家的经验积累,找到最快落地的场景。

产业协同同样关键,产业链玩家协同发力不断优化算法、挖掘模型潜力的同时,立足行业痛点开展应用创新,借此使得大模型产业健康、正向发展。

从DeepSeek看国产算力、数据安全、场景应用、行业创新,我们发现,科大讯飞的业务布局显示,其已经先发制人。

第一天做大模型,科大讯飞就确定了“1+N路径”。结合通用底座、工具链和知识工程,讯飞星火拥有从顶层规划到执行落地的全套解决方案,包含“建算力、理数据、训模型、落场景、保安全、精运营”。


发展至今,在大模型招投标市场,科大讯飞央国企中标数量和中标金额双第一,还获得教育、医疗、金融等多个领域应用第一,其中在教育领域,其服务1.3亿师生、5万余所学校,深度参与12个国家智慧教育示范区建设;医疗领域智医助理覆盖677个区县服务全国600家等级医院,与7家排名前十医院深度合作;金融领域交行、人保等头部金融客户占位中标27个。

这些深度合作的行业案例已经成为科大讯飞发展大模型的关键积累,并反哺行业,以技术迭代、效率提升等形式,为行业发展注入源源不断的动力,实现互利共赢的良性循环。

国内全产业链的协作使得中国大模型产业的发展迈入新的阶段,科大讯飞的布局也已经为产业链发展打了个样。

科大讯飞的生态布局可以用一句话概括:加强C端用户体验、深耕B端行业应用以及选择G端合作的战略布局

刘庆峰提到,科大讯飞要做的事是加强C端、做深B端,选择G端。学习机是科大讯飞必做的大模型时代的跨越鸿沟的C端产品;B端持续深化合作汽车、金融和运营商;G端选准城市,抢抓机遇。

科大讯飞已经在全国产平台的基础上长出参天大树,并从芯片适配到框架优化,形成一套可复用的“国产算力大模型方法论”,推动国产技术的崛起。

结语:DeepSeek掀起浪潮,讯飞用国产算力借势突围

DeepSeek爆火改变了大模型产业的发展格局,就连OpenAI CEO萨姆·阿尔特曼(Sam Altman)也坦言OpenAI的领先优势正在缩小。

在这波变革浪潮中,算法创新持续迭代,也让全国产算力平台的重要性愈发凸显。科大讯飞的前瞻性布局在此刻被推向新的巅峰。

已经在全国产算力平台、模型场景应用、生态协作布局上闯出一条路径的科大讯飞,已经将大厦建在国产的地基上,助推中国AI产业在全球竞争中迈出关键一步。

ad1 webp
ad2 webp
ad1 webp
ad2 webp