日活用户突破2000万,与中国移动、华为、金山办公、吉利汽车等企业相继达成合作,DeepSeek迎来了高光时刻。
在互联网巨头争相进入AI行业的今天,企业为实现技术领先,纷纷斥巨资买数据和算力芯片,打造万卡集群。然而DeepSeek却选择了与众不同的以“花小钱办大事”路线,推出的V3模型训练成本仅557.6万美元,最新的R1模型,则以V3模型为基座,号称能力不输OpenAI开发的o1大模型。
在训练成本仅为其他AI大模型数十分之一的前提下,DeepSeek-R1真的能够持平o1大模型,傲视国内诸多AI大模型吗?
实践出真知,小雷决定将其与国内用户数量较高、名气较大的豆包、Kimi、文心一言、通义千问四款AI大模型进行对比,测试DeepSeek-R1是否真如宣传中一般强大。
挑战四大AI大模型,DeepSeek技高一筹?
架构优化、算力升级后、参数量增加后,AI大模型的功能愈发丰富,值得挖掘的细节也越来越多。本次测试,小雷选择了我们日常使用较多的内容分析、创意写作、数学推理三个项目。
参与测试的五款大模型,具体版本分别为DeepSeek-R1、豆包云雀、Kimi-k1.5、文心3.5、通义千问2.5,均可免费使用。
内容分析:DeepSeek-R1傲视群雄
为加快工作效率,不少职场人士会使用AI工具帮忙总结文档、PDF等文件。小雷挑选了京东、第一财经联合发布的《2024年轻人生活方式及营销趋势》文档,测试各大AI大模型能否总结出重点内容,帮助小雷快速了解2024年年轻消费群体的特点。
此前小雷评测AI大模型时,曾吐槽AI大模型难以分析出文档的核心内容,导致输出的结果车轱辘话来回转,但短短三四个月时间过去,AI大模型的文档总结能力已得到了飞跃性的提升。
本轮测试中,除了通义千问没有明显进步,总结的内容过于简略,信息缺失严重外,其他几款大模型均表现出色,尤其是豆包和Kimi,不但总结出了2024年的十大趋势,还对2025年的生活方式趋势展望进行了归类。同时,Kimi还指出,90后和00后消费占比过半,强调了年轻消费群体的重要性。文心一言表现则中规中矩,总结出了2024年的十大趋势,却忽略了2025年展望的相关内容。
(图源:通义千问截图)
作为本次评测的主角,DeepSeek-R1表现更为出色,在总结出的每一个趋势下,还会加入一些数据或产品作为事例,与观点互相印证,增强内容的可靠性。许多AI撰写的文章能够一眼认出,原因就在于AI生成的内容较为空虚,没能落到实处,经常缺乏例证,DeepSeek-R1显然已进入了更高层次。
(图源:DeepSeek截图)
总的来说,本轮测试中DeepSeek-R1证明了自己名副其实,表现超越其他四款AI大模型。而另外四款AI大模型中,豆包和Kimi的表现则明显高出一个层次,免费版的文心3.5表现一般,通义千问则表现较差。
创意内容撰写:DeepSeek再胜一场
2月5日,小说平台阅文集团和数字出版社中文在线接连宣布,已接入DeepSeek-R1,将通过AI提高作者的创作效率,但AI真的能够取代网文作者吗?
小雷要求AI大模型以古龙风格写一篇5000字到10000字的武侠小说,并输入大纲:
天南剑宗第一高手叶飞霜与太玄门掌门慕容宸约战华山之巅,双方各带本门弟子助阵。慕容宸却暗中与五大黑道势力合作,企图彻底消灭天南剑宗。
然而天南剑宗实则为六扇门安插在江湖的势力,目的便是借助此次门派约战引出黑道势力,并将其一举消灭。在黑道势力联手太玄门围攻天南剑宗弟子时,六扇门大军背后包抄,彻底消灭了为祸一方的黑道势力和太玄门。
与此前限定范围的测试不同,写武侠小说虽有大纲限制,但可发挥空间极大,各大AI大模型之间的差距和风格也会表现出较为明显的差异。
本轮测试中,豆包和Kimi在撰写时,分别为其取名为《剑影风云录》和《龙影霜华录》,与古龙大多数小说的取名风格并不相符,反而更像梁羽生的习惯。DeepSeek-R1、文心一言并未为小说取名,通义千问则是简单地命名为《华山之巅》。
(图源:豆包截图)
内容方面,通义千问依然是倒数,缺乏细节描写和转折,小雷未提到的人名或帮派名称,通义千问也没有主动加入任何一个。Kimi生成的内容质量更好一些,细节较为丰富,对于大纲的理解也更加到位,但与通义千问相同,仅仅是在大纲原定的人物着笔。
DeepSeek-R1、文心一言、豆包生成的内容质量更好,人物、招式、门派名称齐全,且剧情存在不少转折,还主动丰富了细节。例如DeepSeek-R1撰写的小说中,两位主人公原本是好朋友,因女人反目成仇,为续写埋下了伏笔;文心一言生成的内容中,叶飞霜在战斗中差点走火入魔,得到师兄相助才反败为胜;豆包则主动续写了一段内容,加入了叶飞霜功成名就后,被身边挚友背叛的情节。
(图源:DeepSeek截图)
遗憾的是,文心一言生成的内容忽视了大纲中的六扇门,将故事完全写成了江湖恩怨,豆包续写的内容反派刻画太少,导致小雷对其的评分稍微降低了一些。
这一轮测试DeepSeek-R1的表现依然远远领先其他AI大模型,但并不是其他几款AI大模型表现不好,文心一言和豆包的表现已经超过了小雷的预期,只是DeepSeek-R1的表现太好了,有情感纠葛、剧情转折,尤其是结尾部分的内容,颇有古龙遗风。
现阶段AI大模型写小说依然会有些吃力,需要用户尽可能将大纲细化。小雷匆忙想出的大纲过于笼统,或许是通义千问和Kimi表现不好的原因之一。
数学推理:AI大模型永远的痛
2024年苹果工程师曾发表了一篇论文,吐槽AI大模型并没有真实的数学推理能力,AI企业的宣传存在夸大成分。随后,各大AI企业纷纷以“复杂推理”为噱头,陆续推出了全新的大模型版本。然而数月时间过去,AI大模型真的具备推理能力了吗?
本轮测试小雷选择的数学题是2024年高考一卷第十四题,具体内容为:
甲、乙两人各有四张卡片,每张卡片上标有一个数字,甲的卡片上分别标有数字1,3,5,7,乙的卡片上分别标有数字2,4,6,8,两人进行四轮比赛,在每轮比赛中,两人各自从自己持有的卡片中随机选一张,并比较所选卡片上数字的大小,数字大的人得1分,数字小的人得0分,然后各自弃置此轮所选的卡片弃置的卡片在此后轮次中不能使用则四轮比赛后,甲的总得分不小于2的概率为?(正确答案:1/2)
站在人类的角度上,这道题的难度其实并不高,哪怕将每一种可能全部列出来再计算,所需的时间也不会特别多。然而在AI大模型眼中,这道题却是难上了天,DeepSeek-R1、豆包给出的答案都是17/24,Kimi、文心一言、通义千问给出的答案分别是1971/4096、243/256、551/576,居然再一次全部阵亡。
(图源:DeepSeek截图)
随后小雷又用OpenAI的o1、o3 mini、GPT-4o三款大模型进行了计算,这三款大模型都算出了正确答案,但细节上也存在一些问题,如o1模型输出内容时出现了2=1/2,但不影响其计算出了正确答案。该情况表明,在数学推理方面,DeepSeek-R1与OpenAI旗下的大模型可能还有一定的差距。
(图源:o1大模型截图)
最有趣的不是这些离谱的答案,而是AI大模型的推理过程,DeepSeek-R1和Kimi-k1.5会不断打断自己的思考过程,选择新的方案。数学推理依然是当前AI大模型难以攻克的关隘,前两项测试领先其他国产AI大模型的DeepSeek-R1,也在本轮测试中未能拉开差距。
盛名之下无虚士,DeepSeek的荣耀实至名归
2024年12月,DeepSeek-V3大模型刚上线之时,小雷便对其进行了测试。当时小雷的评价是,DeepSeek-V3在内容总结、文字生成方面能够媲美豆包、Kimi,但功能丰富性远不及其他AI智能体。
仅一个多月时间过去,基于V3大模型调整的R1大模型就实现了质的飞跃,在内容总结、文字生成方面相较赫赫有名的豆包、Kimi、文心一言、通义千问等AI大模型居然领先不少。当然,数学推理方面大家还是一样地“菜”,OpenAI仍处于领先地位。
DeepSeek-R1仅仅做到能力强,无法造成这么大的影响,最关键的是其训练成本大约只有600万美元,远低于GPT-4,预计只有GPT-5的1/200甚至更低。
(图源:豆包AI生成)
过去我们的认知中,提升AI大模型的行业需要堆算力、买数据,AI企业也确实在这样做,如小米要建万卡集群、字节跳动计划在2025年投入400亿元购买AI算力芯片。Macquarie分析师质疑DeepSeek隐瞒了开发成本,经过他们的计算,R1大模型的训练成本应该在26亿美元左右。
DeepSeek却告诉我们,只需要数百万美元,折合人民币不到9位数,就能训练出媲美OpenAI o1大模型的产品。因DeepSeek-R1的冲击,最近一段时间全球算力芯片主要提供者NVIDIA股价一路狂跌,近两天虽有所回暖,但依然未能回到巅峰时期。
借助DeepSeek-R1的卓越表现,DeepSeek瞬间成为了AI行业的香饽饽,与各行各业巨头达成合作,甚至在工业AI领域实力超群的华为,也让小艺接入了DeepSeek-R1。因用户数量太多,近期DeepSeek官网频频出现服务器繁忙,API调用充值入口也因人数太多被关闭。
DeepSeek-R1训练和推理成本虽低,可大量用户涌入,DeepSeek当前拥有的算力,已无法满足用户的需求。中国企业最擅长的就是从1到正无穷,DeepSeek指明了道路,其他AI企业将快速跟上。DeepSeek若想留住这波流量,增加算力规模、提高用户体验迫在眉睫。