◆从1月20日推理模型DeepSeek-R1开源至今13天来,DeepSeek引起全球的惊讶,英伟达市值一周蒸发5520亿美元,硅谷巨头的恐慌,华尔街的焦虑。DeepSeek选择了与OpenAI截然不同的模型训练路线,并凭借高性能、低价格与开源对AI格局造成了三重冲击,动摇了英伟达的“算力信仰”。当地时间1月31日,OpenAI紧急推出了全新推理模型o3-mini,并首次向免费用户开放。同时,阿尔特曼承认,DeepSeek是一个非常好的模型,OpenAI领先优势会比以前减弱。AI的未来,何去何从?对此,《每日经济新闻》记者深度解析DeepSeek在短短的13天是如何撼动全球AI市场。
◆美国2月1日起对墨加商品征收25%关税;美国20多年来“最严重空难”已打捞出41具遗体;2812美元!金价创10年来“最佳一月表现”;KRAS癌症疗法取得突破,生物科技公司Silexion周涨逾193%。更多内容,尽在《一周国际财经》。
狂飙13天:开源DeepSeek如何撼动全球AI市场
图片来源:视觉中国
2025年1月中旬,英伟达CEO黄仁勋的中国之行备受瞩目。从北京到深圳,再到台中和上海,这位AI时代的“卖铲人”每到一处都掀起一阵热潮。然而,就在距离英伟达上海办公室仅200公里的杭州,一场足以撼动AI产业格局的风暴正在悄然酝酿。彼时,身家1200亿美元的黄仁勋或许并未意识到,一家名为深度求索(DeepSeek)的低调中国公司,即将在7天后成为英伟达的“黑天鹅”。
从1月20日推理模型DeepSeek-R1开源至今13天来,DeepSeek引起全球的惊讶,英伟达市值一周蒸发5520亿美元,硅谷巨头的恐慌,华尔街的焦虑。
DeepSeek 的“闪电战”:性能、价格与开源三重冲击
1月21日,特朗普在白宫宣布启动四年总投资5000亿美元、名为“星际之门”(Stargate)的AI基础设施计划。
前一天(1月20日),DeepSeek悄然开源了推理模型DeepSeek-R1。
随后,英伟达自己的科学家Jim Fan率先解读出了它的颠覆性意义。他说:“我们生活在这样一个时代:由非美国公司延续OpenAI最初的使命——做真正开放的前沿研究、为所有人赋能。”
然而,那一周全球的目光都聚焦在刚刚上任的特朗普身上。
但临近周末,DeepSeek突然成为科技圈、投资圈和媒体圈讨论的对象。摩根大通分析师Joshua Meyers说:“周五,我收到的问题95%都是围绕Deepseek的。”
有市场评论员预言,DeepSeek是“美国股市最大的威胁”。
但为时已晚,英伟达的跌势已经开始。1月24日(周五)英伟达股价跌去3.12%。1月27日(周一),英伟达遭遇17%的“历史性”大跌,市值蒸发近6000亿美元,黄仁勋的个人财富一夜之间缩水208亿美元。
DeepSeek-R1带来的最直接冲击来自三个方面:性能、价格和开源。
性能比肩 o1
1月24日(周五)发布的聊天机器人竞技场(Chatbot Area)榜单上,DeepSeek-R1综合排名第三,与OpenAI的ChatGPT o1并列。在高难度提示词、代码和数学等技术性极强的领域以及风格控制方面,DeepSeek-R1位列第一。
“白菜价”颠覆市场
DeepSeek-R1的价格低得惊人:API端口缓存命中1元/百万Tokens,缓存未命中4元/百万输入 tokens,输出16元/百万Tokens。仅为o1的2%~3%。
DeepSeek移动应用和网页端免费,而能力相当的 ChatGPT o1一个月200美元。
完全开源
DeepSeek-R1完全开源,任何人都可以自由地使用、修改、分发和商业化该模型,彻底打破了以往大型语言模型被少数公司垄断的局面,将AI技术交到了广大开发者和研究人员的手中。
1月24日,著名投资公司A16z的创始人马克·安德森发文称,Deepseek-R1是他见过的最令人惊叹、最令人印象深刻的突破之一,而且还是开源的,它是给世界的一份礼物。
最具煽动性的评价来自Scale AI创始人亚历山大·王(Alexandr Wang)。他说:过去十年来,美国可能一直在AI竞赛中领先于中国,但DeepSeek的AI大模型发布可能会“改变一切”。
华尔街的焦虑:DeepSeek 动摇了英伟达的“算力信仰”吗?
相比于技术,投资者更关心自己投资的公司将遭遇怎样的挑战。
他们开始思考,如果DeepSeek的低成本训练有效,是否意味着巨头们在算力上的投入不值得了。如果不需要疯狂投入,市场对英伟达的业绩预期还有支撑吗?
正如投行Jeffreies股票分析师Edison Lee团队1月27日在研报中所说,如今美国AI企业的管理层可能面临更大的压力。他们需要回答一个问题:进一步提高AI资本支出是否是合理的?
硅谷公司还面临着投资者的拷问。1月27日上午,高盛分析师Keita Umetani和多名投资者进行了谈话,不少投资者质疑:“如果没有回报,还能证明资本支出的合理吗?”
图片来源:视觉中国
随后,华尔街投行们纷纷发布报告安抚市场。
摩根大通分析师Joshua Meyers说,DeepSeek的(低成本)并不意味着扩张的终结,也不意味着不再需要更多的算力。
花旗分析师Atif Malik团队称,尽管DeepSeek的成就可能是开创性的,但如果没有使用先进的GPU对其进行微调和/或通过蒸馏技术构建最终模型所基于的底层大模型,DeepSeek的成就就不可能实现。
DeepSeek-R1的训练成本尚未公布。因此,一个月前(去年12月26日)发布的开源模型DeepSeek-V3成为主要分析对象。
DeepSeek-V3仅使用2048块英伟达H800 GPU,在短短两个月内训练完成。H800是英伟达特供中国市场的AI芯片,在性能上不及先进的H200、H100等。
官方声称的558万美元只是训练开销,真实总支出尚无定论。《DeepSeek-V3技术报告》中明确指出:请注意,上述成本仅包括 DeepSeek-V3的正式训练,不包括与架构、算法或数据相关的先前的研究或精简实验的成本。
“当部门里一个高管的薪资就超过训练整个DeepSeek-V3的成本,而且这样的高管还有数十位,他们该如何向高层交代?”Meta员工如是说。
DeepSeek训练成本低,一个重要原因是使用了数据蒸馏技术(Distillation)。数据蒸馏是将复杂模型的知识提炼到简单模型。通过已有的高质量模型来合成少量高质量数据,并作为新模型的训练数据。
根据技术报告,DeepSeek-V3利用DeepSeek-R1模型生成数据后,再使用专家模型来蒸馏生成最终的数据。
不过,数据蒸馏技术在行业内充满争议。南洋理工大学研究人员王汉卿向《每日经济新闻》记者表示,蒸馏技术存在一个巨大缺陷,就是被训练的模型(即“学生模型”)没法真正超越“教师模型”。OpenAI也把DeepSeek的蒸馏当作靶子加以攻击。
1月29日,OpenAI首席研究官Mark Chen发帖称,“外界对(DeepSeek的)成本优势的解读有些过头”。
不过,DeepSeek-V3的创新不仅于此。
资深业内人士向每经记者分析称,DeepSeek-V3创新性地同时使用了FP8、MLA(多头潜在注意力)和MoE(利用混合专家架构)三种技术。
相较于其他模型使用的MoE架构,DeepSeek-V3的更为精简有效,每次只需要占用很小比例的子集专家参数就可以完成计算。这一架构的更新是2024年1月DeepSeek团队提出的。
图片来源:arXiv
MLA机制则是完全由DeepSeek团队自主提出、并最早作为核心机制引入了DeepSeek-V2模型上,极大地降低了缓存使用。
技术路线之争:DeepSeek 的“原创”与 OpenAI 的“大力出奇迹”
2024年12月,清华大学计算机系长聘副教授、博士生导师喻纯在谈及中国AI发展时向《每日经济新闻》表示,中国在AI应用层有很大的优势,擅长“从1到10”,但原始创新能力(从0到1)还有待提高。
现在,这一看法可能不再适用了。
DeepSeek带来的最大“震撼”,是蹚出了一条与OpenAI截然不同的模型训练路径。
传统上,监督微调 (Supervised Fine-Tuning,简称 SFT)作为大模型训练的核心环节,需要先通过人工标注数据进行监督训练,再结合强化学习进行优化,这一范式曾被认为是 ChatGPT成功的关键技术路径。
但是,DeepSeek-R1-Zero是首个完全摒弃了SFT环节、而完全依赖强化学习(Reinforcement Learning,简称 RL)训练的大语言模型。DeepSeek-R1正是在R1-Zero的基础上进行了改进。
英伟达高级研究科学家Jim Fan用大白话解释说:
SFT是人类生成数据,机器学习;
RL是机器生成数据,机器学习。
这一突破为AI的自主学习范式提供了重要的实践范例。
DeepSeek为何不走捷径,而是寻求一条与OpenAI完全不同技术路线?背后的理由可以从创始人梁文锋的理想中探寻。
《每日经济新闻》记者了解到,DeepSeek规定员工不能对外接受采访。即便是DeepSeek用户群里的客服工作人员在解答群友疑问时也是小心翼翼,惜字如金。
寻找梁文锋的人更是踏破铁鞋。外界对他的了解大多来自于2023年5月和2024年7月《暗涌》对他的专访。专访文章将他称为“一个更极致的中国技术理想主义者”。和OpenAI创始人山姆·阿尔特曼(Sam Altman)一样,梁文锋的“目的地”是通用人工智能(AGI)。然而,梁文锋的理想不在于目的地,而是如何通往目的地。
DeepSeek选择“不做垂类和应用,而是做研究,做探索”“做最难的事”“解决世界上最难的问题”。
梁文锋口中的“难”,就是“原创”二字。
他说:“我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。”
对于选择和OpenAI不一样的路,梁文锋的口气中充满乐观:ChatGPT诞生在OpenAI“也有历史的偶然性”“OpenAI也不是神,不可能一直冲在前面”。
当地时间周一(1月27日)晚间,OpenAI首席执行官山姆·阿尔特曼终于对DeepSeek给出了他的评价。他在社交平台X上连发三条值得玩味的帖子。
首先,他重申了自己的目标——AGI。甚至比梁文锋更进一步,要“超越”AGI。
其次,他捍卫了自己的“路线”——算力不仅重要,而且前所未有地重要。
最后,他将DeepSeek-R1称作“一位新对手”,并表示“我们当然会推出更好的模型”。
当地时间1月31日,在携一众高管在reddit上举行AMA(问我任何问题)活动时,阿尔特曼正式承认DeepSeek是一个非常好的模型,OpenAI会制作出更好的模型,但领先优势会比以前减弱。
这是否是山姆·阿尔特曼向DeepSeek下的“宣战书”?他想较量的不仅关于谁是“更好的模型”,更是想用“大力出奇迹”的技术与“聪明”的技术进行一场比拼。
产业生态的博弈:微软、英伟达、AWS纷纷接入DeepSeek-R1
一边是硅谷、华尔街都在激辩DeepSeek的影响;另一边,科技巨头已经下场无缝连接DeepSeek-R1模型服务。
先是微软,当地时间1月29日,将DeepSeek-R1模型添加到其Azure AI Foundry,开发者可以用新模型进行测试和构建基于云的应用程序和服务。
1月29日的第四季度业绩电话会上,微软首席CEO萨提亚·纳德拉(Satya Nadella)再次肯定了DeepSeek“确实有一些真正的创新”,并且宣布DeepSeek-R1已可通过微软的AI平台Azure AI Foundry和GitHub获取,并将很快在微软AI电脑Copilot+ PC上运行。
虽然微软是OpenAI的深度投资者且有很多合作,但在产品商业化上它依然选择多样性的模型。目前Azure的平台上既有OpenAI的GPT系列、Meta的Llama系列、Mistral的模型,现在新增了DeepSeek。
紧接着,AWS(亚马逊云科技)也宣布,用户可以在Amazon Bedrock和Amazon SageMaker AI两大AI服务平台上部署DeepSeek-R1模型。
再然后是英伟达于当地时间1月31日官宣,DeepSeek-R1模型已作为NVIDIA NIM微服务预览版,在英伟达面向开发者的网站上发布。
英伟达还在官网中表示,DeepSeek-R1是一个具有最先进推理能力的开放模型。DeepSeek-R1等推理模型不会提供直接响应,而是对查询进行多次推理,采用思路链、共识和搜索方法来生成最佳答案。此前,1月28日,英伟达(中国)在对每经记者的回应中说到:“推理过程需要大量英伟达GPU和高性能网络。”
想要在AI算力领域挑战英伟达的AMD也毫不犹豫为DeepSeek“站台”。1月25日,AMD宣布,DeepSeek-V3模型已集成至AMD InstinctGPU上,并借助SGLang进行了性能优化。此次集成将助力加速前沿AI应用与体验的开发。
阿斯麦总裁兼CEO富凯1月29日表示:“任何降低成本的事情,对阿斯麦来说都是好消息”,因为更低的成本意味着更多的应用场景,更多应用意味着更多芯片。
DeepSeek冲击波的深远影响:AI的未来,何去何从?
2020年1月,OpenAI发表论文《神经语言模型的规模法则》(Scaling Laws for Neural Language Models)。规模法则表明,通过增加模型规模、数据量和计算资源,可以显著提升模型性能。在AI领域,规模法则被俗称为“大力出奇迹”,也是OpenAI的制胜法宝。
2024年底,AI界传出大模型进化遭遇“数据墙”的消息。美国技术研究公司Epoch AI预测,互联网上可用的高质量文本数据可能会在2028年耗尽。图灵奖得主杨立昆(Yann LeCun)和OpenAI前首席科学家伊利亚•苏茨克维(Ilya Sutskever)等人直言,规模法则(Scaling Law)已触及天花板。
“大力出奇迹”的忠实拥趸——硅谷巨头们开始将千亿美元级的资本投入算力。这场“算力竞赛”的疯狂程度从下面这些数据中可见一斑。
图片来源:每经制图
但是,DeepLearning创始人吴恩达1月29日撰文提醒称,扩大规模(Scaling up)并非是实现AI进步的唯一途径。一直以来……人们过度关注扩大规模,而没有以更细致入微的视角,充分重视实现进步的多种不同方式。但算法创新正使训练成本大幅下降。
DeepSeek-R1开源至今已经过去13天,关于它的讨论还在继续。
DeepSeek的出现让人们开始重新审视开源的价值和风险,以及AI产业的竞争格局。这场由DeepSeek引发的“冲击波”,将对全球AI产业产生深远的影响。
未来的AI世界,是“大力出奇迹”的继续狂飙,还是“聪明”技术的异军突起?是巨头垄断的固化,还是百花齐放的繁荣?
DeepSeek出现,让AI界开始真正严肃地思考未来:是继续烧钱豪赌,还是让AI成果商业化、平民化和普惠化?
随着训练成本降低、技术成熟以及开源,大语言模型将愈发成为一种普通产品。
1月31日,Hugging Face联合创始人兼CEO托马斯・沃尔夫(Thomas Wolf)说:“我认为人们正在从对模型的狂热中冷静下来,因为他们明白,得益于开源……很多这类模型将会免费且可自由获取。”
巧合地是,同日,OpenAI正式推出了全新推理模型o3-mini,并首次向免费用户开放推理模型。这是OpenAI推理系列中最新、成本效益最高的模型,现在已经在ChatGPT和API中上线。在o3mini正式推出之时,Sam Altman携一众高管在reddit回答网友问题时,罕见承认OpenAI过去在开源方面一直站在“历史错误的一边”。Altman表示:“需要想出一个不同的开源策略”。
美国2月1日起对墨加商品征收25%关税
图片来源:视觉中国
据央视新闻,当地时间1月31日,美国白宫新闻发言人卡罗琳·莱维特在简报会上表示,确认将从2月1日起对墨西哥和加拿大商品征收25%的关税。
美国总统特朗普当天表示,将对芯片、石油和天然气等商品征收关税,石油和天然气关税很可能在2月18日前实施。当天特朗普还表示,将把对加拿大石油的关税下调至10%。
当地时间1月31日,加拿大总理特鲁多表示,如果美国总统特朗普选择对加拿大加征关税,加拿大已准备好作出回应。
此外,特朗普31日还表示,由于欧盟拒绝进口美国汽车以及农作物等,为了寻求对等,将对其征收关税。不过,莱维特指出,特朗普尚未确定对欧盟征收关税的时间表。
当地时间1月22日,欧盟经济专员瓦尔迪斯·东布罗夫斯基斯在达沃斯论坛上表示,如果美国总统特朗普对欧洲征收关税,欧洲将以相应的方式回应。
美国20多年来“最严重空难” 已打捞出41具遗体
据央视新闻,当地时间1月31日,美国首都华盛顿特区消防和警方等部门官员在华盛顿里根国家机场就客机与军用直升机相撞坠河事件的救援、调查等问题举行新闻发布会。
会上,华盛顿特区消防和急救部门负责人约翰·唐纳利表示,救援人员已经找到41具遇难者遗体,其中28名遇难者的身份已经确认,已通知18名遇难者家属。但需要拆除发生碰撞的飞机机身,才能将所有遇难者遗体打捞出来。
唐纳利表示,将尽全力确认所有遇难者身份。
图片来源:央视新闻
当地时间1月29日,2001年以来美国最为严重的民航空难发生。美国一架客机在首都华盛顿与一架军方直升机相撞,两机发生爆炸后坠河,无人生还,共有67人遇难。
当地时间1月30日,中国驻美国大使馆表示,经初步了解,本次事故遇难者中有2名中国公民。
在当地时间1月30日的记者会上,尽管没有提供证据,但美国总统特朗普批评飞行员和塔台空管员,认定事故原因与美国联邦政府倡导多元化的一系列举措有关。身为共和党人的特朗普指出,民主党人拜登、奥巴马在执政期间推动的一系列多元化政策导致联邦航空管理局招聘标准下降、工作人员能力不足,是撞机事故发生的深层次原因。对此,民主党人和一些民权组织指责特朗普正在“把空难政治化”。
据英国独立报1月31日报道,当被问到他是否会前往华盛顿波多马克河坠机事故现场时,特朗普语带嘲讽地反问记者:“你想让我去游泳吗?”报道指出,社交媒体其后出现大量批评特朗普冷酷无情的言论。
KRAS癌症疗法取得突破,生物科技公司Silexion周涨逾193%
美东时间周三(1月29日),美股生物科技公司Silexion Therapeutics收盘大涨超132.59%。前一天,该公司宣布其针对KRAS靶点癌症的候选新药SIL-204取得重要临床前结果。
本周,该公司股价累计上涨193.21%,目前市值约为759万美元。
候选新药SIL-204旨在抑制多种在人类癌症中普遍存在的致癌KRAS突变。KRAS是多种肿瘤中最常见的突变基因,能诱发包括非小细胞肺癌、结直肠癌和胰腺癌在内的多种癌症。
临床前数据显示,采用缓释剂型给药的SIL-204在30天后使肿瘤生长减少了约50%,在移植到小鼠体内的携带G12D突变的人类胰腺肿瘤中,约50%的肿瘤完全坏死。此外,单次系统性给药SIL-204在大鼠血浆和组织中维持有效药物浓度超过56天。
图片来源:公司官网
Silexion Therapeutics首席科学官Mitchell Shirvan博士强调SIL-204有潜力治疗晚期癌症。公司计划扩大其针对KRAS靶点癌症的开发策略,进一步研究该药物对转移性进展的影响。公司计划很快开始SIL-204的毒理学研究,并准备在2026年上半年进入II期和III期临床试验。
Silexion Therapeutics以其在RNA疗法领域的开创性工作而闻名,此前其第一代产品LODER在不可切除胰腺癌的II期试验中取得了令人鼓舞的结果。公司致力于推进癌症治疗,专注于改善具有挑战性的癌症类型患者的预后。
近期,Silexion Therapeutics 对其资本结构进行了重大调整,包括反向股票拆分和未行使认股权证的调整。股东以压倒性多数批准了1比9的反向股票拆分,这整合了公司已发行和流通的普通股,以及授权但未发行的股份。公司董事会实施这一战略举措,旨在使其资本结构与运营和财务策略保持一致。
目前分析师对Silexion Therapeutics维持9美元的股票目标价。目前,投资该公司的主要机构包括TPG资本创始人大卫·邦德曼的家族办公室野猫资本管理有限公司、HRT(哈德逊河贸易公司)量化基金、前纽交所主席文森特·维奥拉创立的维图金融和瑞银。
英伟达周跌超15%,金价创10年来“最佳一月表现”
周五收盘,美股三大指数集体收跌,纳指跌0.28%,本周累跌1.64%;标普500指数跌0.50%,本周累跌1%;道指跌0.75%,本周累涨0.27%。
美股“七姐妹”中,英伟达周五收跌3.67%,市值一夜蒸发1122亿美元(约合人民币8136亿元)。此前,周一美股收盘,英伟达下跌近17%,收报118.42美元,单日的市值蒸发规模达到5890亿美元,为美国股市历史上最大。本周,英伟达累跌15.8%,市值蒸发5520亿美元。
对特朗普关税政策的担忧和黄金套利交易共同推动了黄金“抢购潮”。2025年开年以来,黄金延续上涨行情。纽约期金本周累涨近1.3%,连涨五周,一月累涨近7%,收于2812.50美元/盎司,创下2015年以来的“最佳一月表现”。
据报道,摩根大通计划交付价值超过40亿美元的金条,拟交付的金条总重3000万盎司,将是纽约商品期货交易所(COMEX)自1994年有数据记录以来第二大交付量。
免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。
记者:王嘉琦 蔡鼎 宋欣悦 高涵
主编:王嘉琦
编辑:高涵 兰素英
视觉:刘青彦
排版:高涵