新智元报道
编辑:Aeneas 好困
【新智元导读】他们急了!特朗普的AI沙皇和微软纷纷指控DeepSeek「偷窃」数据,DeepSeek不断遭受来自美国IP的不间断大规模攻击。Anthropic CEO更是发出檄文:再不加强对中国的芯片管制,就来不及了!
它急了,它急了!
就在昨天,美国各方频频发出对DeepSeek「偷窃数据」的指控。
先是特朗普的AI事务主管David Sacks声称,有所谓「确凿证据」表明DeepSeek利用了OpenAI模型的输出数据来开发自身技术。
然后微软的研究人员就跟着站出来表示,与DeepSeek相关的个人,曾在去年秋天使用OpenAI的API大规模提取数据。
刚刚, Anthropic CEO Dario Amodei也发出了长篇檄文:DeepSeek的进展表明,美国应该加强对华芯片出口管制!
不仅如此,美国还针对DeepSeek的线上服务,进行不间断的大规模攻击。
直到目前,API和网页对话服务都还处于异常状态。
据悉,美国海军已向相关人员发出邮件示警,提醒「不得以任何形式下载、安装或使用DeepSeek模型」。
而作为美国忠实「盟友」的意大利,也在第一时间跟进了制裁——直接把苹果和谷歌应用商店里的DeepSeek APP,全给下架了。
苹果App Store向意大利用户显示的通知称,该应用「目前在您所在的国家或地区不可用」。谷歌应用平台则显示在意大利「不支持」下载。
微软和OpenAI:DeepSeek偷我们数据,有证据
DeepSeek仅用了2048块英伟达H800,投入560万美元,就训出了约6710亿参数的V3模型,由此引发前所未有的风暴。
彭博社表示,如今微软和OpenAI已经在展开调查,DeepSeek是否曾以未经授权的方式,获得了OpenAI的数据输出。
他们表示,这类活动可能已经违反了OpenAI的服务条款,或者说相关团体正在试图绕过OpenAI对可获取数据量的限制。
知情人士透露,微软作为OpenAI的技术合作伙伴及其最大投资者,已将此事透露给了OpenAI。
彭博社这样描述DeepSeek-R1模型引起的轰动效应:「这一潜在威胁动摇了美国科技公司的行业领先地位,导致与AI相关的科技股大跌,包括微软、英伟达、甲骨文以及谷歌母公司Alphabet。本周一,这些公司的市值合计蒸发近1万亿美元。」
特朗普的AI事务专员David Sacks周二表示,已有「证据」表明DeepSeek利用了OpenAI模型的输出来开发自己的技术。
在接受福克斯新闻采访时,Sacks表示,DeepSeek利用蒸馏技术获得了能力,即一个AI模型使用另一个模型的输出进行训练。
「有确凿证据表明DeepSeek通过蒸馏技术提取了OpenAI模型的知识,而我认为OpenAI对此并不高兴。」
不过,到底都有哪些证据,却只字未提。
OpenAI:正在展开调查
而针对Sacks的言论,OpenAI也在一份声明中表示,中国的一些团队「正在使用包括蒸馏在内的方法,试图复制美国先进的AI模型。」
我们已经注意到DeepSeek可能不当蒸馏我们模型的迹象,正在对之审查,并将在掌握更多信息后进行分享。 我们正在采取一系列保护措施来维护知识产权,包括谨慎评估在发布模型时应包含哪些前沿技术能力。 我们认为,与美国政府保持密切合作对于保护最先进的模型至关重要,这可以防止竞争对手和其他相关方获取美国的核心技术。
在业界,蒸馏其实是一种常见做法。
但在OpenAI但服务条款中,有这么一条规定:用户不得「复制」其任何服务或「使用输出来开发与OpenAI存在竞争的模型」。
有专家指出,DeepSeek在训练中用到了GPT-4的输出
业内人士透露,中美两国的AI实验室,普遍都会用OpenAI模型的输出内容。毕竟OpenAI斥巨资雇佣了人员训练模型产生更接近人类的响应,这种人类对齐训练成本高昂,需要大量人力。
UC伯克利的AI博士生Twik Gupta就表示:「初创公司和学术界普遍会使用ChatGPT等经过人类对齐的商业LLM输出,来训练新模型。这相当于免费获得了人类反馈这个训练环节。」
DeepSeek是「克隆」?LeCun转发:不懂别瞎说
对于这些流传甚广的说法,LeCun前几日就转发了Perplexity CEO Aravind Srinivas的帖子,表示澄清。
Aravind Srinivas写道,很多人以为中国克隆了OpenAI的成果,他们明显对模型训练方式的理解很片面。
DeepSeek已经找到了强化学习微调的方法,他们的「DeepSeek-R1 Zero」论文中,也没有使用监督微调。
随后,他们结合了一些SFT,并通过良好的拒绝采样(即过滤)来增加领域知识。
DeepSeek-R1之所以表现出色,主要原因在于它是从零开始学习推理能力,而不是简单模仿人类或其他模型。
机器学习大牛Sebastian Raschka也对于这种说法表示驳斥。
他表示,在LLM的背景下,「蒸馏」这个术语的使用已经相当宽泛。
团队只是为SFT创建并整理了一个数据集,用于训练基于Qwen和Llama的R1模型。
Anthropic CEO长篇檄文:加大制裁力度,赶紧的
Anthropic CEO Dario Amodei也刚刚发出万字檄文,对美国政府发出警告——
DeepSeek的崛起,就证明美国对华的芯片管制应该继续加码!
有趣的是,针对Amodei的行为,LeCun转发了以下这个梗图。
檄文全文如下。
出口管制肩负着一个重要使命:确保我们在AI发展中保持领先地位。为此,美国及其盟友的AI公司就必须开发出比中国更优秀的模型。
几周前,我曾提出加强美国对华芯片出口管制的理由。紧接着,DeepSeek就以更低的成本,实现了接近美国前沿AI模型的性能。
结合这些情况来看,我认为加紧出口管制,比一周前显得更重要了!
AI发展的三个动态特征
在阐述政策主张之前,我将描述AI系统的三个基本动态特征。
1. Scaling Law
AI的一个特性,就是在其他条件相同的情况下,扩大AI系统的训练规模会导致在各类认知任务上的性能平稳提升。
例如,一个100万美元的模型可能解决20%的重要编程任务,1000万美元的可能解决40%,1亿美元的可能解决60%,以此类推。
这些差异在实践中往往带来重大影响——再增加10倍投入,可能意味着从本科生到博士水平的跨越——因此各公司都在大力投资训练这些模型。
2. 曲线位移
AI领域正不断涌现大大小小的创新理念,使系统变得更有效或更高效:可能是模型架构的改进,或只是优化模型在底层硬件上的运行方式。
新一代硬件同样具有这种效果。
这通常会导致曲线位移:如果创新带来2倍的「计算乘数」(Compute Multiplier,CM),那么只需500万美元而非1000万美元就能在编程任务上达到40%的成功率;或者用5000万美元而非1亿美元达到60%的成功率。
每家前沿AI公司都经常发现这样的算力倍增效应:通常是小幅度的(约1.2倍),有时是中等规模的(约2倍),偶尔会有显著的(约10倍)。
由于更智能系统的价值极高,这种曲线位移往往促使公司增加而非减少模型训练投入:成本效率的提升将完全用于训练更智能的模型,仅受限于公司的财务资源。
人们通常会有「先贵后便宜」的思维模式——仿佛AI是一个质量恒定的单一产品,变得更便宜时就能用更少的芯片来训练。
但关键在于规模曲线(scaling curve):当曲线位移时,我们只是更快地达到目标,因为终点的价值无比重要。
2020年,我的团队就发表论文指出,算法进步带来的曲线位移每年约为1.68倍。这个速度现已显著提升,且尚未考虑效率和硬件因素。
我估计现在这个数字可能达到每年4倍。训练曲线的位移也会带动推理曲线位移,因此多年来在保持模型质量不变的情况下,价格持续大幅下降。
例如,比GPT-4晚15个月发布的Claude 3.5 Sonnet,在几乎所有基准测试中都超越了GPT-4,而API价格仅为后者的十分之一。
3. 范式转变
有时,被扩展的基础要素会发生变化,或训练过程中会引入新的扩展类型。
2020年至2023年间,扩展主要集中在预训练模型上:这些模型在海量互联网文本上训练,只需少量额外训练。
到了2024年,使用强化学习(RL)训练模型生成思维链已成为扩展的新焦点。
Anthropic、OpenAI、DeepSeek等公司发现,这种训练显著提升了模型在特定、可客观衡量的任务(如数学、编程竞赛)及类似推理任务上的表现。
这种新范式始于常规预训练模型,然后在第二阶段使用RL添加推理能力。
值得注意的是,由于这种RL方法较新,我们仍处于扩展曲线(scaling curve)的早期:所有参与者在第二阶段RL上的投入都相对较小。从10万美元增加到100万美元就能带来显著提升。
DeepSeek-R1不值一提
上述三个动态特征可以帮助我们理解DeepSeek最近发布的模型。
大约一个月前,DeepSeek发布了名为「DeepSeek-V3」的纯预训练模型。随后在上周,他们又发布了添加第二阶段训练的「R1」模型。
虽然从外部视角难以完全掌握这些模型的所有细节,但以下是我对这两次发布的深入理解。
DeepSeek-V3的发布堪称重大创新,这本应在一个月前就引起业界广泛关注。
作为一个预训练模型,它在某些重要任务上的表现已经接近美国最先进的模型,同时显著降低了训练成本。
DeepSeek团队通过一系列令人印象深刻的创新实现了这一突破,主要集中在提升工程效率方面。他们在「键值缓存」(Key-Value cache)管理方面做出了特别创新的改进,并且将MoE方法推进到了前所未有的水平。
然而,我们需要仔细审视:
DeepSeek并非「只用600万美元就做到了美国AI公司需要数十亿美元才能做到的事」。
Claude 3.5 Sonnet是一个中等规模的模型,训练成本在数千万美元级别(具体数字不便透露)。此外,3.5 Sonnet的训练过程完全没有涉及更大或更昂贵的模型(与某些传言相反)。
Sonnet的训练是在9-12个月前进行的,而DeepSeek的模型是在去年11、12月训练的,但在众多内部和外部评估中,Sonnet仍然保持明显领先。
因此,一个客观的说法是:「DeepSeek以较低的成本(但远未达到外界猜测的比例)开发出了一个性能接近7-10个月前美国模型水平的产品」。
如果成本曲线的历史下降趋势是每年约4倍,这意味着在正常业务发展过程中——即在 2023年和2024年出现的常规成本下降趋势中——我们预计现在会出现比3.5 Sonnet/GPT-4便宜3-4倍的模型。
由于DeepSeek-V3不如这些美国前沿模型——在扩展曲线上大约差了2倍,这个估计对DeepSeek-V3来说已经相当宽容——这表明如果DeepSeek-V3的训练成本比一年前开发的美国当前模型低约8倍,这完全符合预期。
我不会给出具体数字,但从前面的分析可以清楚看出,即使按照表面价值来看DeepSeek的训练成本,他们最多只是符合行业趋势,甚至可能还达不到这个水平。
例如,这比原始GPT-4到Claude 3.5 Sonnet的推理价格差异(10倍)还要小,而且3.5 Sonnet是比GPT-4更优秀的模型。
这些都表明,DeepSeek-V3并非独特的突破,也不是从根本上改变LLM经济学的创新;它只是持续成本降低曲线上的一个预期点。
这次的特殊之处在于,首先展示预期成本降低的是一家中国公司。这种情况前所未有,具有重要的地缘政治意义。
然而,美国公司很快就会跟进——他们不是通过复制DeepSeek,而是因为他们同样在实现常规的成本降低趋势。
DeepSeek和美国AI公司目前都拥有比训练其主打模型时更多的资金和芯片。
这些额外的芯片用于研发模型背后的理念,有时也用于训练尚未成熟的更大模型(或需要多次尝试才能完善的模型)。
据真实性未经证实的报道,DeepSeek拥有50,000片Hopper芯片,我估计这在规模上与主要美国AI公司相差约2~3倍。
因此,DeepSeek作为一家公司的总投入与美国AI实验室的差距并不显著。
值得注意的是,「扩展曲线」分析可能过于简化,因为不同模型各有特色,优劣势各异;扩展曲线的数据只是一个忽略了诸多细节的粗略平均值。
正如前文所述,Claude在编程能力和人机交互设计方面表现卓越。在这些及其他特定任务上,DeepSeek与之相比仍有较大差距。这些优势特性并未反映在扩展曲线的数据中。
上周发布的R1模型引发了公众的广泛关注,但从创新或工程的角度来看,它远不如V3具有研究价值。
R1增加的第二阶段训练(强化学习),是复制了OpenAI在o1上所做的工作。
然而,由于我们仍处于模型「扩展曲线」的早期阶段,只要以一个强大的预训练模型为基础,多家公司都有可能开发出这类模型。在已有V3的基础上,开发R1的成本可能相当低。
因此,我们正处于一个关键的转折点,即暂时出现了多家公司都能生产出高质量推理模型的局面。但随着各公司在这些模型的扩展曲线上继续向上攀升,这种局面将很快改变。
出口管制力度还需加大
以上内容都是为我的核心关注点作铺垫:对中国的芯片出口管制。
我对这种情况的看法如下:
目前存在一个持续的趋势,即各公司在训练强大的AI模型上的投入不断增加,尽管成本曲线会周期性下移,训练特定智能水平模型的成本也在迅速下降。
然而,由于训练更智能模型所带来的经济价值极其巨大,任何成本节约几乎立即就被消耗殆尽——这些节省下来的成本又被投入到使用相同巨额预算开发更智能的模型中。
对于美国实验室尚未发现的创新,DeepSeek开发的效率创新很快就会被美国和中国的实验室应用于训练数十亿美元级别的模型。
这些模型的表现会比他们之前计划训练的数十亿美元模型更优异——但投入仍将保持在数十亿美元水平。
这个数字会持续攀升,直到我们实现在几乎所有领域都超越绝大多数人类智能水平的AI。
开发出在几乎所有领域都超越绝大多数人类智能水平的AI将需要数百万片芯片、至少数百亿美元的投入,这很可能发生在2026-2027年。
DeepSeek的发布并不会改变这一预期,因为它们基本符合这些计算中一直考虑在内的预期成本下降曲线。
这意味着在2026-2027年,我们可能会面临两个截然不同的世界。
在美国,多家公司必定会获得所需的数百万片芯片(耗资数百亿美元)。关键问题在于中国是否也能获得这样数量的芯片。
如果中国能获得,我们将生活在一个两极世界,美国和中国都将拥有强大的AI模型,这将推动科技呈现爆发式发展——我将其称为「数据中心里的天才国度」(countries of geniuses in a datacenter)。
但这种两极格局不一定能永远维持平衡。
即使美中两国在AI系统上实力相当,中国可能会将更多的人才、资金和注意力投入到这项技术当中。
结合其庞大的工业基础优势,这可能帮助中国在全球舞台上获得主导地位,不仅是在AI领域,而是在所有领域。
如果中国无法获得数百万片芯片,我们将生活在一个单极世界,只有美国及其盟友拥有这些模型。
单极世界的持续时间尚难预测,但存在这样一种可能:由于AI系统最终可以协助开发更智能的系统,暂时的领先优势可能会转化为持久的优势。
因此,在这种情况下,美国及其盟友可能会在全球舞台上确立主导地位并长期保持这一优势。
严格执行的出口管制是唯一能阻止中国获得数百万片芯片的手段,因此也是决定我们最终是进入单极还是两极世界的最关键因素。
DeepSeek的表现并不意味着出口管制失败。如前文所述,DeepSeek拥有中等到大规模数量的芯片,因此他们能够开发并训练出一个强大的模型并不令人意外。
他们所面临的资源限制并不比美国AI公司明显更多,出口管制也并非促使他们「创新」的主要因素。他们只是一群极具才华的工程师,这也显示了为什么中国是美国的重要竞争对手。
DeepSeek的AI芯片储备中,由应该但还没被禁的芯片、在禁令前交付的芯片等构成。
这表明出口管制实际上正在发挥作用并不断完善:监管漏洞正在被逐步填补;否则,他们所有的芯片可能都是最顶级的H100。
如果我们能够及时堵住这些漏洞,就可能阻止中国获得数百万片芯片,从而增加形成美国领先的单极世界格局的可能性。
鉴于我对出口管制和美国国家安全的关注,我需要明确一点:我并不将DeepSeek视为对手,我们的重点也并非针对他们。
从他们接受的采访来看,他们是一群聪明且充满求知欲的研究人员,只是希望开发能造福社会的技术。
然而,为了防止中国在AI领域追平美国,出口管制就是最有效工具之一。
若认为技术日益强大、投资回报率提高就是应当解除出口管制的理由,这种逻辑是完全站不住脚的。
参考资料:
https://www.ft.com/content/a0dfedd1-5255-4fa9-8ccc-1fe01de87ea6
https://www.bloomberg.com/news/articles/2025-01-29/microsoft-probing-if-deepseek-linked-group-improperly-obtained-openai-data