新智元报道
编辑:犀牛 桃子
【新智元导读】猜想界的皇冠——黎曼猜想,离被证明的那一天不远了。Grok 3便是关键所在:暴力计算+验证器能让AI穷举所有解法,再加上AI辅助科学家打出的组合拳,下一个诺奖级突破近在咫尺。
困扰人类一个多世纪的「黎曼猜想」,如今可能正站在被破解的边缘。
这周发布的Grok 3异军突起,不仅横扫各大排行榜,更将目光投向了这个「猜想界的皇冠」。
风投机构IBC Group创始人Mario Nawfal发文称,破解黎曼猜想的竞赛正在升温,而Grok 3可能正是关键所在!
究竟是什么原因,让他敢于做出这样一个判断?
暴力计算:凭借足够的计算能力和验证器,AI可以穷举所有解法。
人工智能+人类合作:AI辅助顶尖科学家,可能会带来图灵奖、菲尔兹奖,甚至诺奖级别的突破。
有了这双重buff的加持,Grok估计什么时候可以解决这一世纪难题?根据马斯克的预测,「基于AI的进展,可能将在两年内实现」。
在Mario看来,虽然目前还没有解决方案——但Grok 3正在逐步接近破解这个数学界最大的未解之谜之一!
网友对此激动地表示,「暴力计算和人类洞察力的结合,简直是终极组合拳」。
甚至,还有人大胆预言,下一个诺奖得主就是AI。
Grok 3对决黎曼猜想:突破即将到来?
在Grok 3还未横空出世之前,曾被xAI工程师硬广了一波。
为此,xAI不得不终止模型训练,以验证它的证明。他表示,如果结果是正确的,将会完全终止模型的训练。
之后,Hieu Pham发帖称这只是自己的恶搞
要知道,黎曼猜想可是千禧年七大数学难题之一。
这一次,基于20万块GPU训出的Grok 3,在数学基准测试中AIME 2024上刷新SOTA,创下了52高分。mini版本性能几乎与Claude 3.5 持平。
与此同时,xAI团队专门针对最新AIME 2025基准,对Grok 3模型推理版本进行了测试,更是创下了93分纪录。
AI大神Karpathhy在Grok 3还未发布之前,曾拿到了灰度测试资格,让其去证明黎曼猜想猜想。
他表示,相较于其他模型(如o1-pro、Claude、Gemini 2.0 Flash Thinking),只会简单表示——这是一个伟大的未解之谜,Grok 3非常有勇气,会尝试去解决问题。
虽然没有攻克,但是迈出了「尝试」的重要一步。
正如Karpathhy所言,谁知呢,总会有那么一天...
甚至,就连菲尔兹奖得主陶哲轩大胆预测,2026年,AI将与搜索和符号数学工具相结合,成为数学研究中值得信赖的合著者。
对此,有网友对于人工智能辅助破解数学谜题的前景感到兴奋。
更有网友期待Grok 3将量子力学与相对论一起联系起来。
「可能性是无限的」该网友评论道。
Grok 3全面领先!
Grok 3目前在聊天机器人竞技场(Chatbot Arena)上大幅领先,并且是长期以来第一个在所有类别中都排名第一的模型。
这些排名是基于人类的盲测评估得出的。
对此,马斯克表示,Grok位居第一,并持续改进。
「这个结果是基于两周前的Grok版本。自那时以来Grok有显著改进。」他表示。
网友Gavin Baker评论说,从2022年夏季到2024年春季,OpenAI曾大幅领先,随后谷歌和Anthropic赶上了GPT-4的水平。
OpenAI能够主导大约7个季度,这归功于他们率先积极押注于预训练的传统「Scaling Law」。然而,率先实现o1级别的推理仅仅使得OpenAI领先几个月。
目前,Deepseek、谷歌和xAI与OpenAI大致处于同等水平。xAI甚至可以说处于领先地位。
谷歌和xAI的基础模型更优秀,因此它们很可能很快就会彻底超越o3。因此,OpenAI迫切需要GPT-5,作为假定的o5推理模型的基础。
奥特曼指出,OpenAI未来的领先优势将会缩小。微软CEO纳德拉也基本表示认同,OpenAI在模型能力方面拥有巨大领先优势的时期即将结束。
网友Gavin表示,在他看来,这就是为什么Nadell根据Theinformation的消息,选择不为OpenAI 1600亿美元的预训练提供资金的原因。相反,他希望通过为OpenAI提供推理服务来赚钱。
Google和xAI都拥有独特且有价值的数据来源,这将使它们与Deepseek、OpenAI和Anthropic之间的差异越来越大。如果Meta在模型能力方面赶上来,情况也是如此。
Gavin同时指出,无法获得独特、有价值数据的前沿模型是历史上贬值最快的资产。模型蒸馏只会加剧这种情况。
Nadella在最近一次播客中说,数据中心建设过剩即将到来,租用比购买更好。甚至在某个时候,微软可能会使用开源模型来驱动CoPilot。
未来的前沿模型,如果无法获得像YouTube、X、TeslaVision、Instagram和Facebook这样独特、有价值的数据,可能无法获得任何投资回报 (ROI)。从这个角度来看,扎克伯格的策略似乎也更加合理。独特的数据最终可能成为区分多万亿或千万亿参数模型预训练的唯一基础,也是获得投资回报的唯一基础。
如果这是正确的,那么只有2-3家公司会进行前沿模型的预训练,我们只需要少数几个巨型数据中心来构建预训练所需的相干集群。
其余的人工智能计算将由较小的数据中心完成,这些数据中心在地理位置上进行了优化,以实现低延迟和/或具有成本效益的推理。具有成本效益的推理等于更便宜、质量较低的电力(对核电的需求减少),在短期内对液冷的需求减少等。
这与目前6-10家公司都在进行前沿模型预训练的世界截然不同。
推理模型需要极高的计算量。测试时计算意味着计算能力本身就是智能。因此,在这种情况下,所需的计算量甚至可能比2023-2024年整个市场所预期的以「预训练」为中心的计算场景还要多。
但这将是一种截然不同的计算类型,如上所述。预训练和推理之间的比例将不再是50/50,而是5/95。基础设施的卓越性将至关重要。
对于网友Gavin Baker的这番分析,马斯克也表示认同。
「良好的分析」他评论道。
用户离开ChatGPT转向Grok
有网友在x发文称,现在大量用户正在在从ChatGPT转向Grok,并配上了一段形象的视频。
有网友调侃说,他妻子嫉妒Grok 3,因为他跟Grok 3说的话比跟他妻子还多。
对于大家纷纷转向Grok这事儿,网友纷纷表示赞同。
什么是黎曼猜想?
黎曼猜想是一个数学领域里非常重要但至今没有解决的问题,它主要研究质数的分布规律,以及一个叫黎曼zeta函数的数学工具跟质数的关系。
质数是那些大于1、只能被1和自己整除的数字,比如2、3、5、7、11、13等等。它们像是自然数的「积木」,因为任何一个自然数都可以拆成质数的乘积,比如15 = 3 × 5。
质数的出现看起来很随机,没有简单的规律可循。
比如在1到10里有4个质数(2、3、5、7),11到20里也有4个(11、13、17、19),但21到30里只有2个(23、29),数量分布不太好预测。
这让研究质数分布成了数学中一个大难题。
质数的研究不只是数学家的兴趣,它在现实生活中也很重要。比如,互联网上的安全通信(像网上银行、购物)靠一种叫RSA的密码系统保护,而RSA的基础就是利用大质数的不可预测性。
什么是黎曼zeta函数
1859年,德国数学家伯恩哈德·黎曼(Bernhard Riemann)想出了一个研究质数的新办法,引入了一个叫黎曼zeta函数的东西,记作ζ(s)。
简单来说,zeta函数是一个无限加法公式:
这里的「s」是一个复数,复数是一种特别的数字,比如s = a + bi(a是实部,b是虚部,i是虚数单位)。
这个函数的神奇之处在于,它跟质数的分布有很深的联系。
zeta函数的零点
零点就是让ζ(s)等于0的s值。研究发现,这些零点分成两类:
平凡零点:这些零点出现在s = -2, -4, -6等负的偶数位置。它们比较容易找到,性质也很明确。
非平凡零点:这些零点的实部(a值)在0到1之间,而且虚部(b值)不是0。它们的位置很神秘,很难算出来。目前通过计算机检查发现,所有已知的非平凡零点的实部都是1/2,但这只是观察结果,还没有数学证明能确认所有零点都这样。
黎曼猜想到底在猜什么?
黎曼猜想的核心是:所有的非平凡零点的实部都等于1/2。
想象一下,把复数s = a + bi画在平面上,横轴是实部a,纵轴是虚部b。
黎曼猜想说,所有非平凡零点都会整整齐齐地排在实部a = 1/2这条竖线上。
如果这个猜想是真的,它能让我们更清楚地知道质数是怎么分布的。
比如,它能更精确地预测某个范围内有多少个质数。这跟一个叫素数定理的东西有关,素数定理告诉我们质数的「大趋势」,而黎曼猜想则能解释趋势里的「小起伏」。
打个比方,把质数分布想象成一条河的流量,素数定理像是告诉你河水平均每天流多少水;黎曼猜想则是帮你搞清楚为什么有些天水流多些,有些天少些。
这种对质数的深入了解不只对数学家重要,还会影响像密码学这样的领域,因为密码系统需要质数尽量「随机」。
为什么这么受关注?
黎曼猜想从1859年提出到现在,已经160多年了,但还是没人能证明它是对是错。
它被认为是数学里最重要的问题之一,出现在1900年希尔伯特提出的23个数学难题里(第8个问题),也被2000年Clay数学研究所列为「千禧年七大难题」之一。
Clay研究所还悬赏100万美元,鼓励全世界数学家来挑战这个问题。现在,计算机已经检查了无数个非平凡零点,发现它们的实部都是1/2,但这只是证据,不是严格的数学证明。
一些数学家,比如Larry Guth和James Maynard,最近在这个问题上有了一些新进展,但离彻底解决还很远。
黎曼猜想不只是数学里的「脑洞」,它的研究还推动了很多数学分支的发展,比如复分析和数论的结合。
参考资料:
https://twitter.com/MarioNawfal/status/1893181929823895668
https://twitter.com/cb_doge/status/1893430235821154702
https://twitter.com/GavinSBaker/status/1893356200026116290