新智元报道
编辑:编辑部 HNYZ
【新智元导读】Claude 3.7 Sonnet一出手,就惊艳了全球开发者!作为首个混合推理模型,不论是物理模拟还是生成游戏,全能完美掌控堪称编程界AI王者。值得一提的是,Anthropic斩获35亿融资,Transformer论文唯一女性作者加入。
除了编程界,Claude 3.7 Sonnet的出世,好像并没有在AI圈掀起巨大的风浪。
与DeepSeek R1、o3-mini推理模型不同的是,它是世界首个混合推理模型,即「原生」推理。
正如Anthropic介绍,「一个模型,两种思考方式」。它能够扩展、逐步思考过程,几乎做到及时响应。
仅从软件工程基准SWE-bench Verified来看,Claude 3.7 Sonnet编码能力直接刷到70.3%,整整拉高了20%。
在Devin编码基准测试中,Claude 3.7同样拿下了67%高分
上线不过几小时,Claude 3.7 Sonnet被开发者们玩疯了。
仅用5个提示,直接定制一款Apple Watch随心率变化的贪吃蛇游戏。
你越紧张,蛇移动得越快;你越冷静,游戏就越容易
亦或是,让它生成一个动画天气卡片,去创建一个包含CSS和JavaScript的单个HTML文件,这效果就得服Claude 3.7。
提示:Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each.
不仅如此,Claude 3.7在物理模拟测试中,击败了Grok 3和o1 pro。
网友Deedy给了一段提示词:你能用p5.js编写一个最复杂精细的布料模拟吗?
如下,AI随即用p5.js渲染了出来,布料运动的特性被完美地展现了出来。
Prompt:Can you write the most intricate cloth simulation in p5js.
紧接着,Deedy再次对这个「精美的布料」做出了升级,使其变得更加像一块布料了,而且更加精美。
他表示,「这才是真正最棒的灵感编程模型,这东西在高级图形学课程中都很少讲授」。
对于这个结果,评论纷纷表示惊叹!
一手发着最新的模型,一手拿到新一轮融资。
WSJ独家爆料称,Anthropic已经完成35亿美元新一轮融资,估值达到了615亿美元(约合4465亿人民币)。
Transformer唯一女性作者,加入Anthropic
同一天,Transformer八子Niki Parmar也在今天官宣了——去年12月就已加入Anthropic。
值得一提的是,在Transformers论文中,Niki Parmar是唯一的女性作者。
论文地址:https://arxiv.org/abs/1706.03762v7
Niki Parmar先后在谷歌研究院和谷歌大脑工作了近7年的时间。
她于2021年11月离开谷歌,和另一位作者Ashish Vaswani,一起创立了Adept AI Labs。
短短一年之后,她和Ashish Vaswani同时离职,并于2023年1月共同创办了Essential AI。
不到两年,她再次离开了自己创办的公司,并于25年1月正式入职Anthropic,担任技术研究员。
此前,她在印度浦那计算机技术学院获得了信息技术工程学学士学位,随后在南加州大学以GPA 4.0的优异成绩获得了计算机科学硕士学位。
网友实测
很快,许多网友跟风测试。
物理模拟细节惊人
网友Djamel Kramcha表示,他也一次性生成了一块复杂的布料。
可以看出,3.7 Sonnet生成的布料不仅拖拽起来十分丝滑,在下面还可以对它进行各种设置。
网友AK使用Claude 3.7 Sonnet编写了一个球在四维超立方体内弹跳的脚本 。
效果非常惊艳!
超立方体里的小球不仅很大,而且运动速度也很快,关键是也没有超出超立方体的范围。
对于这个效果,有网友评论说,「我简直不敢相信竟然在一个4D立方体里!出口在哪里?!」
他又使用Claude 3.7 Sonnet写了一个25个粒子在真空容器边界内弹跳的p5.js脚本。效果同样惊艳。
它使用的提示词如下:
prompt: Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what's going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.
还有网友仅用3个提示,就让Claude 3.7实现了流体模拟。
另一个使用p5js,Claude 3.7创建动画模拟,简直太神了。
超级马里奥、宝可梦游戏完美复刻
接下来,他还接连做了多个尝试。
比如用Claude 3.7 Sonnet做了一个单次挑战平台跳跃游戏。
提示词为「使用Phaser.js做一个横版卷轴平台游戏,游戏玩法仅使用箭头键」。
另外,他还用Claude Sonnet 3.7创建了一个白色背景的ragdoll模拟。
而下面这个,是Grok 3创建的黑色背景版本。
让Claude Sonnet 3.7复刻一个宝可梦游戏也不在话下,一气呵成。
Claude 3.7 Sonnet还能用Matter.js,在一个HTML文件中制作多米诺骨牌连锁游戏。
生成「我的世界」,Claude 3.7也是强的一批。
这位网友用它一键就生成了一个令人惊叹的3D城市。
画面中的阴影和白天过渡的效果,简直惊人。
生产力大提升,办公室神器来了
这位开发者表示,Claude 3.7 Sonnet可以说是全球代码领域的最佳模型了,仿佛一个品味非凡的世界级开发者一样。
他让模型构建一个Next.js SaaS营销模板,结果它一次性就给出了26个漂亮的代码文件!
感觉非常不可思议。
高考题也不在话下
Claude 3.7 Sonnet的「Extended」模式擅长数学和编码的挑战,我们找来了一道高考数学题测验一下它。
你还会能做出来吗?可以自己先试一下。
Claude 3.7 Sonnet经过1分14秒的推理过程,成功解出了答案。
解题过程和结果都没啥毛病。
再给它一道理综题试试。
结果也是没有悬念,这道题对Claude 3.7 Sonnet的「Extended」模式毫无压力。
经过1分38秒的推理后,它给出了正确答案。
「草莓」测试,过了
更有趣的是,strawberry数r挑战,Claude 3.7一次拿下。网友让其创建了一个React小程序,高亮r。
另一个网友的复现过程,同样数对了。
是AGI,没错了。
模拟注意力机制,人人一个「Karpathy」
Claude 3.7推理和编程能力,真不是开玩笑的!
另一位网友,用模型一次性创建了一个「注意力机制」工作原理的快速模拟器。
他激动地表示,「如果我们每个人都能获得一个Karpathy这样的个人导师,来为我们解释复杂的概念,那将会很棒」。
提示:Can you help me explain attention mechanisms in Transformers to college students? Think deeply about clever ways to explain the concepts without focusing too much on maths. Now create a simulator that could students understand it better.
参考资料:
https://x.com/nikiparmar09/status/1894168474886574404
https://x.com/deedydas/status/1894178900798058560
https://x.com/_akhaliq/status/1894139148040372615