智东西
作者 ZeR0
编辑 漠影
智东西2月20日报道,继DeepSeek后,又有一家大模型App力压ChatGPT,今日登顶美区App Store免费榜。它就是马斯克大张旗鼓跟OpenAI叫板的底气——号称「世界最强AI」的Grok 3.0!
老板马斯克显然对这一成绩非常满意,顺带发预告:这是没语音模式版本的,接下来几天还会上更多功能哦。
Grok 3.0冲得这么猛,是因为马斯克放了个大招。
马斯克在今天日理万机、忙于为DOGE政府改革冲锋陷阵的间歇,特意抽出空来,转发xAI的推文宣布:Grok 3.0向所有人免费开放!
▲马斯克推文(由谷歌翻译英译中)
xAI发文写道:“就是这样:世界上最聪明的AI,Grok 3,现在免费使用(直到我们的服务器崩掉)。”
此言一出,效果立竿见影,看见免费福利后,网友们行动上一点不含糊,立刻把Grok App下载量冲到第一。
马斯克创办的这家大模型独角兽企业,将Grok 3称作“史上最强大的模型”,称其在推理、数学、编程、世界知识、跟踪任务五项能力上全面登顶。
在聊天机器人盲测榜上,Grok 3也做到了拳打Gemini 2.0,脚踢ChatGPT 4o,超越DeepSeek R1,并开创了首个1400分。
Grok 3还介绍了两项新功能:DeepSearch(深度搜索)和Thinking(思考),并将很快通过API发布标准版和推理版本的Grok 3。
其中DeepSearch是个强大的AI agent,可以快速综合关键信息,根据复杂事实和观点进行推理,并提炼出清晰的结果。
Thinking则是使用推理模型,尤其适合处理数学、科学、编程任务。免费用户每天的使用次数有限制。
Grok 3支持中文输入,我们把两个功能都上手体验了一番。先试用了DeepSearch功能。我用中文要求Grok 3整理2016-2025年全球动画电影票房冠军的登顶时间和票房金额,结果2025年的明显不对。
为了避免是中文翻译导致的问题,我又开了一个新的对话页面,用英文问一遍,这次Grok 3在2025年列出了哪吒2。
再让Grok 3全面概述过去一年来量子计算的最新进展,它的思考过程很快,不到1分钟就给出一份调研报告,并附上了每条信息的参考链接。
从完整性来看,Grok 3并没有满足我的要求,它在报告里清晰划定了时间区间是“2024年2月至2025年2月”,在联网搜索了62个来源的情况下,列表中没有包含微软昨晚刚发布的首款量子芯片,信息不够新和全。
换Thinking功能试试。我们拿之前测试DeepSeek R1是否是满血版的经典指令“一个汉字具有左右结构,左边是木,右边是乞。这个字是什么?”来考考它。
经过52秒的英文思考,Grok 3得出结论:若按最接近的猜测,或许是“杞”,但严格来说不符合。
可以说Grok 3回答得非常严谨了,过关!
换成另一个用来测出DeepSeek R1满血版的中文网络梗题,也没有难倒Grok 3,而且这次思考只花了5秒。从这里开始,到之后所有的测试,Grok 3的思考过程都变成了中文。
不过考察时间逻辑与动态语境理解时,它思考得飞速,翻车得也飞速,回答说“昨天的当天是明天的昨天”。
让它整理今天发生的AI新闻,做成一个适合发小红书的格式,它输出的结果也存在无法准确控制时间范围的问题了,很多新闻都不是今天的。
再让它设计界面,用奶酪黄作为主配色,并整理成html格式,打开界面的效果是这样的:
问它如果有机会成为人类,你最想做什么,Grok 3的回答水平比DeepSeek R1差得有点多。DeepSeek R1能输出一些戳人心窝的文字,Grok 3则是中规中矩的中文小学生水平。
按原著风格续写《西游记》,Grok 3也是能理解对意思,但遣词造句远不如DeepSeek R1。
再试试Grok 3的中文毒舌能力,让它一句话辣评几个AI聊天应用。没想到这对它来说挺费劲儿,它思考了足足将近8分钟,最终输出的内容非常一般:
对比我们之前用DeepSeek R1测得,R1的中文实力属实一骑绝尘,用时短,思考快,文字淬毒:
总的来说,用Grok 3搜索信息效果不错,但如果想用中文生成能力,还是得指望国内AI聊天助手。
就海外反馈来看,马斯克和xAI的推文评论区高赞以夸声和晒使用体验居多,看来海外网友们对Grok 3总体比较满意。有网友锐评:“我现在可以听见千千万万的OpenAI账户正在关闭……”
不管怎么说,马斯克这波给OpenAI添堵,添得相当成功,添得扬眉吐气。
这下OpenAI在ChatGPT收费路上的绊脚石,又多了一块大的。