长期征集
日子很难,生活不容易,每个人都有自己的苦,有苦说不出的感觉,受苦的人最懂。
和吃苦相比,有苦难言,无人问津,可能比苦本身还难受。
重生之后,叶檀老师变了很多,变得能吃苦,吃自己的苦,吃别人的苦。
她说,有苦我们一起分担。
每周六,叶檀老师都会亲自回复,并在公众号上发出,有苦难言的朋友,如果你也想和叶檀老师倾诉,把你的故事,发送到邮箱yetanbusiness@163.com,叶檀老师看到,一定会回复。
记住,这世界还有人,关心你,在乎你,理解你。
文/青城桢楠
一转眼,春节即将过去,2025年的春节,可能是中国有史以来科技味最浓的。
Deepseek引发的科技海啸,成为全球探讨最多的话题。它出现的意义似乎超越了AI本身,成为发展中国家后发制人的信心载体。
(图源:pixabay)
1月30日,连AI领域的看客印度都大赞DeepSeek。据路透社报道,印度铁道、通信以及电子和信息技术部长阿什维尼·瓦伊什瑙在出席一个活动的时候,对DeepSeek大加赞赏。
阿什维尼·瓦伊什瑙表示:“有些人质疑印度政府在AI中投入的资金数量。你们看到DeepSeek的成果了吗?550万美元和一个非常非常强大的模型。因为用了大脑了。”
阿什维尼·瓦伊什瑙进一步表示,印度已经在第一时间在服务器上布局DeepSeek。
过去,整个世界都认为,大力出奇迹才是AI时代的典型特征,没有海量先进GPU,没有数以万亿美元的重金投入,不可能挤上牌桌。拿不到卡、资金匮乏的发展中国家只有眼巴巴看着发达国家坐享AI霸权,连喝汤的机会都没有。
DeepSeek的出现,如同一道闪电,在黑幕中划开一道口子,信心增值难以估算。
(图源:pixabay)
更荒谬的案例来自法国。1月30日IT之家报道,法国耗资540亿欧元开发的一款开源法语人工智能聊天机器人Lucie,回答简单数学问题给出荒谬答案,甚至建议用户食用“牛蛋”,上线两天便匆匆下架。
Lucie是法国为了挑战英语大模型主导地位耗重金打造的,是“法国2030”投资计划的重要组成部分。Lucie的短暂失败,再一次证明,AI领域的重投入是必要条件,但并不是充分且必要条件,重金投入并不一定意味着好结果。
让人意外 大火的DeepSeek曾被如此忽视
DeepSeek 像一把祛魅之剑,穿透了世界对美国的AI幻境。
相比于美国人的惊讶,国内对DeepSeek的反射弧之长,更令人咋舌。
1月20日, DeepSeek公布推理模型DeepSeek-R1之后,国外开始掀起DeepSeek大讨论。国内却平静得让人讶异,即便1月20日梁文锋参加最高级别的专家、企业家座谈会,都没能引发热议。
据新华社报道,1月20日下午,在一场重量级座谈会上,张辉、任少波、刘珺、梁文锋、魏洪兴、陈学东、陈红彦、杜斌、邹敬园等先后发言。其中,梁文锋正是头部量化私募幻方量化创始人、DeepSeek的创始人。
回过头来看,2025年1月20日到春节前这段时间,无论A股市场还是美股市场,都没出现任何DeepSeek影响力的迹象。尤其A股,从机构到券商,全部处于失语状态,资金仍在映射英伟达、特斯拉和苹果。
(图源:pixabay)
市场没反应,领导很重视,最早意识到DeepSeek的重要性,如此大的认知差,在A股十分罕见。
最早表示,DeepSeek很震撼的公众人物,或许是同在杭州的《黑神话:悟空》制作人冯骥。
1月26日,他公开表示,“这样震撼的突破,来自一个纯粹的中国公司,知识与信息平权,自此又往前迈出了坚实的一步”。
2月3日,饶毅教授在其个人公众号上评价道,deepseek是鸦片战争以来,中国对人类最大的科技震撼。
当然,如此评价,或许是从媒体声量,全球舆论热度的角度评价,而非技术价值本身。
如果说国内评论有厉害了我的国之嫌,那AI领域资深专家吴恩达,在中美人脉甚广,评价更为中肯客观。
1月31日,吴恩达在X上发文:
翻译如下:
本周 DeepSeek 的讨论让许多人认识到一些显而易见的重要趋势:
(i) 中国在生成 AI 领域正在赶超美国,这对 AI 供应链产生了影响。
(ii) 开放权重模型正在将基础模型层商品化,这为应用程序构建者创造了机会。
(iii) 扩大规模并不是 AI 进步的唯一途径。尽管人们对处理能力的关注和炒作如火如荼,但算法创新正在迅速降低培训成本。
大约一周前,中国公司 DeepSeek 发布了 DeepSeek-R1,这是一个非常出色的模型,其基准测试性能可与 OpenAI 的 o1 相媲美。此外,它是以开放权重模型的形式发布的,具有宽松的 MIT 许可证。
在1月份的达沃斯论坛上,吴恩达收到了许多非技术商业领袖关于它的问题。1月20日股市出现了“DeepSeek 抛售”:Nvidia 和其他一些美国科技公司的股价暴跌。(截至撰写本文时,一些公司股价有所回升)
(图源:pixabay)
吴恩达认为 DeepSeek 让很多人意识到了以下几点:
中国在生成式人工智能方面正在赶超美国。2022 年 11 月推出 ChatGPT 时,美国在生成式人工智能方面远远领先于中国。
印象与现实形成强烈反差,吴恩达听到美国和中国的朋友都说他们认为中国落后了。实际上,这种差距在过去两年里迅速缩小。
借助 Qwen(吴恩达的团队已经使用了几个月)、Kimi、InternVL 和 DeepSeek 等来自中国的模型,中国显然正在缩小差距,而在视频生成等领域,中国似乎已经处于领先地位。
按照吴恩达的说法,中国大模型实力的变化,就好像当年的新能源汽车,如同魔法。
(图源:pixabay)
随着美国科技巨头对DeepSeek的了解,越来越多科技巨头加入支持DeepSeek的队伍中。最早是英伟达的竞争对手,AMD。1月25日,AMD第一个公开为DeepSeek“站台”,宣布全新的DeepSeek-V3模型已集成至AMD InstinctGPU上。
1月30日,微软表示,将接入DeepSeek到微软AI电脑。微软CEO纳德拉说,DeepSeek有真创新,AI成本下降是趋势。
1月30日,苹果ceo库克表示,我很看好DeepSeek公司,这种颠覆性的新模式对苹果来说,会产生积极影响。
1月31日,英伟达宣布DeepSeek-R1 模型现已在 build.nvidia.com 上作为 NVIDIA NIM 微服务预览版提供。
同一天,亚马逊的AWS 首席执行官 Matt Garman 表示:“DeepSeek R1 是激发业界想象力的最新基础模型。亚马逊当即宣布将在其Bedrock人工智能模型市场中纳入DeepSeek-R1模型。
目前,全世界都在用各种方式“借鉴”DeepSeek。最佳证据就是,在DeepSeek 发布V3 和 R1 以后,H100 的 AWS GPU 价格在全世界上涨,而同期能力更强的H200并没有出现类似的情况。
据量子位公众号1月30日报道,不少西方开发者发现,DeepSeek能够取得突破,并非使用了英伟达的CUDA,而是通过大量细粒度优化以及使用英伟达的类汇编级别的PTX(并行线程执行)编程。
所谓PTX是英伟达专门为其GPU设计的中间指令集架构,位于高级GPU编程语言(如CUDA C/C++或其他语言前端)和低级机器代码(流处理汇编或SASS)之间,属于比较底层的指令集。
英伟达对CUDA的投入长达十年以上,即便在最低谷的时候也忘我投入。CUDA甚至是比GPU硬件本身更重要的英伟达护城河。能够绕过CUDA自行优化GPU,这是非常强的能力。
量子位公众号援引开发者的话,DeepSeek绕过CUDA,证明其团队超强的技术能力,也证明,优化得越多,GPU调用越有效,性价比越高。
llama.cpp项目的创始人在检查了相关代码后表示,“比预期的更爆炸”。
DeepSeek刺激了竞品公司的内心。与产业链的言论相比,美国同类竞品更鹰派、更酸。1月30日,Anthropic CEO说,出口管制远比 DeepSeek 的突破重要得多。
(图源:pixabay)
更早,美国政府已经开始针对DeepSeek采取行动。据参考消息援引美媒报道,美国海军基于“潜在安全和道德问题”,已要求人员避免以任何形式使用中国公司的DeepSeek模型。
玉渊谭天则在1月28日报道,美国多名官员回应DeepSeek对美国的影响,表示DeepSeek是“偷窃”,正对其影响开展国家安全调查。
“偷窃”一说,源自OpenAI。据彭博社报道,微软公司和OpenAI正联合调查一起可能涉及数据泄露的事件。
所谓数据泄露很难成立,最早OpenAI就是开源的,一切都可以被人DOWNLOAD,是业内常态,如今的deepseek、meta还在走开源路线,赤条条展露自己。从没见过小偷在阳光下昭告天下的。
2月1日,眼看开源的DeepSeek越来越火,OpenAI坐不住了。
(图源:pixabay)
OpenAI首席执行官Sam Altman首次承认:“我个人认为,我们在这里站在了历史的错误一边,需要找出一个不同的开源策略。”同一天,OpenAI推出推理模型o3 - mini。ChatGPT Plus、团队和Pro用户即日起可以访问。免费用户也可以通过选择“Search+Reason”使用o3-mini来体验搜索。
体验过后,著名科技博主lex fridman表示,OpenAI的o3 - mini 是个不错的模型,但DeepSeek的R1性能和它差不多,且价格更便宜,还能展示推理过程。
无论如何,“DeepSeek 时刻” 意义非凡,5年后人们仍会铭记这一时刻,这是科技史上的一个重要节点。
刚上任的特朗普又如何看待DeepSeek呢?
特朗普1月27日的第一次回应比较正面,认为DeepSeek一个非常积极的发展。意味着,你不必花费数十亿美元,也可以得到同样的解决方案。不过特朗普也表示,中国公司发布的DeepSeek应该为我们的行业敲响警钟,我们需要在竞争中集中精力取胜。
或许因为OpenAI们这几天的耳边风,最新消息显示,特朗普可能会进一步收紧对中国AI的限制,防止中国企业获得先进算力,实现弯道超车。
据BP社报道,特朗普政府目前正在考虑将制裁范围扩大到英伟达 H80 GPU。报道称,这些图形处理器是独家面向中国的产品,性能低于 H100。
攻击战已经打响,DeepSeek在被大量美国IP攻击。最早周鸿祎在微博等自媒体表示,360发现大量美国IP正在攻击DeepSeek。
(图源:pixabay)
1月30日澎湃新闻报道,网络安全公司奇安信表示,针对DeepSeek线上服务的攻击烈度突然升级,其攻击指令较1月28日暴增上百倍。奇安信Xlab实验室观察到至少有2个僵尸网络参与攻击,共发起了两波次攻击。
如果打开DeepSeek APP会发现,最近很难正常登录或使用,宕机成了常态。对此,DeepSeek尚没有做出回应。
据华尔街见闻2月1日报道,自1月20日DeepSeek-R1模型正式发布以来,DeepSeek已于1月26日同时登顶苹果App Store和谷歌Play Store全球下载榜首,上线18天内,累计下载量已突破1600万次,在覆盖的140个市场中持续保持领先地位。
Sensor Tower数据显示,DeepSeek的首月下载量(1600万)较ChatGPT首次发布时(900万)增长近80%。
在所有市场中,印度贡献最大,印度用户以15.6%的占比成为DeepSeek的最大用户来源。
中国不止有DeepSeek 传统玩家也震憾
DeepSeek出圈之后不久,正统中国玩家阿里,再次让西方震撼。
1月28日,阿里公布了自己的开源大模型最新力作Qwen 2.5-Max。根据阿里在github上公布的技术文档,Qwen 2.5-Max不仅超越OpenAI 的 GPT-4 和 Meta 的 Llama 3.1-401B,也超过了 DeepSeek-V3。
来源,https://qwenlm.github.io/zh/blog/qwen2.5-max/
据阿里在github上公布的技术细节,在基座模型的对比中,由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型,我们将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B,以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。对比结果如下图所示。
Qwen 2.5-Max几乎取得了压倒性的优势。
和DeepSeek一样,Qwen 2.5-Max是开源的。
DeepSeek出现后,很多人认为这是“孤证”,不足以反映中国AI的整体竞争力,阿里公布Qwen2.5-Max之后,坐实中国AI不仅没有被挤下牌桌,而且一直处于最前沿。
以前谷歌首席执行官埃里克·施密特为代表的美国AI领域人士,一直在修正中美之间的技术代沟,差距从几年,十几个月,到最近的几个月。
(图源:pixabay)
和Deepseek投下美股震撼弹不同,阿里Qwen 2.5-Max的出现,让市场开始重估中国科技股。1月30日,阿里巴巴带领一众中概股逆势上演中国龙行情。
当天,阿里巴巴,以6.22%的涨幅领涨,百度、京东、网易们也跟着上涨。全天纳斯达克中国金龙指数大涨4.33%。
据彭博数据显示,1月29日,KraneShares中证中国互联网ETF(KWEB)迎来近四个月来最大规模的单日资金流入。流入资金1.05亿美元,创自去年10月以来的新高。
虽然1月31日阿里有所下跌,但单周依然上涨了超过10%,远远跑赢纳斯纳克。
2025年2月3日,是特朗普加税后的第一个交易日,全球股市暴跌,唯独中国AI幸免于难,甚至逆势大涨。阿里巴巴在港股上涨超过5%,部分AI应用公司涨幅甚至超过10%,20%。
这样的上涨格外醒目。
不狂傲 不低估 比DeepSeek更重要的是……
我们不应该神话DeepSeek的价值,也不应低估其潜在的影响力。
最重要的,并不是DeepSeek创造了什么,而是如何创造的。这次中国罕见的美国式创新,充满了好奇心和理想主义,甚至在这片传统的土壤中飘来一股马斯克的味道,让人好奇不已。
36 氪旗下的暗涌团队分别在 2023 年 5 月、2024 年 7 月两次采访过低调的DeepSeek 创始人梁文锋。
梁文锋在采访中提到,DeepSeek 从最早的 1 张卡,到 2015 年的 100 张卡、2019 年的 1000 张卡,再到一万张,这个过程是逐步发生的。几百张卡之前,DeepSeek 托管在 IDC,规模再变大时,托管就没法满足要求了,就开始自建机房。很多人会以为这里边有一个不为人知的商业逻辑,但主要是好奇心驱动。
梁文锋说,因为对 AI 能力边界的好奇。
(图源:pixabay)
对行外人来说,ChatGPT 这波浪潮冲击特别大;但对行内人来说,2012 年 AlexNet 带来的冲击已经引领一个新的时代。AlexNet 的错误率远低于当时其他模型,复苏了沉睡几十年的神经网络研究。虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的,特别是 2020 年 OpenAI 发布 GPT3 后,方向很清楚,需要大量算力;但即便 2021 年,我们投入建设萤火二号时,大部分人还是无法理解。
在被问及近期有没有融资计划的时候,梁文锋表示,短期内没有融资计划,更多的投入并不一定产生更多的创新。否则大厂可以把所有的创新包揽了。
(图源:pixabay)
2024年7月的那次采访,梁文锋说,自己的出发点不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展;他认为中美差距不是一年或两年,而是原创和模仿之差,中国Al不能永远跟随,不能一直搭便车。
当好奇心和理想主义遭遇中国降本能力的时候,会产生什么?就是deepseek们的涌现。
再加上务实的精神,梁文锋是量化投资出身,说大话、自我欺骗会亏大钱。
以前我们总强调,中国在制造业,在降本方面有着不可比拟的优势,发挥好了大有可为。其实我们忽视了,在聪明的头脑方面,中国同样有绝对意义上的数量优势,有合适的季节就能生长。
2月1日,Telegram创始人杜罗夫表示,DeepSeek取得成功之后,很多人对中国在人工智能领域如此迅速地赶上美国感到惊讶。杜罗夫认为,中国的进步可以通过其中等教育体系的结构来解释,该体系在培养数学和自然科学领域的杰出专家方面优于西方。杜罗夫特别强调,如果美国的中等教育体系不做出改变,中国将在科技领域占据主导地位。
不管教育体制存在什么问题,中国只要维持科学的客观性,就能激发出数量庞大的聪明头脑的创造力,这是中国科学未来希望所在。
(图源:pixabay)
(免责声明:本文为叶檀财经据公开资料做出的客观分析,不构成投资建议,请勿以此作为投资依据。)
叶檀财经矩阵号
声明:近期,不少人以叶檀财经的名义,或xx叶檀、叶檀xx等名义,在各大平台售卖和股市相关的课程,进行和股市相关的直播。
在此,我们声明,任何和股市相关的直播、课程,均与叶檀财经无关,也没有得到叶檀财经或叶檀本人的授权,认可。
叶檀财经运营并管理的微信公众号、视频号有且仅有叶檀财经、叶檀暖人生、叶檀聊人生、半间白云、叶檀说、檀谈人生,抖音号叶檀财经、檀姐姐暖人生,小红书号叶檀财经,快手号叶檀财经,头条号叶檀财经,百家号叶檀,请用户认准上述账号。但凡与上述微信账号不一致的公众号均非叶檀财经负责运营管理,叶檀财经和叶檀对其行为不承担任何法律责任。
放松心情,把学习和享受贯穿在悠长的人生中,让我们一起成长,一起快乐。
作者:青城桢楠编辑:椰子
图片:来源于网络,侵删
叶檀财经作品 | 尽情分享朋友圈
咨询合作,请联系微信
13818756019(商务微信)
喜欢请您点个赞