梁文锋 图片来源:视觉中国
北京时间2月18日,在马斯克还在庆祝Grok 3模型正式发布的时候,DeepSeek官方在社交平台X上发布了一篇纯技术论文,主要是关于原生稀疏注意力(Native Sparse Attention,下称NSA),直指ChatGPT等顶尖大模型背后的Transformer架构最核心的注意力机制。
通过这一技术,DeepSeek不仅能将大语言模型处理64k长文本的速度最高提升11.6倍,更在通用基准测试中实现了对传统全注意力模型(Full Attention models)的性能反超。
值得注意的是,这篇论文是由DeepSeek创始人梁文锋亲自提交的,而且他也是作者之一。而就在DeepSeek发表这篇技术论文的同一天,月之暗面创始人杨植麟也“挂帅”发布了最新论文,主题同样围绕长文的算法优化。
月之暗面提出的新方法叫块注意力混合(Mixture of Block Attention,下称MoBA)。这项方法没有完全脱离现在最主流的全注意力机制,而是设计了一套可以自由切换的方式,让这些模型可以在全注意力和稀疏注意力机制之间切换,给已有的全注意力模型更多的适配空间。
谈及DeepSeek的NSA机制,风投公司RAI Digital联合创始人萨义德·戈苏斯对《每日经济新闻》记者解释称,与马斯克所追求的“大力出奇迹”不同,DeepSeek的新技术更强调通过算法优化来提升长文处理效率。他提到,NSA不会专注每个单词,而是尝试通过只关注重要的单词来提升效率。
DeepSeek发布新论文,梁文锋参与并提交
北京时间2月18日,DeepSeek官方在X上发布新论文,介绍了一种新的算法优化方式——原生稀疏注意力(NSA)。
据DeepSeek介绍,NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。
图片来源:X
通过这一技术,DeepSeek不仅能将大语言模型处理64k长文本的速度最高提升11.6倍,更在通用基准测试中实现了对传统全注意力模型的性能反超。
图片来源:DeepSeek的X账号
值得注意的是,DeepSeek创始人梁文锋也出现在了论文作者的行列当中,在作者排名中位列倒数第二,并且也是他亲自提交至预印本网站上的。
图片来源:arXiv
论文的第一作者是DeepSeek的实习生袁景阳,他于2022年在北大获得了学士学位,目前在北大的Anker Embodied AI实验室继续攻读研究生学位。他也是DeepSeek-V3报告的主要作者之一,并参与了DeepSeek-R1的研究工作。
月之暗面再次“撞车”DeepSeek
无独有偶,在DeepSeek发论文的当天,月之暗面创始人杨植麟也亲自“挂帅”发表了一篇论文,同样直指算法优化。
杨植麟 图片来源:视觉中国
图片来源:月之暗面
该公司提出的新方法叫块注意力混合(MoBA)。顾名思义,这一方法也运用了将词变成块的方法。不过,该方法没有完全脱离现在最主流的全注意力机制,而是设计了一套可以自由切换的方式,让这些模型可以在全注意力和稀疏注意力机制之间切换,给已有的全注意力模型更多的适配空间。
根据论文,MoBA的计算复杂度随着上下文长度增加而优势明显。在1M token的测试中,MoBA比全注意力快了6.5倍;到10M token时,则提速16倍。而且,它已经在Kimi的产品中使用,用来处理日常用户们的超长上下文的处理需求。
而这也并不是是DeepSeek和月之暗面第一次“撞车”了,上一次是在DeepSeek推理模型R1和月之暗面推理模型Kimi 1.5发布时。
MoBA论文主要作者章明星教授笑称,“有种‘掌中,亦一火字’的感觉(不讨论谁是孔明,谁说周郎)。”他同时也感慨:“大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线,让不同的人从不同的角度得出了相似的前进方向。”
DeepSeek新方法背后的三大技术
谈及DeepSeek的新方法,风投公司RAI Digital联合创始人萨义德·戈苏斯告诉每经记者,这是AI模型处理超长文本的新方法,比传统方法更快、更高效。
像ChatGPT这样的大型语言模型,都使用一种叫“注意力”(Attention)机制的方法来处理文本,2017年谷歌研究员推出的论文《Attention Is All You Need》被认为是现在所有大模型的基石。
戈苏斯进一步向每经记者解释道:“想象一下你正在读一本书。要理解一个句子,你不仅要看当前的单词,还要回忆起前面句子中的相关单词,以理解所有内容。AI使用注意力做类似的事情,这有助于它确定哪些词是重要的,以及它们彼此之间的关系。传统注意力机制(全注意力)会查看文本中的每个单词,并将其与其他每个单词进行比较。这对于短文本来说很好,但是当文本很长时(比如整本书或一份长的法律文件),这个过程就会变得太慢,而且在计算机上运行成本太高。
而DeepSeek论文中提到的稀疏注意力机制不会专注每个单词,而是尝试通过只关注重要的单词来提升效率,就像是只读摘要而不是整本书一样。
戈苏斯对每经记者介绍说:“为了做好这一点,NSA引入了一种新方法来过滤不重要的单词,同时仍保留足够的上下文来理解完整含义。
它使用三种主要技术来实现这一点:
压缩:NSA不会查看每个单词,而是将单词分组为“块”,并为每个块创建摘要。可以将其想象成将一个段落变成一个简短的摘要。
选择:模型从文本中挑选出最应该关注的重要单词。就像在学习时,只突出显示教科书中的关键句子一样。
滑动窗口:尽管NSA总结并选择了单词,但它仍然会查看附近的单词,以确保不会错过细小但重要的细节。想象一下阅读一本书——人们不会只是从一页跳到下一页而不浏览附近的句子。
DeepSeek认为,三部分策略使NSA速度更快,同时理解含义的能力与传统方法一样好(甚至更好)。”
图片来源:DeepSeek
有网友称,这是在教会AI学会“聪明的偷懒”,像人类一样聪明地分配注意力,从而让长文的处理又快又准,不再是一个“死读书的呆子”。虽然牺牲了一定的准确率,但是极大提升了效率,人脑就是这么干的。
戈苏斯还表示,DeepSeek这次不仅是单纯的算法进步,它还对现有的计算机硬件进行了优化,以便GPU可以实现有效处理。
有科技媒体指出,DeepSeek此次使用了Triton框架,而非英伟达专用库,这或许暗示了其在模型研发阶段已考虑适配更多类型的计算卡,为未来的开源和广泛应用奠定了基础。