杨植麟跟梁文锋，论文撞车！

智东西
编译陈骏达
编辑 Panken

智东西2月19日报道，在DeepSeek公布最新稀疏注意力框架NSA论文的5小时后，“大模型六小虎”之一、月之暗面Kimi团队公布了一篇类似主题的MoBA论文，并声称在长文本上下文中实现了高效、动态的注意力选择，提升了大模型在处理超长序列任务时的效率和性能，同时保持了与全注意力机制相当的效果。

▲DeepSeek与月之暗面相隔5小时官宣论文（图源：X）

和NSA类似，MoBA也是一个稀疏注意力框架，旨在提高长文本处理效率。MoBA上下文长度最大可扩展到10M，而NSA最长是64k（刚刚，DeepSeek发新成果！梁文锋亲自参与，实习生挑大梁，显著加速AI训练推理）。值得关注的是，DeepSeek创始人梁文锋是NSA论文共同作者之一，MoBA论文的共同作者中也出现了月之暗面联合创始人杨植麟、周昕宇的名字。

月之暗面MoBA架构的主要特点包括对长上下文任务的适配，例如，在处理长达100万tokens的序列时，其速度比全注意力架构快6.5倍。在扩展到1000万tokens时，MoBA的计算时间与标准Flash Attention相比，实现16倍的加速比。

▲MoBA论文截图（图源：月之暗面）

此外，这一架构没有参数门控机制，模型能在全注意力与MoBA间自由切换，与现有的Transformer预训练模型兼容度也较高。

采用MoBA架构的模型在多个长上下文基准测试中，与全注意力模型相当。特别是在RULER基准测试中，MoBA的稀疏度高达62.5%，但性能与全注意力模型几乎匹配。

昨天，Kimi还面向开发者发布了一款最新的模型Kimi Latest，对标Kimi智能助手当前使用的模型，随智能助手产品更新而同步升级。这款模型支持自动上下文缓存，缓存命中的Tokens费用仅为1元/百万tokens。

项目链接：https://github.com/MoonshotAI/MoBA

论文链接：https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf

一、长文本是AGI关键能力，现有方案可扩展性、成本效益不佳

月之暗面团队认为，实现AGI的关键能力之一是处理、理解和生成长序列的能力，这种对长序列处理的需求不仅体现在对长输入提示词的理解，还体现在对思维链（CoT）输出能力的探索中。

扩展大模型的序列长度并非易事，因为传统的注意力机制会导致计算复杂度呈二次方增长。研究者们需要一种能提高效率，而不会牺牲性能的方法。受到生物学意义上人脑中稀疏连接的启发，研究者们试图利用注意力分数的稀疏性，来提升计算效率。

不过，现有的稀疏注意力框架存在一些问题。

部分方法依赖于预定义的结构约束，如基于sink的注意力或滑动窗口注意力。这些方法的有效性已经得到验证，但仅适用于特定类型的任务，可能会限制模型的整体泛化能力。

另一种方法是动态稀疏注意力机制，如Quest、Minference和RetrievalAttention，这些方法在推理时选择子集，虽然可以减少长序列的计算量，但未能显著降低长序列模型的训练成本，使得LLMs难以高效扩展到百万级的上下文长度。

此外，线性注意力模型（如Mamba、RWKV和RetNet）通过用线性近似替代传统的softmax注意力，降低了计算开销。但线性注意力与传统注意力存在显著差异，在适应现有的Transformer模型时通常需要高昂的转换成本，甚至需要从头开始训练新模型。更重要的是，这些方法在复杂推理任务中的有效性尚未得到充分验证。

月之暗面团队希望在保留原始Transformer框架的前提下，打造一款遵循“少结构（less structure）”原则、稳健且适应性强的注意力架构，让模型自主决定关注点，而不是引入人工干预的偏差。

理想情况下，这种架构能够在全注意力和稀疏注意力模式之间无缝切换，从而最大化与现有预训练模型的兼容性，并在不牺牲性能的情况下实现高效的推理和训练加速。

二、设计灵感源自MoE与稀疏注意力，可与全注意力无缝切换

月之暗面的MoBA架构能通过动态选择历史片段（块）来提高Transformer模型处理长序列的效率。其设计灵感来源于混合专家（MoE）和稀疏注意力技术。他们创新性地将MoE原则应用于注意力机制本身，从而实现更高效和有效的长序列处理。

▲MoBA注意力机制架构图（图源：月之暗面）

MoBA的核心创新在于其块划分和选择策略。它将长序列分割成多个固定大小的块（block），并通过门控机制动态选择与每个查询token最相关的块，从而实现稀疏注意力。

块划分方面，MoBA将将长度为N的上下文划分为n个块，每个块包含B=N/n个连续token。这种方式能够将注意力集中在局部区域，从而减少计算量，使得模型可以高效地处理长序列，而不需要对整个序列进行全局计算。

门控机制通过计算查询token与每个块的相关性得分si，并应用top-k选择机制，动态地为每个查询token选择最相关的k个块。这种机制允许模型动态地关注最有信息量的块，而不是整个上下文，还增强了模型对长序列的理解能力。

因果性是自回归语言模型的核心特性，确保模型只能基于之前的上下文生成下一个token。MoBA通过限制查询token不能关注未来的块，并在当前块内应用因果掩码，避免了信息泄露，确保了生成过程的顺序性和逻辑性，这使得模型在处理长序列时能够保持一致性和准确性。

此外，MoBA借鉴了MoE中细粒度划分的思想，通过增加块的数量和减小块的大小，模型能更精准地捕捉局部信息，同时减少不必要的计算。

由于全注意力与稀疏注意力各有优势，MoBA被设计为全注意力的替代品，可以在训练和推理过程中无缝切换。这种灵活性使得MoBA能够与现有的预训练模型兼容，从而在效率和性能之间取得平衡。

具体实现过程中，MoBA通过结合FlashAttention和MoE的优化技术，打造了高效的计算流程，具体步骤如下:

1、块分配：根据门控网络和因果掩码，确定每个查询token与哪些KV块相关联。

2、顺序调整：按照块分配关系重新排列查询token的顺序，以便按块进行计算。

3、块级注意力计算：对每个KV块及其对应的查询token分别计算注意力输出，这一步可通过FlashAttention优化，显著提升计算效率。

4、输出重组：将计算完成的注意力输出重新排列回原始顺序。

5、在线Softmax组合：使用在线Softmax将不同块的输出进行整合，确保最终结果的连贯性。

三、处理百万token时快6.5倍，混合训练效果与全注意力无异

月之暗面团队主要通过扩展法则实验和消融研究来验证MoBA的一些关键设计选择。

训练方面，他们比较了使用全注意力和MoBA训练的语言模型验证损失，来进行扩展法则实验。MoBA作为全注意力的替代方案，没有引入新的参数或移除现有参数，实验中唯一的区别在于注意力模块，而所有其他超参数（包括学习率和批量大小）保持不变。

MoBA和全注意力的验证损失曲线显示出非常相似的扩展趋势。具体而言，这两种注意力机制之间的验证损失差异始终保持在1e-3的范围内。这表明，尽管MoBA的稀疏注意力模式稀疏度高达75%，但其扩展性能与全注意力相当。

▲MoBA和全注意力的验证损失曲线非常相似（图源：月之暗面）

语言模型损失还会受到数据长度分布的偏差影响。为了全面评估MoBA的长上下文能力，月之暗面团队评估了尾部token的语言模型损失（trailing LM loss）。这些指标能帮助人们了解模型生成序列最后部分的能力，在长上下文理解任务中具有重要意义

测试中，尽管MoBA在所有五个实验中与全注意力相比，尾部块的语言模型损失略高，但损失差距逐渐缩小。这一实验表明了MoBA的长上下文可扩展性。

▲MoBA与全注意力模型间的损失差距逐渐缩小（图源：月之暗面）

研究人员还通过调整块大小和top-k参数，研究块粒度对性能的影响。实验发现，细粒度分割显著提升了MoBA的性能。

他们还在尝试了混合训练策略，先用MoBA训练90%的数据，再用全注意力训练剩余10%的数据。结果显示，混合训练策略在保持高效训练的同时，几乎达到了全注意力的性能水平。

▲混合训练策略（绿线）与全注意力策略（红线）的性能差异较小（图源：月之暗面）

在多个长上下文基准测试中，MoBA的性能与全注意力模型相当。特别是在RULER基准测试中，MoBA的稀疏度高达62.5%，但性能与全注意力模型几乎匹配，还在近半数的测验中实现了更好的表现。

▲MoBA模型在基准测试上的表现（图源：月之暗面）

MoBA模型在长上下文理解任务上的也具有不错的表现，于3200-100万tokens上下文长度的“大海捞针（Needle in a Haystack）”测试中获得了令人满意的表现。

▲采用MoBA注意力机制的模型在“大海捞针”测试中的表现（图源：月之暗面）

MoBA在计算效率方面表现出显著优势。其前向传播时间远低于传统的全注意力机制，展现出亚二次复杂度，这意味着随着序列长度的增加，MoBA的计算开销增长速度远低于传统方法。例如，在处理长达100万tokens的序列时，MoBA的速度比全注意力快6.5倍。

此外，MoBA的效率优势在处理更长序列时愈发明显：在扩展到1000万tokens时，MoBA的计算时间与标准Flash Attention相比，实现16倍的加速比。

这种高效性主要得益于MoBA的块稀疏注意力机制，以及其结合了MoE和Flash Attention的优化实现。这些技术有效解决了传统注意力机制的二次复杂度问题，显著提升了模型的计算效率，使其能够高效处理极长序列。

四、同日发布新模型，将与最新版Kimi保持同步

月之暗面昨天还发布了一个新模型Kimi Latest，这款模型主要是为了弥合Kimi智能助手和开放平台之间模型的差异。

在过去，当开发团队优先满足智能助手的情绪化回复需求时，开放平台用户可能遭遇提示词失效等“破坏性变动”，不符合其对模型效果稳定性的要求。

另一方面，智能助手的快速迭代特性导致部分试验性特性虽在某些方面出色，但在其他场景下存在缺陷（如重复输出），不适合第一时间应用于开放平台，造成开放平台与智能助手所用模型存在差异，引发用户对同一提示词在网页版和API调用时回复不同的疑问。

新模型Kimi Latest对标Kimi智能助手当前使用的模型，并随产品更新同步升级（模型名称始终为kimi-latest）。开放平台用户体验可以体验最新模型的效果（包括试验性特性），又能保持原有模型的稳定性。

Kimi Latest模型有五大特点：

1、使用Kimi智能助手最新的大模型，可能包含尚未稳定的特性。

2、上下文长度为128k，会根据上下文长度自动选择8k/32k/128k模型作为计费模型。

3、是视觉模型，支持图片理解。

4、支持自动上下文缓存，缓存命中的Tokens费用为￥1/M Tokens（暂不支持手动上下文缓存）。

5、其余功能与moonshot-v1系列模型一致，包括ToolCalls、JSON Mode、Partial Mode、联网搜索功能等。

月之暗面建议，如果开发者是为了获取与Kimi智能助手类似的体验，或是要开发AI智能助手或客服，推荐使用Kimi Latest模型；但如果是要进行意图识别或结构化数据提取，或是已经使用moonshot-v1系列模型且提示词效果稳定，还是推荐使用原有的moonshot-v1系列模型。

结语：国产开源AI竞赛升级

在DeepSeek以现象级开源姿态引爆行业后，国内大模型赛道掀起了一场开源军备竞赛——厂商们不仅争相开源自家模型，也将内部技术成果以论文形式推向开发者社区。这一举措有望撬动开发者生态，扩大技术影响力。

不过，在这场竞赛中，月之暗面已然不是那个最耀眼的玩家：发布v1.5撞同款推理模型DeepSeek R1，势头完全被DeepSeek盖过；发新模型和稀疏注意力机制，又撞上阶跃星辰新模型开源、马斯克Grok 3发布、DeepSeek NSA轮番吸走高关注度。曾经的顶流，被网友戏称是“大模型圈的汪峰”，如今似乎很难再抢到大模型圈的“头条”。