智东西
编译 陈骏达
编辑 Panken

智东西2月19日报道,在DeepSeek公布最新稀疏注意力框架NSA论文的5小时后,“大模型六小虎”之一、月之暗面Kimi团队公布了一篇类似主题的MoBA论文,并声称在长文本上下文中实现了高效、动态的注意力选择,提升了大模型在处理超长序列任务时的效率和性能,同时保持了与全注意力机制相当的效果。


▲DeepSeek与月之暗面相隔5小时官宣论文(图源:X)

和NSA类似,MoBA也是一个稀疏注意力框架,旨在提高长文本处理效率。MoBA上下文长度最大可扩展到10M,而NSA最长是64k(刚刚,DeepSeek发新成果!梁文锋亲自参与,实习生挑大梁,显著加速AI训练推理)。值得关注的是,DeepSeek创始人梁文锋是NSA论文共同作者之一,MoBA论文的共同作者中也出现了月之暗面联合创始人杨植麟、周昕宇的名字。

月之暗面MoBA架构的主要特点包括对长上下文任务的适配,例如,在处理长达100万tokens的序列时,其速度比全注意力架构快6.5倍。在扩展到1000万tokens时,MoBA的计算时间与标准Flash Attention相比,实现16倍的加速比。


▲MoBA论文截图(图源:月之暗面)

此外,这一架构没有参数门控机制,模型能在全注意力与MoBA间自由切换,与现有的Transformer预训练模型兼容度也较高。

采用MoBA架构的模型在多个长上下文基准测试中,与全注意力模型相当。特别是在RULER基准测试中,MoBA的稀疏度高达62.5%,但性能与全注意力模型几乎匹配。

昨天,Kimi还面向开发者发布了一款最新的模型Kimi Latest,对标Kimi智能助手当前使用的模型,随智能助手产品更新而同步升级。这款模型支持自动上下文缓存,缓存命中的Tokens费用仅为1元/百万tokens。

项目链接:https://github.com/MoonshotAI/MoBA

论文链接:https://github.com/MoonshotAI/MoBA/blob/master/MoBA_Tech_Report.pdf

一、长文本是AGI关键能力,现有方案可扩展性、成本效益不佳

月之暗面团队认为,实现AGI的关键能力之一是处理、理解和生成长序列的能力,这种对长序列处理的需求不仅体现在对长输入提示词的理解,还体现在对思维链(CoT)输出能力的探索中。

扩展大模型的序列长度并非易事,因为传统的注意力机制会导致计算复杂度呈二次方增长。研究者们需要一种能提高效率,而不会牺牲性能的方法。受到生物学意义上人脑中稀疏连接的启发,研究者们试图利用注意力分数的稀疏性,来提升计算效率。

不过,现有的稀疏注意力框架存在一些问题。

部分方法依赖于预定义的结构约束,如基于sink的注意力或滑动窗口注意力。这些方法的有效性已经得到验证,但仅适用于特定类型的任务,可能会限制模型的整体泛化能力。

另一种方法是动态稀疏注意力机制,如Quest、Minference和RetrievalAttention,这些方法在推理时选择子集,虽然可以减少长序列的计算量,但未能显著降低长序列模型的训练成本,使得LLMs难以高效扩展到百万级的上下文长度。

此外,线性注意力模型(如Mamba、RWKV和RetNet)通过用线性近似替代传统的softmax注意力,降低了计算开销。但线性注意力与传统注意力存在显著差异,在适应现有的Transformer模型时通常需要高昂的转换成本,甚至需要从头开始训练新模型。更重要的是,这些方法在复杂推理任务中的有效性尚未得到充分验证。

月之暗面团队希望在保留原始Transformer框架的前提下,打造一款遵循“少结构(less structure)”原则、稳健且适应性强的注意力架构,让模型自主决定关注点,而不是引入人工干预的偏差。

理想情况下,这种架构能够在全注意力和稀疏注意力模式之间无缝切换,从而最大化与现有预训练模型的兼容性,并在不牺牲性能的情况下实现高效的推理和训练加速。

二、设计灵感源自MoE与稀疏注意力,可与全注意力无缝切换

月之暗面的MoBA架构能通过动态选择历史片段(块)来提高Transformer模型处理长序列的效率。其设计灵感来源于混合专家(MoE)和稀疏注意力技术。他们创新性地将MoE原则应用于注意力机制本身,从而实现更高效和有效的长序列处理。


▲MoBA注意力机制架构图(图源:月之暗面)

MoBA的核心创新在于其块划分和选择策略。它将长序列分割成多个固定大小的块(block),并通过门控机制动态选择与每个查询token最相关的块,从而实现稀疏注意力。

块划分方面,MoBA将将长度为N的上下文划分为n个块,每个块包含B=N/n个连续token。这种方式能够将注意力集中在局部区域,从而减少计算量,使得模型可以高效地处理长序列,而不需要对整个序列进行全局计算。

门控机制通过计算查询token与每个块的相关性得分si,并应用top-k选择机制,动态地为每个查询token选择最相关的k个块。这种机制允许模型动态地关注最有信息量的块,而不是整个上下文,还增强了模型对长序列的理解能力。

因果性是自回归语言模型的核心特性,确保模型只能基于之前的上下文生成下一个token。MoBA通过限制查询token不能关注未来的块,并在当前块内应用因果掩码,避免了信息泄露,确保了生成过程的顺序性和逻辑性,这使得模型在处理长序列时能够保持一致性和准确性。

此外,MoBA借鉴了MoE中细粒度划分的思想,通过增加块的数量和减小块的大小,模型能更精准地捕捉局部信息,同时减少不必要的计算。

由于全注意力与稀疏注意力各有优势,MoBA被设计为全注意力的替代品,可以在训练和推理过程中无缝切换。这种灵活性使得MoBA能够与现有的预训练模型兼容,从而在效率和性能之间取得平衡。

具体实现过程中,MoBA通过结合FlashAttention和MoE的优化技术,打造了高效的计算流程,具体步骤如下:

1、块分配:根据门控网络和因果掩码,确定每个查询token与哪些KV块相关联。

2、顺序调整:按照块分配关系重新排列查询token的顺序,以便按块进行计算。

3、块级注意力计算:对每个KV块及其对应的查询token分别计算注意力输出,这一步可通过FlashAttention优化,显著提升计算效率。

4、输出重组:将计算完成的注意力输出重新排列回原始顺序。

5、在线Softmax组合:使用在线Softmax将不同块的输出进行整合,确保最终结果的连贯性。

三、处理百万token时快6.5倍,混合训练效果与全注意力无异

月之暗面团队主要通过扩展法则实验和消融研究来验证MoBA的一些关键设计选择。

训练方面,他们比较了使用全注意力和MoBA训练的语言模型验证损失,来进行扩展法则实验。MoBA作为全注意力的替代方案,没有引入新的参数或移除现有参数,实验中唯一的区别在于注意力模块,而所有其他超参数(包括学习率和批量大小)保持不变。

MoBA和全注意力的验证损失曲线显示出非常相似的扩展趋势。具体而言,这两种注意力机制之间的验证损失差异始终保持在1e-3的范围内。这表明,尽管MoBA的稀疏注意力模式稀疏度高达75%,但其扩展性能与全注意力相当。


▲MoBA和全注意力的验证损失曲线非常相似(图源:月之暗面)

语言模型损失还会受到数据长度分布的偏差影响。为了全面评估MoBA的长上下文能力,月之暗面团队评估了尾部token的语言模型损失(trailing LM loss)。这些指标能帮助人们了解模型生成序列最后部分的能力,在长上下文理解任务中具有重要意义

测试中,尽管MoBA在所有五个实验中与全注意力相比,尾部块的语言模型损失略高,但损失差距逐渐缩小。这一实验表明了MoBA的长上下文可扩展性。


▲MoBA与全注意力模型间的损失差距逐渐缩小(图源:月之暗面)

研究人员还通过调整块大小和top-k参数,研究块粒度对性能的影响。实验发现,细粒度分割显著提升了MoBA的性能。

他们还在尝试了混合训练策略,先用MoBA训练90%的数据,再用全注意力训练剩余10%的数据。结果显示,混合训练策略在保持高效训练的同时,几乎达到了全注意力的性能水平。


▲混合训练策略(绿线)与全注意力策略(红线)的性能差异较小(图源:月之暗面)

在多个长上下文基准测试中,MoBA的性能与全注意力模型相当。特别是在RULER基准测试中,MoBA的稀疏度高达62.5%,但性能与全注意力模型几乎匹配,还在近半数的测验中实现了更好的表现。


▲MoBA模型在基准测试上的表现(图源:月之暗面)

MoBA模型在长上下文理解任务上的也具有不错的表现,于3200-100万tokens上下文长度的“大海捞针(Needle in a Haystack)”测试中获得了令人满意的表现。


▲采用MoBA注意力机制的模型在“大海捞针”测试中的表现(图源:月之暗面)

MoBA在计算效率方面表现出显著优势。其前向传播时间远低于传统的全注意力机制,展现出亚二次复杂度,这意味着随着序列长度的增加,MoBA的计算开销增长速度远低于传统方法。例如,在处理长达100万tokens的序列时,MoBA的速度比全注意力快6.5倍。

此外,MoBA的效率优势在处理更长序列时愈发明显:在扩展到1000万tokens时,MoBA的计算时间与标准Flash Attention相比,实现16倍的加速比。

这种高效性主要得益于MoBA的块稀疏注意力机制,以及其结合了MoE和Flash Attention的优化实现。这些技术有效解决了传统注意力机制的二次复杂度问题,显著提升了模型的计算效率,使其能够高效处理极长序列。

四、同日发布新模型,将与最新版Kimi保持同步

月之暗面昨天还发布了一个新模型Kimi Latest,这款模型主要是为了弥合Kimi智能助手和开放平台之间模型的差异。

在过去,当开发团队优先满足智能助手的情绪化回复需求时,开放平台用户可能遭遇提示词失效等“破坏性变动”,不符合其对模型效果稳定性的要求。

另一方面,智能助手的快速迭代特性导致部分试验性特性虽在某些方面出色,但在其他场景下存在缺陷(如重复输出),不适合第一时间应用于开放平台,造成开放平台与智能助手所用模型存在差异,引发用户对同一提示词在网页版和API调用时回复不同的疑问。

新模型Kimi Latest对标Kimi智能助手当前使用的模型,并随产品更新同步升级(模型名称始终为kimi-latest)。开放平台用户体验可以体验最新模型的效果(包括试验性特性),又能保持原有模型的稳定性。

Kimi Latest模型有五大特点:

1、使用Kimi智能助手最新的大模型,可能包含尚未稳定的特性。

2、上下文长度为128k,会根据上下文长度自动选择8k/32k/128k模型作为计费模型。

3、是视觉模型,支持图片理解。

4、支持自动上下文缓存,缓存命中的Tokens费用为¥1/M Tokens(暂不支持手动上下文缓存)。

5、其余功能与moonshot-v1系列模型一致,包括ToolCalls、JSON Mode、Partial Mode、联网搜索功能等。

月之暗面建议,如果开发者是为了获取与Kimi智能助手类似的体验,或是要开发AI智能助手或客服,推荐使用Kimi Latest模型;但如果是要进行意图识别或结构化数据提取,或是已经使用moonshot-v1系列模型且提示词效果稳定,还是推荐使用原有的moonshot-v1系列模型。

结语:国产开源AI竞赛升级

在DeepSeek以现象级开源姿态引爆行业后,国内大模型赛道掀起了一场开源军备竞赛——厂商们不仅争相开源自家模型,也将内部技术成果以论文形式推向开发者社区。这一举措有望撬动开发者生态,扩大技术影响力。

不过,在这场竞赛中,月之暗面已然不是那个最耀眼的玩家:发布v1.5撞同款推理模型DeepSeek R1,势头完全被DeepSeek盖过;发新模型和稀疏注意力机制,又撞上阶跃星辰新模型开源、马斯克Grok 3发布、DeepSeek NSA轮番吸走高关注度。曾经的顶流,被网友戏称是“大模型圈的汪峰”,如今似乎很难再抢到大模型圈的“头条”。

ad1 webp
ad2 webp
ad1 webp
ad2 webp