7月30日,ACL(国际计算语言学年会)公布了2025年的获奖论文。令人惊喜的是,这些论文里的中国作者比例超过51%,排在第二的美国仅为14%。
其中,一篇由DeepSeek梁文锋作为通讯作者、与北京大学等联合发表的论文不仅拿下Best Paper奖,相关成果也引发热议。
现场讲座中,该论文的第一作者袁境阳透露,这项技术可以把上下文长度扩展到100万tokens,并将应用在他们的下一个前沿模型中。据了解,袁境阳当时写这篇论文时还只是Deepseek的实习生。
引入两大核心技术创新
长上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了显著的计算挑战。随着序列长度的增加,延迟瓶颈问题愈发凸显。理论估算表明,在解码64k长度的上下文时,采用softmax架构的注意力计算占总延迟的70%–80%,这凸显了对更高效注意力机制的迫切需求。
为解决这些局限性,有效的稀疏注意力机制在实际应用中必须应对两项关键挑战:与硬件适配的推理加速,要将理论上的计算量减少转化为实际的速度提升,就需要在预填充和解码阶段都采用硬件友好型的算法设计,以缓解内存访问和硬件调度方面的瓶颈;兼顾训练的算法设计,通过可训练算子实现端到端计算,在维持模型性能的同时降低训练成本。
综合考虑这两个方面,现有方法仍存在明显差距。该团队认为,稀疏注意力为在保持模型能力的同时提高效率提供了一个很有前景的方向。
在获奖论文中,他们提出了NSA,这是一种可原生训练的稀疏注意力(Natively trainable Sparse Attention)机制。它将算法创新与硬件对齐优化相结合,以实现高效的长上下文建模。据介绍,NSA采用动态分层稀疏策略,结合粗粒度的token压缩和细粒度的token选择,以同时保留全局上下文感知和局部精度。
具体来说,NSA引入了两项核心创新。
通过算术强度平衡的算法设计实现了显著的加速,并针对现代硬件进行了实现优化:优化块式稀疏注意力,以提高张量核利用率和内存访问,确保均衡的算术强度。
通过高效算法和反向算子实现稳定的端到端训练,在不牺牲模型性能的情况下减少了预训练计算量。
上下文处理速度狂飙,
准确率堪称“完美”
在真实世界语言语料库上进行综合实验评估后,NSA由于稀疏性过滤掉更多噪声,在基准测试中产生更好的准确率。据悉,该团队在一个拥有270亿参数的Transformer骨干网络(其中激活参数为30亿)上,使用2600亿个token进行预训练,并从通用语言评估、长上下文评估和思维链推理评估三个方面评估了NSA的性能,还在A100 GPU上将其内核速度与经过优化的Triton实现作了进一步比较。
实验结果表明,NSA的整体性能与全注意力模型相当甚至更优。在9项指标中的7项上,NSA均超过了包括全注意力模型在内的所有基线。这表明,尽管NSA在较短序列上可能无法充分发挥其效率优势,但它展现出了强劲的性能。
值得注意的是,NSA在推理相关的基准测试中取得了显著提升(DROP:+0.042,GSM8K:+0.034),这说明该团队的预训练有助于模型发展出专门的注意力机制。这种稀疏注意力预训练机制迫使模型聚焦于最重要的信息,通过过滤无关注意力路径中的噪声,可能会提升性能。在各类评估中表现出的一致性,也验证了NSA作为通用架构的稳健性。
在64k上下文的“大海捞针”测试中,NSA在所有位置都实现了完美的检索准确率。此外,与全注意力相比,NSA在解码、前向传播和反向传播方面都实现了显著的速度提升,且序列越长,提速比例越大。
据该团队称,这一性能正是得益于其分层稀疏注意力设计,该设计结合了用于高效全局上下文扫描的token压缩和用于精确局部信息检索的token选择。粗粒度的token压缩以较低的计算成本识别相关的上下文块,而对token选择的标记级注意力则确保保留关键的细粒度信息。
同时,NSA优于多种现有的稀疏注意力方法,包括H2O、infLLM、Quest以及Exact-Top。
值得注意的是,NSA在需要对长上下文进行复杂推理的任务上表现出色,在多跳问答任务(HPQ和2Wiki)上比全注意力模型分别提升0.087和0.051,在代码理解任务(LCC)上超出基线模型0.069,在段落检索任务(PassR-en)上优于其他方法0.075。这些结果也验证了NSA处理各种长上下文挑战的能力,其原生预训练的稀疏注意力在学习任务最优模式方面带来了额外优势。
为评估NSA与先进下游训练范式的兼容性,该团队研究了其通过后期训练获得思维链数学推理能力的潜力。鉴于强化学习在较小规模模型上的效果有限,其采用来自DeepSeek-R1的知识蒸馏,使用100亿个32k长度的数学推理轨迹进行有监督微调(SFT)。这产生了两个可比较的模型:全注意力-R(全注意力基线模型)和NSA-R(稀疏变体)。
接着,他们在具有挑战性的美国数学邀请赛(AIME 24)基准上对这两个模型进行了评估,使用0.7的采样温度和0.95的核采样值,为每个问题生成16个回答并取平均分。并且,为验证推理深度的影响,他们在两种生成上下文序列下进行了实验。结果显示,NSA-R在8k和16k序列长度下的表现均优于全注意力-R。
这些结果验证了原生稀疏注意力的两项关键优势:(1)预训练的稀疏注意力模式能够高效捕捉复杂数学推导所必需的长程逻辑依赖关系;(2)我们架构的硬件对齐设计保持了足够的上下文密度,以支持推理深度的增加,同时避免灾难性遗忘。在不同上下文长度下的持续优异表现证实,当稀疏注意力被原生整合到训练流程中时,其在高级推理任务中具有切实可行性。
计算效率方面,该团队将基于Triton实现的NSA注意力机制和全注意力机制,与基于Triton的FlashAttention-2在8-GPU A100系统进行了比较,以确保在相同后端下进行公平的速度对比。
结果表明,随着上下文长度的增加,NSA实现了越来越显著的速度提升。在64k上下文长度下,前向速度提升高达9.0倍,反向速度提升高达6.0倍。值得注意的是,序列越长,速度优势就越明显。随着解码长度的增加,NSA的方法延迟显著降低,在64k上下文长度下提速高达11.6倍,且这种内存访问效率方面的优势也会随着序列变长而进一步扩大。
值得一提的是,这篇论文早在今年2月就对外公布,而相关研究成果至今还没有出现在任何DeepSeek模型中。不过,根据论文一作袁境阳的说法,DeepSeek下一代模型就将应用这项技术,这也让许多网友对DeepSeek V4的发布更加期待,毕竟其与DeepSeek R2的发布计划似乎也有很大关联。
早在今年4月,就有“DeepSeek R2提前泄露”的传言在AI圈刷屏。源头是来自Hugging Face CEO发布的一条耐人寻味的帖子,配图是DeepSeek在Hugging Face的仓库链接,接着引发不少关于R2发布时间和技术细节的各类传播。但对此,DeepSeek官方一直未作出回应。
前不久,有外媒报道称,DeepSeek R2可能继续推迟。迟迟未发布的内部原因是DeepSeek创始人梁文锋对该模型当前的性能不满意,工程师团队仍在优化和打磨。与此同时,也有人这样推测:R2好歹要等V4出来再说,V3可能已经到达极限了。