1. 论文简介
- 论文标题:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
- 发布时间:2025 年 2 月
- 论文地址:arXiv链接
- 主要内容:
- 动态分层稀疏策略:结合粗粒度的 token 压缩和细粒度的 token 选择,保持全局上下文感知的同时确保局部精确性。
- 硬件对齐优化:通过算术强度均衡的算法设计,实现显著的加速,并针对现代硬件进行了优化实现。
- 端到端训练支持:支持端到端训练,降低预训练计算成本,而不会牺牲模型性能。
- 实验结果:在多个基准测试中,NSA 的性能与全注意力(Full Attention)模型相当甚至更优,同时在解码、前向传播和反向传播阶段均实现了显著的加速。
2. 论文摘要
- 背景:
- 长上下