AI学习指南DeepSeek篇(12)-论文导读 Native Sparse Attention

1. 论文简介

  • 论文标题:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
  • 发布时间:2025 年 2 月
  • 论文地址arXiv链接
  • 主要内容
    • 动态分层稀疏策略:结合粗粒度的 token 压缩和细粒度的 token 选择,保持全局上下文感知的同时确保局部精确性。
    • 硬件对齐优化:通过算术强度均衡的算法设计,实现显著的加速,并针对现代硬件进行了优化实现。
    • 端到端训练支持:支持端到端训练,降低预训练计算成本,而不会牺牲模型性能。
    • 实验结果:在多个基准测试中,NSA 的性能与全注意力(Full Attention)模型相当甚至更优,同时在解码、前向传播和反向传播阶段均实现了显著的加速。

2. 论文摘要

  • 背景
    • 长上下
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值