注意力架构变迁总结:稀疏、线性、SSM、混合架构如何摆脱 O(L²) 的代价

发布时间:2026/7/1 2:15:49
注意力架构变迁总结:稀疏、线性、SSM、混合架构如何摆脱 O(L²) 的代价 自注意力Self-attention支撑了 Transformer 近十年每个 Token 都要关注序列中的每一个其他 Token让这些模型能够推理的机制而且恰恰也是成本飙升的根源上下文翻倍计算量大致翻四倍。这个 O(L²) 的惩罚项年复一年地限制着提示词Prompt能写多长、一个 Token 能卖多便宜。业界一直在寻找改进的方法比如稀疏注意力Sparse Attention和一个线性注意力Linear Attention还有状态空间模型State Space Model。左图尽管是稀疏的DeepSeek 的 NSA 在通用、长上下文和推理基准测试的平均表现上都优于完整注意力。右图在 64k Token 时它在解码decode、前向forward、反向backward每个阶段都快上数倍。引言“Attention Is All You Need” 给出的模型里要计算第n个 Token 的表示需要把它和序列中的每一个其他 Token 打分。对于长度为L的序列这是一个L×L的分数矩阵——注意力在计算上是 O(L²)在注意力矩阵上也是 O(L²)生成时必须保留的键值KV缓存随着每个新 Token 以 O(L) 增长。上下文翻倍矩阵乘法大致翻四倍。多年来这都不算问题因为上下文窗口很短。但是2025 年和 2026 年情况变了会输出数万 Token 思维链Chain-of-Thought的推理模型在工作记忆中保留数百次工具调用的智能体Agent整体被塞进提示词的代码库长上下文成了主旋律。二次方项不再是学术脚注而是 GPU最大的一笔开销。有四个方向解决这个问题稀疏注意力学习哪些 Token 真正重要跳过其余部分NSA、MoBA、DSA。线性注意力去掉 softmax让注意力坍缩为一个固定大小的循环状态MiniMax-01 的 Lightning Attention、Gated DeltaNet、RWKV-7。状态空间模型用一种可选择的线性递归完全取代注意力Mamba 家族。混合架构Hybrid保留少量精确注意力层用于精确召回其余部分都做得很便宜Jamba、Nemotron-H以及后文会谈到的 DeepSeek-V4 本身。本文将介绍四条路线的原理、经过验证的基准测试数据以及各自目前的生产落地情况。KV 缓存长上下文推理有两个截然不同的阶段各自卡在不同的硬件瓶颈上。**预填充Prefill读取提示词**是计算密集型的整个提示词被并行处理为大规模矩阵乘法。在 H100 上这一阶段的计算利用率可达 90%–95%算术强度约为 200–400 ops/byte是 O(L²) 阶段。**解码Decode逐个生成 Token**则是内存带宽密集型的。为了生成每一个新 TokenGPU 必须把整个 KV 缓存从高带宽内存HBM中重新读一遍张量核心几微秒就算完了之后就闲着等内存利用率跌到 20%–40%内存总线却饱和在 85%–95%。这个阶段才是长生成成本的大头。对于一个使用分组查询注意力GQA的 70B 模型每个 Token 大约要花费 0.32 MB 的 KV 状态一个普通的 4096 Token 提示词就已经是 1.34 GB。把这个 0.32 MB/Token 的比例外推到 128K 上下文算下来大约是 40–42 GB 的 KV 缓存一块 80 GB 显卡几乎不剩什么空间留给权重。极端情况更荒谬Magic.dev 计算过为 Llama 3.1 405B 保留一个 1 亿 Token 的 KV 缓存每个用户需要 638 块 H100仅仅是缓存。HBM 之所以成为瓶颈是因为快速内存太小。A100 有 40–80 GB、带宽 1.5–2.0 TB/s 的 HBM但每个流式多处理器上只有 192 KB 运行在约 19 TB/s 的片上 SRAM带宽差距大约 10 倍。FlashAttention 凭借平铺tiling注意力减少 HBM 往返让精确注意力更快但没有改变 O(L²) 的计算量或 O(L) 的缓存量要打破这两道限制只能改变架构本身。四个家族与高效-精确对照组一个线性注意力/SSM 层可以用两种等价的方式计算——一种是用于快速训练的并行分块chunkwise形式块内Qintra另一种是在块之间传递单个固定大小状态 S块间Qinter以实现恒定内存的循环推理。这种对偶性让这些模型既能大规模训练又能廉价解码。高效-精确基准组FlashAttention、分组查询注意力GQA以及 DeepSeek 的多头潜在注意力Multi-head Latent AttentionMLA保持注意力在数学上精确但缩减缓存或内存流量。稀疏注意力NSA、MoBA、DSA只在一个学习出来的 Token 子集上计算注意力。线性注意力MiniMax Lightning、Gated DeltaNet、RWKV-7用核函数取代 softmax使注意力变成一种递归。状态空间模型Mamba、Mamba-2、Mamba-3一种可选择的线性递归完全抛弃注意力。混合架构Jamba、Nemotron-H、DeepSeek-V4把少量注意力层混入一个廉价骨干网络。高效-精确MLA 与 KV 缓存的瘦身在稀疏化或线性化之前DeepSeek 先对缓存本身动了手。多头潜在注意力MLA最早在 DeepSeek-V2 中提出延续到了 V3注意力保持精确存储量却大幅减少。MLA左把每个 Token 的键和值压缩成一个小的潜在向量latent vector只缓存这一个向量再即时重建出各个头的 K/V。一个小的解耦 RoPE组件单独负责携带位置信息。标准多头注意力要为每一层的每个头都缓存完整的键和值MLA 则把每个 Token 下投影成一个共享的潜在向量键和值的低秩联合压缩只缓存这一个向量做注意力计算时再通过上投影矩阵重建出各个头的键和值。旋转位置编码RoPE无法在这种压缩中干净地存活所以 MLA 加了一个小的解耦 RoPE组件单独携带位置信息。相比 DeepSeek 此前的 67B 稠密模型MLA 把 KV 缓存削减了93.3%最大生成吞吐量提升了5.76 倍论文还报告精度优于完整多头注意力。MLA 是 DeepSeek 后续整条产品线包括下文的稀疏注意力的地基。可训练的稀疏注意力NSA多年来人们一直在尝试稀疏化注意力但大多是在训练之后剔除低分 TokenH2O、只保留最近的 TokenStreamingLLM或估计哪些页面重要Quest。问题在于模型本身是按稠密注意力优化的从未学会在稀疏模式下生存所以质量肯定下降这些技巧通常也只对解码有帮助对训练或预填充帮不上忙。2025 DeepSeek 的原生稀疏注意力Native Sparse AttentionNSA让稀疏性变得原生成为架构的一部分NSA 用三条并行分支取代了单一的稠密注意力压缩对整个上下文的粗粒度、概括性视图、选择只对最重要的若干个块做全分辨率注意力以及一个滑动窗口最近的局部 Token。一个学习出来的门控gate按 Token 把三者融合。NSA 是如何工作的对每一个查询 TokenNSA 在同一段历史上以不同分辨率运行三条注意力分支Token 压缩粗粒度。连续的键/值块通过一个可学习的 MLP 被压成单个块级向量给出一份廉价、模糊的整体上下文视图。Token 选择细粒度。NSA 复用压缩分支的注意力分数给各个块的重要性排序只在排名靠前的 n 个块上运行精确的全分辨率注意力。关键在于重要性分数来自 softmax一个可微的量而非硬性的 argmax梯度因此能够流动选择过程是可训练的。滑动窗口局部。对最近的 Token 使用一个标准窗口处理局部语法。把它单独拆成一条分支能防止模型靠走捷径利用简单的局部模式抢走另外两条分支的梯度。一个学习出来的门控按 Token 决定该多大程度上信任每条分支。整个机制按块进行与一个硬件对齐的 Triton 内核协同设计把同一个 GQA 组里的所有查询头一起加载把昂贵的 KV 读取摊销到它们身上修正了那种会拖垮朴素稀疏注意力的算术强度失衡问题。NSA 的内核以组为中心把共享同一个 KV 组的所有查询头一起加载外层循环只取出被选中的稀疏 KV 块内层循环在快速 SRAM绿色而非 HBM蓝色上完成计算。硬件对齐才把更少的 Token变成了实际的墙钟加速。数据NSA 是作为一个 27B 参数的 MoE激活 3B在约 2700 亿 Token 上预训练出来的。在 64k 上下文下相比完整注意力它实现了前向快 9.0 倍反向快 6.0 倍解码快 11.6 倍。解码这个数字背后是内存方面的计算64k 上下文下NSA 每次注意力操作大约加载 5632 个 Token完整注意力要加载 65536 个。平均质量更好不只是相当。NSA 在九项通用基准上的平均得分是 0.456完整注意力 0.443MMLU 0.565 对 0.567GSM8K 0.520 对 0.486LongBench 上是 0.469 对 0.437。64k 上下文下实现完美的大海捞针检索。稀疏化在精确召回上没有代价。NSA 与 FlashAttention-2 内核在不同上下文长度下的对比随着序列变长加速比不断扩大因为被选中的 Token 预算大致保持固定完整注意力则一直为 O(L²) 。MoBA注意力领域的专家混合Moonshot AI 的 MoBA 在同一个月推出思路更轻量把 MoE 的路由思想用到注意力上把上下文切成若干块用查询和该块的均值池化键之间的点积给每个块打分只关注得分最高的 top-k 个块外加当前块始终保留。优雅之处在于 MoBA 与完整注意力共享完全相同的参数任意一层都能在稀疏和稠密之间无缝切换、无需改动结构可以以大部分稀疏的方式训练同时保留少量完整注意力层作为保险。MoBA 把每个查询路由到 KV 缓存中最相关的 top-k 个块类似 MoE 把查询路由到专家 FFN同时对未来做因果掩码。它是 Moonshot 旗下 Kimi 系列模型背后的长上下文注意力后端。应用在扩展到 100 万 Token 上下文的 Llama 3.1 8B 上MoBA 与完整注意力的差距在一两个百分点以内RULER128K 为 0.7818 对 0.7849在 100 万 Token 时带来约 6.5 倍的注意力加速1000 万 Token 时可达 16 倍目前部署在 Kimi 的长上下文请求生产环境中。DSA稀疏注意力走向前沿DeepSeek 在生产模型 DeepSeek-V3.2-Exp 中上线了 DeepSeek 稀疏注意力DSA一个轻量级的闪电索引器一个少头数、ReLU 门控、FP8 精度的打分模块把当前查询和此前所有 Token 逐一比较打分一个细粒度选择器只保留 top-2048 个 Token核心注意力只在这些 Token 上运行把成本从 O(L²) 降到了 O(Lk)k « L。相比 NSA 的关键演进在于选择现在是_Token 级别的而不是块级别的。_基准测试基本持平。MMLU-Pro 维持在 85.0AIME 2025 反而从 88.4 涨到了 89.3 而且DeepSeek 把 API 价格削减了 50% 以上输入缓存未命中价格从每百万 Token 0.56 美元降到 0.28 美元输出从 1.68 美元降到 0.42 美元。DeepSeek 自己给出的价格对比图输入和输出 Token 都降价超过 50%自 V3.2-Exp 上线当天起生效。线性注意力扔掉 softmax稀疏注意力仍然在计算 softmax 注意力只是计算的 Token 变少了线性注意力走得更远彻底扔掉 softmax。结合律标准注意力计算的是softmax(QKᵀ)V其中QKᵀ就是 O(L²) 代价的 L×L 矩阵。把 softmax 换成一个核函数特征映射 φ分数变成φ(q)·φ(k)——一个点积没有把所有 Token 耦合在一起的归一化操作。去掉 softmax 后矩阵乘法的结合律允许重新调整计算顺序二次方写法 (φ(Q) φ(K)ᵀ) V → 先构建 L×L 矩阵 → O(L²d) 线性写法 φ(Q) (φ(K)ᵀ V) → 先构建较小的 d×d 矩阵 → O(Ld²)头维度d远小于序列长度L所以线性写法在序列长度上确实是线性的。更妙的是模型只需要一个运行中的累加和S Σ φ(kᵢ)vᵢᵀ一个固定大小的 d×d 状态矩阵。生成过程因此变成一个 RNN每来一个新 Token 就更新状态、读出输出无需存储不断增长的 KV 缓存解码在内存上是每个 Token O(1)。但是固定大小的状态是一种有损的压缩记忆每个 Token 都累加进同一个矩阵旧信息可能被覆盖“记忆冲突”。softmax 注意力精确保留每一个键和值这正是它拥有完美召回能力、也正是一直在用 O(L²) 的原因。线性注意力 有界内存、有损召回softmax 精确召回、无界成本。所以以后的研究基本上是对同一个问题给出的一系列越来越聪明的答案如何让这个固定状态聪明地遗忘和更新。MiniMax-01456B 参数规模下的线性注意力证明这条路线能扩展到真正前沿模型的是MiniMax-01总参数 456B激活 45.9B。它的 Lightning Attention 是一种 I/O 感知的分块线性注意力块内部使用廉价的二次方形式块与块之间通过线性递归传递状态同时获得线性扩展性和对张量核心友好的矩阵乘法。MiniMax 设计选择是纯线性注意力在精确检索上力不从心于是每 7 层 Lightning 层后插入一层 softmax80 层中以 7:1 的比例交替。大部分用廉价层、少量用精确层保证召回这种混合方法在 2026 年随处可见。MiniMax-01 的大海捞针检索在长达400 万 Token的上下文中依然接近完美——训练时是 100 万 Token外推到了 400 万大约是当时 GPT-4o 或 Claude 3.5 Sonnet 窗口的 20–32 倍。这个结果在真实基准测试上也站得住脚MMLU 88.5100 万 Token 时 RULER 长上下文得分约 0.910此时 softmax 基线已经崩溃同时在硬件上仍保持超过 75% 的模型 FLOPs 利用率。后续的 MiniMax-M1 把这套机制变成了一个推理模型据报道在 10 万 Token 的生成长度下FLOPs 消耗只有 DeepSeek-R1 的约 25%——恰恰是廉价长上下文最重要的场景。Gated DeltaNet 与 RWKV-7线性注意力的研究前沿全部围绕更聪明的状态更新展开。 Gated DeltaNet 结合了两种互补操作门控一种依赖数据的衰减能快速清空整个状态Mamba-2 的强项和Delta规则针对当前键所对应的槽位做有针对性的读取-修改-写入DeltaNet 的强项。两者结合表现出色13 亿参数规模下语言建模困惑度击败 Mamba-216.42 对 16.56Wikitext检索上更是碾压单针密码检索 91.8% 对 30.4%。这一设计已被采用进生产级混合模型Qwen3-Next 与 Qwen3.5 系列使用了 3:1 的 gated-delta-net 与注意力配比。Gated DeltaNet 融合了类似 Mamba-2 的门控机制快速遗忘与 Delta 规则精确、有针对性的更新还提供了混合变体H1、H2加入一点滑动窗口注意力以保证召回。RWKV-7 Goose在按通道门控per-channel gating和上下文学习率in-context learning rate上更进一步证明了一个理论要点它能够追踪状态并识别所有正则语言同时仍可并行训练——普通 Transformer 已被证明做不到这一点。它的 29 亿参数模型在完全开放训练的条件下刷新了 30 亿参数级别多语言能力的纪录。状态空间模型Mamba 谱系来自一个不同的传统——信号处理而非注意力——状态空间模型SSM是一种带有固定大小状态、无需 KV 缓存的线性递归。Mamba一个 SSM 维护一个隐藏状态hᵗ Ā·hᵗ₋₁ B̄·xᵗ并读出yᵗ C·hᵗ。经典 SSM 是时不变的A、B、C 固定速度快但对内容视而不见。Mamba 的方法是让 B、C 以及时间步长 Δ 都变成依赖输入的模型由此可以根据正在读取的内容有选择地记住或遗忘并配合一个硬件感知的并行扫描保持训练速度。Mamba 的选择性 SSM依赖输入的参数让模型能自己决定保留什么硬件感知的扫描则把状态保留在快速 SRAM 中。线性时间训练恒定内存解码无需 KV 缓存。Mamba-2.8B 的表现与体量两倍于它的 Transformer 相当平均 63.3% 对 Pythia-2.8B 的 59.1%推理速度快 5 倍且无需 KV 缓存。在一个合成的归纳头induction-heads任务上它以长度 256 训练却能泛化到 100 万 Token是训练长度的 4000 倍。Mamba-2 与统一一切的对偶性Mamba-2 带来了一个概念状态空间对偶性State Space DualitySSD证明了 SSM 和注意力其实是同一个对象的两种计算形式。一个选择性 SSM 可以写成一种结构化矩阵变换在数学上等价于一种带掩码的线性注意力——这正是SSM和线性注意力在 2026 年实际合并成一个家族的原因二者主要区别只在于状态如何衰减和更新。实践层面SSD 让 Mamba-2 的训练速度比 Mamba-1 快 2–8 倍能携带大得多的状态从 16 提升到 64–256提升了关联性召回能力。Mamba-3最新的 Mamba-3ICLR 2026带来三项升级二阶梯形离散化更精确的状态更新使其能去掉曾被认为不可或缺的短卷积层能实现依赖数据的旋转的复数值状态更新赋予它真正的状态追踪能力比如奇偶校验、模运算以及一种 MIMO 形式把状态更新变成能让张量核心吃满的稠密矩阵乘法。Mamba-3 在一半状态大小下达到了与 Mamba-2 相当的困惑度——同等质量解码延迟却减半。MIMO 变体把这条帕累托前沿进一步推远。15 亿参数规模下Mamba-3 MIMO 困惑度为 10.24对比 Mamba-2 的 10.47下游准确率提升了 1.8 个百分点解码也更快每个 Token 0.156ms 对 0.203ms。状态追踪能力上差距更悬殊奇偶校验任务上达到 100%Mamba-2 只有 0.9%。为什么纯模型会输混合架构会赢注意力让每一个过去的 Token 都保持可寻址在精确召回、逐字复制以及在众多干扰项中检索方面无人能敌。一项名为 “Repeat After Me” 的形式化结果证明一个 2 层 Transformer 可以复制指数长度的字符串而任何固定状态的模型从根本上都存在上限。Mamba-3 自己的数据也印证了这一点纯 Mamba-3 在一个 4k 的大海捞针测试中只能拿到约 34%5:1 的混合架构能跳到 100%。所以生产环境中的答案几乎从来不是纯粹的而是混合架构保留少量注意力层用于精确召回其余部分用廉价的线性/SSM 层。典型配方大致是每 6–12 层廉价层配一层注意力层。英伟达的 Nemotron-H 混合模型大部分是 Mamba-2大约每 11–12 层一个注意力层在准确率与吞吐量的权衡上优于纯 Transformer47B 版本在长上下文下比 Qwen-2.5-72B 快 2.9 倍。混合架构的阵容如今已相当庞大。Jamba / Jamba-1.5AI21每 7 层 Mamba 层配 1 层注意力外加 MoE。Jamba-1.5-Large 在 256K 上下文下只需9 GB 的 KV 缓存Llama-3.1-70B 需要约 80 GB它是首个真正实现 256K 有效上下文RULER 95.7的开放模型。英伟达 Nemotron-H大多数注意力层被 Mamba-2 取代约 8% 的层仍是注意力层大约 12 层中有 1 层56B 版本在 MMLU-Pro 上击败 Qwen-2.5-72B速度还快得多。英伟达 Nemotron-32026 年 6 月最新的混合 Mamba-Transformer MoE 系列。总参数 550B、激活 55B 的 “Ultra” 版本支持 100 万 Token 上下文推理吞吐量最高可达同类开放模型的约 5.9 倍。Falcon-H1、IBM Bamba、Zamba2、Hymba一波并行式和顺序式混合设计都在追求通过缩小 KV 缓存获得 2–3 倍的吞吐量提升。DeepSeek-V4DeepSeek-V4 的 “Engram” 架构——一种使用确定性哈希查找的 “O(1) 记忆”据称能让 100 万 Token 上下文的成本大致与 128K 相当并在 100 万 Token 时达到97% 的大海捞针准确率。DeepSeek-V4 真正上线后的技术报告讲述的是另一个故事。在这份 58 页的官方报告中搜索“Engram” 和 “O(1)” 这两个词出现了零次整份报告中也没有任何恒定时间的、基于哈希的记忆机制。报告确实用到了一个哈希路由技巧但那是用来把 Token 分配给 MoE 专家的与注意力或记忆毫无关系。DeepSeek-V4-Pro 的官方性能图表。真正的故事不是什么魔法记忆而是一套严谨的混合注意力设计以远低于 V3.2 的推理成本拿下了前沿水准的分数。V4 实际使用的是一种混合注意力架构交替使用两种机制都直接建立在前文所述的一切之上CSA压缩稀疏注意力 把 KV 缓存压缩约 4 倍在压缩后的块上应用类似闪电索引器的 top-k 选择是 NSA 和 DSA 谱系的延续做得更密集。HCA重度压缩注意力 把 KV 压缩约 128 倍在压缩后的块上运行稠密注意力。另外还有取代残差连接的流形约束超连接manifold-constrained hyper-connections、DeepSeekMoE以及 Muon 优化器训练数据超过 32T Token。验证过的效率提升100 万 Token 时V4-Pro 每个 Token 的推理 FLOPs 只需要 V3.2 的27%KV 缓存只需要 10%。检索能力的报告也是诚实的在 OpenAI 的 MRCR 8 针测试中准确率在 128K 之前都很强劲但在 100 万 Token 时降到了约 0.59恰与100 万 Token 时 97%的传说相反。2026 年的教训是真正的架构已经足够出色不需要编造童话永远要核实一手信源。基准测试百万 Token 上下文是营销话术如今几乎每个模型都声称拥有百万级甚至千万级Token 窗口但几乎没有一个模型能真正用得上它。英伟达的 RULER 基准测试在大海捞针测试中加入多跳追踪和聚合任务揭穿了这一点并由此定义了有效长度——模型仍能达到合理准确率门槛的长度。即便是明确为长上下文而设计的模型随着窗口变长表现也会褪色LargeWorldModel 系列训练长度从 128K 扩展到 1M的 RULER 准确率随序列长度增加而下滑训练长度较短的变体最先掉队——模型宣称的窗口与实际可用窗口之间差距肉眼可见。有效长度与宣称长度之间的差距很大GPT-4有效 64K宣称 128K。Llama-3.1-70B64K 对 128K。Llama-3.1-8B、Qwen2-72B、Command-R32K 对 128K。Yi-34B有效 32K宣称 200K。Gemini-1.5-Pro和Jamba-1.5-Large是极少数能在 128K 处仍达标的模型。上面是经典的大海捞针热力图Gemini 1.5展示文本、音频、视频在长达约 1000 万 Token 范围内的表现。绿色代表命中看起来像是个已解决的问题——这正是为什么像 RULER 这种测试多跳和聚合能力的基准如此重要真实的理解能力远远落后于简单检索。各路线对比完整注意力 vs 稀疏 vs 线性 vs SSM vs 混合逐项对比解码复杂度。 完整注意力每个 Token O(L)不断增长。稀疏O(k)固定预算。线性/SSMO(1)固定状态。混合O(1) 加少量 O(L) 层。KV 缓存。 完整注意力线性增长是成本的主要驱动因素。稀疏完整缓存但读取更少。线性/SSM无固定状态。混合很小仅注意力层有。精确召回。 完整注意力完美。稀疏接近完美。线性/SSM有损这是短板。混合很强这正是其设计初衷。能否从零训练 稀疏NSA/MoBA/DSA可以原生支持。线性/SSM/混合可以。事后处理方法H2O、Quest不行仅适用于推理阶段。最擅长场景。 稀疏为 Transformer 形态模型提供即插即用的长上下文能力。线性/SSM最大吞吐量边缘/流式场景。混合实用的前沿默认选择。生产部署情况。 稀疏DeepSeek、Kimi。线性MiniMax。SSM/混合Jamba、Nemotron-H、Falcon-H1、DeepSeek-V4。未来展望混合架构成为新的默认选择。 下一代前沿模型预计将以线性/SSM 为主配以少数稀疏注意力或完整注意力层DeepSeek-V4 的 CSA/HCA 组合就是一个范本。稀疏 压缩 KV 的技术栈。 MLA 式的压缩之下再叠加 DSA 式的选择再叠加一套混合布局每种技术都能与其他技术组合使用。原生稀疏训练将无处不在。 NSA 证明了带稀疏性预训练不仅可行还能提升质量这个经验会被推广。推理是需求的驱动力。 测试时计算、长链思维、数百次工具调用让廉价的长上下文从锦上添花变成了经济上的必需品谁能把解码做便宜谁就能赢得智能体时代。更好的长上下文评测体系。 RULER、LongBench v2、MRCR 和 HELMET 正在汇聚成真正的评分体系百万 Token这种营销话术的好日子不多了。总结深度学习时代的大部分时间里“Transformer就意味着乖乖支付 O(L²) 的代价”。2026 年长上下文是一整个组合可训练的稀疏注意力NSA、MoBA、DSA适用于 Transformer 形态的模型线性注意力MiniMax Lightning、Gated DeltaNet追求最大吞吐量状态空间模型Mamba-3实现恒定内存解码混合架构Jamba、Nemotron-H、DeepSeek-V4则是实用的前沿默认选择。 以上每一种技术归根结底都是为了让模型不必为每一个 Token 都重新读一遍以 GB 计的内存。数据本身已经说明了问题NSA 带来 11.6 倍的解码加速DSA 上线当天 DeepSeek 的 API 价格就降了 50% 以上一个线性注意力模型实现了 400 万 Token 的窗口Mamba-3 用一半的内存达到了与前代相当的水平。这不意味着 softmax 注意力已经过时它仍然拥有最好的召回能力和十年积累的工具链。https://avoid.overfit.cn/post/e664e670be4a4845ba86fa355febb02dby Abdullah Grewal