您的位置：首页 > > 教程攻略 > ai教程 >注意力架构变迁总结：稀疏、线性、SSM、混合架构如何摆脱 O(L²) 的代价

注意力架构变迁总结：稀疏、线性、SSM、混合架构如何摆脱 O(L²) 的代价

来源:互联网 更新时间:2026-07-01 08:36

# 长上下文大模型的“算力困境”：四个破解方向深度解析

自注意力机制是Transformer的基石，近十年来，它让每个Token都能关注到序列中的其他Token，赋予了模型强大的推理能力。但硬币的另一面是，它恰恰也是成本飙升的根源：上下文长度翻倍，计算量就大致翻四倍。这个O(L²)的惩罚项，年复一年地限制着提示词能写多长，也决定了每个Token能卖多便宜。

业界一直在寻找破局之道，比如稀疏注意力（Sparse Attention）、线性注意力（Linear Attention），还有状态空间模型（State Space Model）。

左图：尽管是稀疏的，DeepSeek的NSA在通用、长上下文和推理基准测试的平均表现上，都优于完整注意力。右图：在64k Token时，它在解码、前向、反向每个阶段都快上数倍。

引言

“Attention Is All You Need”论文提出的模型里，要计算第n个Token的表示，就得把它和序列中每一个其他Token打分。对于一个长度为L的序列，这是一个L×L的分数矩阵——注意力的计算和存储复杂度都是O(L²)，而且生成时必须保留的KV缓存会随着每个新Token以O(L)增长。上下文翻倍，矩阵乘法大致翻四倍。

这在过去不算大问题，因为上下文窗口很短。但到了2025年和2026年，情况变了：会输出数万Token思维链的推理模型、在工作记忆中保留数百次工具调用的智能体、整个被塞进提示词的代码库……长上下文成了主旋律。二次方项不再是学术脚注，而成了GPU最大的一笔开销。

目前，业界有四个方向在解决这个问题：

持注意力，学习哪些Token真正重要，跳过其余部分（代表有NSA、MoBA、DSA）。线性注意力，去掉softmax，让注意力坍缩为一个固定大小的循环状态（代表有MiniMax-01的Lightning Attention、Gated DeltaNet、RWKV-7）。状态空间模型，用一种可选择的线性递归完全取代注意力（代表是Mamba家族）。混合架构（Hybrid），保留少量精确注意力层用于精确召回，其余部分做得很便宜（代表有Jamba、Nemotron-H，以及后文会谈到的DeepSeek-V4本身）。

下面就来深入聊聊这四条路线的原理、经过验证的基准测试数据，以及各自目前的生产落地情况。

KV缓存：长上下文的两大瓶颈

长上下文推理有两个截然不同的阶段，各自卡在不同的硬件瓶颈上。

预填充（Prefill，读取提示词）是计算密集型的：整个提示词被并行处理为大规模矩阵乘法。在H100上，这个阶段的计算利用率可达90%–95%，算术强度约为200–400 ops/byte，正是O(L²)阶段。

解码（Decode，逐个生成Token）则是内存带宽密集型的。为了生成每一个新Token，GPU必须把整个KV缓存从高带宽内存（HBM）中重新读一遍；张量核心几微秒就算完了，然后就闲着等内存，利用率跌到20%–40%，内存总线却饱和在85%–95%。这个阶段才是长生成成本的大头。

举个例子：一个使用分组查询注意力（GQA）的70B模型，每个Token大约要花费0.32 MB的KV状态。一个普通的4096 Token提示词，就已经是1.34 GB了。把这个规律外推到128K上下文，算下来大约需要40–42 GB的KV缓存，一块80 GB显卡几乎不剩什么空间留给权重。极端情况更夸张：Magic.dev计算过，为Llama 3.1 405B保留一个1亿Token的KV缓存，每个用户需要638块H100，仅仅是为了缓存。

HBM之所以成为瓶颈，是因为快速内存太小了。A100有40–80 GB、带宽1.5–2.0 TB/s的HBM，但每个流式多处理器上只有192 KB、运行在约19 TB/s的片上SRAM，带宽差距大约10倍。FlashAttention凭借平铺（tiling）注意力减少HBM往返，让精确注意力更快，但它没有改变O(L²)的计算量或O(L)的缓存量。要打破这两道限制，只能改变架构本身。

四个家族与“高效-精确”对照组

一个线性注意力/SSM层可以用两种等价的方式计算——一种是用于快速训练的并行“分块”形式（块内Qintra），另一种是块之间传递单个固定大小状态S（块间Qinter），以实现恒定内存的循环推理。这种对偶性，让这些模型既能大规模训练，又能廉价解码。

高效-精确（基准组）：FlashAttention、分组查询注意力（GQA）、DeepSeek的多头潜在注意力（MLA）。它们保持注意力在数学上精确，但缩减缓存或内存流量。稀疏注意力：NSA、MoBA、DSA，只在一个学习出来的Token子集上计算注意力。线性注意力：MiniMax Lightning、Gated DeltaNet、RWKV-7，用核函数取代softmax，使注意力变成一种递归。状态空间模型：Mamba、Mamba-2、Mamba-3，一种可选择的线性递归，完全抛弃注意力。混合架构：Jamba、Nemotron-H、DeepSeek-V4，把少量注意力层混入一个廉价骨干网络。

高效-精确：MLA与KV缓存的瘦身

在稀疏化或线性化之前，DeepSeek先对缓存本身动了手。多头潜在注意力（MLA）最早在DeepSeek-V2中提出，延续到了V3：注意力保持精确，存储量却大幅减少。

MLA（左）把每个Token的键和值压缩成一个小的潜在向量，只缓存这一个向量，再即时重建出各个头的K/V。一个小的“解耦RoPE”组件单独负责携带位置信息。

标准多头注意力要为每一层的每个头都缓存完整的键和值，MLA则把每个Token下投影成一个共享的潜在向量（键和值的低秩联合压缩），只缓存这一个向量；做注意力计算时，再通过上投影矩阵重建出各个头的键和值。旋转位置编码（RoPE）无法在这种压缩中干净地存活，所以MLA加了一个小的“解耦RoPE”组件，单独携带位置信息。

相比DeepSeek此前的67B稠密模型，MLA把KV缓存削减了93.3%，最大生成吞吐量提升了5.76倍，论文还报告精度优于完整多头注意力。MLA是DeepSeek后续整条产品线（包括下文的稀疏注意力）的地基。

可训练的稀疏注意力：NSA

多年来人们一直在尝试稀疏化注意力，但大多是在训练之后：剔除低分Token（H2O）、只保留最近的Token（StreamingLLM），或估计哪些“页面”重要（Quest）。问题在于，模型本身是按稠密注意力优化的，从未学会在稀疏模式下生存，所以质量肯定下降。而且，这些技巧通常只对解码有帮助，对训练或预填充帮不上忙。

2025年，DeepSeek的原生稀疏注意力（Native Sparse Attention，NSA）让稀疏性变得原生——成为架构的一部分。

NSA用三条并行分支取代了单一的稠密注意力：压缩（对整个上下文的粗粒度、概括性视图）、选择（只对最重要的若干个块做全分辨率注意力），以及一个滑动窗口（最近的局部Token）。一个学习出来的门控（gate）按Token把三者融合。

NSA是如何工作的？
对每一个查询Token，NSA在同一段历史上以不同分辨率运行三条注意力分支：

Token压缩（粗粒度）。连续的键/值块通过一个可学习的MLP被压成单个块级向量，给出一份廉价、模糊的整体上下文视图。Token选择（细粒度）。NSA复用压缩分支的注意力分数，给各个块的重要性排序，只在排名靠前的n个块上运行精确的全分辨率注意力。关键在于，重要性分数来自softmax（一个可微的量），而非硬性的argmax，梯度因此能够流动，选择过程是可训练的。滑动窗口（局部）。对最近的Token使用一个标准窗口处理局部语法。把它单独拆成一条分支，能防止模型靠“走捷径”利用简单的局部模式，抢走另外两条分支的梯度。

一个学习出来的门控，按Token决定该多大程度上信任每条分支。整个机制按块进行，与一个硬件对齐的Triton内核协同设计：把同一个GQA组里的所有查询头一起加载，把昂贵的KV读取摊销到它们身上，修正了那种会拖垮朴素稀疏注意力的算术强度失衡问题。

NSA的内核以“组”为中心：把共享同一个KV组的所有查询头一起加载（外层循环），只取出被选中的稀疏KV块（内层循环），在快速SRAM（绿色）而非HBM（蓝色）上完成计算。硬件对齐，才把“更少的Token”变成了实际的墙钟加速。

数据方面，NSA是作为一个27B参数的MoE模型（激活3B），在约2700亿Token上预训练出来的。在64k上下文下，相比完整注意力：

前向快9.0倍，反向快6.0倍，解码快11.6倍。这个解码速度背后是内存方面的功劳：64k上下文下，NSA每次注意力操作大约加载5632个Token，而完整注意力要加载65536个。平均质量更好，不仅是“相当”。NSA在九项通用基准上的平均得分是0.456，完整注意力是0.443（MMLU 0.565对0.567，GSM8K 0.520对0.486），LongBench上是0.469对0.437。64k上下文下实现完美的“大海捞针”检索。稀疏化在精确召回上没有代价。

NSA与FlashAttention-2内核在不同上下文长度下的对比：随着序列变长，加速比不断扩大，因为被选中的Token预算大致保持固定，而完整注意力则一直为O(L²)。

MoBA：注意力领域的“专家混合”

Moonshot AI的MoBA在同一个月推出，思路更轻量：把MoE的路由思想用到注意力上，把上下文切成若干块，用查询和该块的均值池化键之间的点积给每个块打分，只关注得分最高的top-k个块（外加当前块，始终保留）。优雅之处在于，MoBA与完整注意力共享完全相同的参数，任意一层都能在稀疏和稠密之间无缝切换、无需改动结构。这意味着，可以以“大部分稀疏”的方式训练，同时保留少量完整注意力层作为保险。

MoBA把每个查询路由到KV缓存中最相关的top-k个块，类似MoE把查询路由到专家FFN，同时对未来做因果掩码。它是Moonshot旗下Kimi系列模型背后的长上下文注意力后端。

应用到扩展到100万Token上下文的Llama 3.1 8B上，MoBA与完整注意力的差距在一两个百分点以内（RULER@128K为0.7818对0.7849），在100万Token时带来约6.5倍的注意力加速，1000万Token时可达16倍。目前部署在Kimi的长上下文请求生产环境中。

DSA：稀疏注意力走向前沿

DeepSeek在生产模型DeepSeek-V3.2-Exp中上线了DeepSeek稀疏注意力（DSA）：一个轻量级的“闪电索引器”（一个少头数、ReLU门控、FP8精度的打分模块），把当前查询和此前所有Token逐一比较打分；一个细粒度选择器只保留top-2048个Token；核心注意力只在这些Token上运行，把成本从O(L²)降到了O(Lk)，其中k远小于L。相比NSA的关键演进在于，选择现在是Token级别的，而不是块级别的。

基准测试基本持平。MMLU-Pro维持在85.0；AIME 2025反而从88.4涨到了89.3。而且，DeepSeek把API价格削减了50%以上：输入（缓存未命中）价格从每百万Token 0.56美元降到0.28美元，输出从1.68美元降到0.42美元。

DeepSeek自己给出的价格对比图，输入和输出Token都降价超过50%，自V3.2-Exp上线当天起生效。

线性注意力：扔掉softmax

稀疏注意力仍然在计算softmax注意力，只是计算的Token变少了。线性注意力走得更远：彻底扔掉softmax。

结合律的力量

标准注意力计算的是softmax(QKᵀ)V，其中QKᵀ就是O(L²)代价的L×L矩阵。把softmax换成一个核函数特征映射φ，分数变成φ(q)·φ(k)——一个点积，没有把所有Token耦合在一起的归一化操作。去掉softmax后，矩阵乘法的结合律允许重新调整计算顺序：

二次方写法：(φ(Q) φ(K)ᵀ) V → 先构建L×L矩阵 → O(L²d)
线性写法：φ(Q) (φ(K)ᵀ V) → 先构建较小的d×d矩阵 → O(Ld²)

头维度d远小于序列长度L，所以线性写法在序列长度上确实是线性的。更妙的是，模型只需要一个运行中的累加和S = Σ φ(kᵢ)vᵢᵀ，一个固定大小的d×d状态矩阵。生成过程因此变成一个RNN：每来一个新Token就更新状态、读出输出，无需存储不断增长的KV缓存；解码在内存上是每个Token O(1)。

但是，固定大小的状态是一种有损的压缩记忆：每个Token都累加进同一个矩阵，旧信息可能被覆盖（这就是“记忆冲突”）。softmax注意力精确保留每一个键和值，这正是它拥有完美召回能力、也正是一直在用O(L²)的原因。简单来说，线性注意力 = 有界内存、有损召回；softmax = 精确召回、无界成本。所以后来的研究，基本上是对同一个问题给出的一系列越来越聪明的答案：如何让这个固定状态聪明地遗忘和更新。

MiniMax-01：456B参数规模下的线性注意力

能证明这条路线能扩展到真正前沿模型的，是MiniMax-01（总参数456B，激活45.9B）。它的Lightning Attention是一种I/O感知的分块线性注意力：块内部使用廉价的二次方形式，块与块之间通过线性递归传递状态，同时获得线性扩展性，以及对张量核心友好的矩阵乘法。

MiniMax的设计选择是，纯线性注意力在精确检索上力不从心，于是每7层Lightning层后插入一层softmax。80层中以7:1的比例交替：大部分用廉价层、少量用精确层来保证召回。这种混合方法在2026年已经随处可见。

MiniMax-01的“大海捞针”检索，在长达400万Token的上下文中依然接近完美——训练时是100万Token，外推到了400万。这大约是当时GPT-4o或Claude 3.5 Sonnet窗口的20–32倍。

这个结果在真实基准测试上也站得住脚：MMLU 88.5，100万Token时RULER长上下文得分约0.910（此时softmax基线已经崩溃），同时在硬件上仍保持超过75%的模型FLOPs利用率。后续的MiniMax-M1把这套机制变成了一个推理模型，据报道在10万Token的生成长度下，FLOPs消耗只有DeepSeek-R1的约25%——恰恰是廉价长上下文最重要的场景。

Gated DeltaNet与RWKV-7

线性注意力的研究前沿，全部围绕“更聪明的状态更新”展开。Gated DeltaNet结合了两种互补操作：门控（一种依赖数据的衰减，能快速清空整个状态，这是Mamba-2的强项）和Delta规则（针对当前键所对应的槽位做有针对性的读取-修改-写入，这是DeltaNet的强项）。两者结合，表现出色：13亿参数规模下，语言建模困惑度击败Mamba-2（16.42对16.56，Wikitext），检索上更是碾压（单针密码检索91.8%对30.4%）。这一设计已被采用进生产级混合模型，Qwen3-Next与Qwen3.5系列使用了3:1的gated-delta-net与注意力配比。

Gated DeltaNet融合了类似Mamba-2的门控机制（快速遗忘）与Delta规则（精确、有针对性的更新），还提供了混合变体（H1、H2），加入一点滑动窗口注意力以保证召回。

RWKV-7 “Goose”在按通道门控和上下文学习率上更进一步，证明了一个理论要点：它能够追踪状态并识别所有正则语言，同时仍可并行训练——普通Transformer已被证明做不到这一点。它的29亿参数模型，在完全开放训练的条件下，刷新了30亿参数级别多语言能力的纪录。

状态空间模型：Mamba谱系

来源于一个不同的传统——信号处理而非注意力——状态空间模型（SSM）是一种带有固定大小状态、无需KV缓存的线性递归。

Mamba

一个SSM维护一个隐藏状态hᵗ = Ā·hᵗ₋₁ + B̄·xᵗ，并读出yᵗ = C·hᵗ。经典SSM是时不变的（A、B、C固定），速度快，但对内容“视而不见”。Mamba的方法是让B、C以及时间步长Δ都变成依赖输入的，模型由此可以根据正在读取的内容有选择地记住或遗忘，并配合一个硬件感知的并行扫描保持训练速度。

Mamba的选择性SSM：依赖输入的参数让模型能自己决定保留什么，硬件感知的扫描则把状态保留在快速SRAM中。线性时间训练，恒定内存解码，无需KV缓存。

Mamba-2.8B的表现与体量两倍于它的Transformer相当（平均63.3%对Pythia-2.8B的59.1%），推理速度快5倍，且无需KV缓存。在一个合成的归纳头任务上，它以长度256训练，却能泛化到100万Token，是训练长度的4000倍。

Mamba-2与统一一切的对偶性

Mamba-2带来了一个重要概念：状态空间对偶性（State Space Duality，SSD），证明了SSM和注意力其实是同一个对象的两种计算形式。一个选择性SSM可以写成一种结构化矩阵变换，在数学上等价于一种带掩码的线性注意力——这正是“SSM”和“线性注意力”在2026年实际合并成一个家族的原因，二者主要区别只在于状态如何衰减和更新。实践层面，SSD让Mamba-2的训练速度比Mamba-1快2–8倍，能携带大得多的状态（从16提升到64–256），提升了关联性召回能力。

Mamba-3

最新的Mamba-3（ICLR 2026）带来三项升级：二阶梯形离散化（更精确的状态更新，使其能去掉曾被认为不可或缺的短卷积层）；能实现依赖数据的旋转的复数值状态更新（赋予它真正的状态追踪能力，比如奇偶校验、模运算）；以及一种MIMO形式，把状态更新变成能让张量核心吃满的稠密矩阵乘法。

Mamba-3在一半状态大小下，达到了与Mamba-2相当的困惑度——同等质量，解码延迟却减半。MIMO变体把这条帕累托前沿进一步推远。15亿参数规模下，Mamba-3 MIMO困惑度为10.24，对比Mamba-2的10.47；下游准确率提升了1.8个百分点，解码也更快（每个Token 0.156ms对0.203ms）。状态追踪能力上差距更悬殊：奇偶校验任务上达到100%，Mamba-2只有0.9%。

为什么纯模型会输，混合架构会赢

注意力让每一个过去的Token都保持可寻址，在精确召回、逐字复制以及在众多干扰项中检索方面，无人能敌。一项名为“Repeat After Me”的形式化结果证明，一个2层Transformer可以复制指数长度的字符串，而任何固定状态的模型从根本上都存在上限。Mamba-3自己的数据也印证了这一点：纯Mamba-3在一个4k的“大海捞针”测试中只能拿到约34%，而5:1的混合架构能跳到100%。

所以，生产环境中的答案几乎从来不是“纯粹”的，而是混合架构：保留少量注意力层用于精确召回，其余部分用廉价的线性/SSM层。典型配方大致是每6–12层廉价层配一层注意力层。

英伟达的Nemotron-H混合模型（大部分是Mamba-2，大约每11–12层一个注意力层），在准确率与吞吐量的权衡上优于纯Transformer：47B版本在长上下文下比Qwen-2.5-72B快2.9倍。

混合架构的阵容如今已相当庞大。

Jamba / Jamba-1.5（AI21）：每7层Mamba层配1层注意力，外加MoE。Jamba-1.5-Large在256K上下文下只需9 GB的KV缓存，而Llama-3.1-70B需要约80 GB。它是首个真正实现256K有效上下文（RULER 95.7）的开放模型。英伟达Nemotron-H：大多数注意力层被Mamba-2取代（约8%的层仍是注意力层，大约12层中有1层）。56B版本在MMLU-Pro上击败Qwen-2.5-72B，速度还快得多。英伟达Nemotron-3（2026年6月）：最新的混合Mamba-Transformer MoE系列。总参数550B、激活55B的“Ultra”版本支持100万Token上下文，推理吞吐量最高可达同类开放模型的约5.9倍。Falcon-H1、IBM Bamba、Zamba2、Hymba：一波并行式和顺序式混合设计，都在追求通过缩小KV缓存获得2–3倍的吞吐量提升。

DeepSeek-V4

DeepSeek-V4的“Engram”架构——一种使用“确定性哈希查找”的“O(1)记忆”，据称能让100万Token上下文的“成本大致与128K相当”，并在100万Token时达到“97%的大海捞针准确率”。

但DeepSeek-V4真正上线后的技术报告，讲述的是另一个故事。在这份58页的官方报告中搜索，“Engram”和“O(1)”这两个词出现了零次，整份报告中也没有任何恒定时间的、基于哈希的记忆机制。（报告确实用到了一个“哈希路由”技巧，但那是用来把Token分配给MoE专家的，与注意力或记忆毫无关系。）

DeepSeek-V4-Pro的官方性能图表。真实的故事不是什么魔法记忆，而是一套严谨的混合注意力设计，以远低于V3.2的推理成本拿下了前沿水准的分数。

V4实际使用的是一种混合注意力架构，交替使用两种机制，都直接建立在前文所述的一切之上：

CSA（压缩稀疏注意力）：把KV缓存压缩约4倍，在压缩后的块上应用类似闪电索引器的top-k选择，是NSA和DSA谱系的延续，做得更密集。HCA（重度压缩注意力）：把KV压缩约128倍，在压缩后的块上运行稠密注意力。另外还有取代残差连接的流形约束超连接、DeepSeekMoE，以及Muon优化器，训练数据超过32T Token。

验证过的效率提升：100万Token时，V4-Pro每个Token的推理FLOPs只需要V3.2的27%，KV缓存只需要10%。检索能力的报告也是诚实的：在OpenAI的MRCR 8针测试中，准确率在128K之前都很强劲，但在100万Token时降到了约0.59，恰与“100万Token时97%”的传说相反。2026年的教训是，真正的架构已经足够出色，不需要编造童话。永远要核实一手信源。

基准测试：“百万Token上下文”是营销话术

如今几乎每个模型都声称拥有百万级（甚至千万级）Token窗口，但几乎没有一个模型能真正用得上它。英伟达的RULER基准测试在“大海捞针”测试中加入多跳追踪和聚合任务，揭穿了这一点，并由此定义了“有效”长度——模型仍能达到合理准确率门槛的长度。

即便是明确为长上下文而设计的模型，随着窗口变长，表现也会褪色：LargeWorldModel系列（训练长度从128K扩展到1M）的RULER准确率随序列长度增加而下滑，训练长度较短的变体最先掉队——模型宣称的窗口与实际可用窗口之间，差距肉眼可见。

“有效长度”与“宣称长度”之间的差距很大：

GPT-4：有效64K，宣称128K。Llama-3.1-70B：64K对128K。Llama-3.1-8B、Qwen2-72B、Command-R：32K对128K。Yi-34B：有效32K，宣称200K。Gemini-1.5-Pro和Jamba-1.5-Large：是极少数能在128K处仍达标的模型。

上面是经典的“大海捞针”热力图（Gemini 1.5），展示文本、音频、视频在长达约1000万Token范围内的表现。绿色代表命中，看起来像是个已解决的问题——这正是为什么像RULER这种测试多跳和聚合能力的基准如此重要：真实的理解能力，远远落后于简单检索。

各路线对比

完整注意力 vs 稀疏 vs 线性 vs SSM vs 混合，逐项对比：

解码复杂度。完整注意力：每个Token O(L)（不断增长）。稀疏：O(k)，固定预算。线性/SSM：O(1)，固定状态。混合：O(1)加少量O(L)层。KV缓存。完整注意力：线性增长，是成本的主要驱动因素。稀疏：完整缓存，但读取更少。线性/SSM：无（固定状态）。混合：很小，仅注意力层有。精确召回。完整注意力：完美。稀疏：接近完美。线性/SSM：有损，这是短板。混合：很强，这正是其设计初衷。能否从零训练？稀疏（NSA/MoBA/DSA）：可以，原生支持。线性/SSM/混合：可以。事后处理方法（H2O、Quest）：不行，仅适用于推理阶段。最擅长场景。稀疏：为Transformer形态模型提供即插即用的长上下文能力。线性/SSM：最大吞吐量，边缘/流式场景。混合：实用的前沿默认选择。生产部署情况。稀疏：DeepSeek、Kimi。线性：MiniMax。SSM/混合：Jamba、Nemotron-H、Falcon-H1、DeepSeek-V4。

未来展望

混合架构成为新的默认选择。下一代前沿模型预计将以线性/SSM为主，配以少数稀疏注意力或完整注意力层。DeepSeek-V4的CSA/HCA组合就是一个范本。稀疏 + 压缩KV的技术栈。MLA式的压缩之下再叠加DSA式的选择，再叠加一套混合布局，每种技术都能与其他技术组合使用。原生稀疏训练将无处不在。NSA证明了带稀疏性预训练不仅可行，还能提升质量，这个经验会被推广。推理是需求的驱动力。测试时计算、长链思维、数百次工具调用，让廉价的长上下文从锦上添花变成了经济上的必需品。谁能把解码做便宜，谁就能赢得智能体时代。更好的长上下文评测体系。RULER、LongBench v2、MRCR和HELMET正在汇聚成真正的评分体系，“百万Token！”这种营销话术的好日子不多了。

总结

深度学习时代的大部分时间里，“Transformer”就意味着“乖乖支付O(L²)的代价”。2026年，长上下文是一整个组合：可训练的稀疏注意力（NSA、MoBA、DSA）适用于Transformer形态的模型；线性注意力（MiniMax Lightning、Gated DeltaNet）追求最大吞吐量；状态空间模型（Mamba-3）实现恒定内存解码；混合架构（Jamba、Nemotron-H、DeepSeek-V4）则是实用的前沿默认选择。以上每一种技术，归根结底都是为了一个目的：让模型不必为每一个Token都重新读一遍以GB计的内存。

数据本身已经说明了问题：NSA带来11.6倍的解码加速；DSA上线当天，DeepSeek的API价格就降了50%以上；一个线性注意力模型实现了400万Token的窗口；Mamba-3用一半的内存达到了与前代相当的水平。这不意味着softmax注意力已经过时，它仍然拥有最好的召回能力和十年积累的工具链。

但趋势已经很明显：长上下文不再是绕不开的奢侈品，而是逐渐成为可以计算、可以优化的成本项。