来源:互联网 更新时间:2026-07-01 08:36
自注意力机制是Transformer的基石,近十年来,它让每个Token都能关注到序列中的其他Token,赋予了模型强大的推理能力。但硬币的另一面是,它恰恰也是成本飙升的根源:上下文长度翻倍,计算量就大致翻四倍。这个O(L²)的惩罚项,年复一年地限制着提示词能写多长,也决定了每个Token能卖多便宜。
业界一直在寻找破局之道,比如稀疏注意力(Sparse Attention)、线性注意力(Linear Attention),还有状态空间模型(State Space Model)。

左图:尽管是稀疏的,DeepSeek的NSA在通用、长上下文和推理基准测试的平均表现上,都优于完整注意力。右图:在64k Token时,它在解码、前向、反向每个阶段都快上数倍。
“Attention Is All You Need”论文提出的模型里,要计算第n个Token的表示,就得把它和序列中每一个其他Token打分。对于一个长度为L的序列,这是一个L×L的分数矩阵——注意力的计算和存储复杂度都是O(L²),而且生成时必须保留的KV缓存会随着每个新Token以O(L)增长。上下文翻倍,矩阵乘法大致翻四倍。
这在过去不算大问题,因为上下文窗口很短。但到了2025年和2026年,情况变了:会输出数万Token思维链的推理模型、在工作记忆中保留数百次工具调用的智能体、整个被塞进提示词的代码库……长上下文成了主旋律。二次方项不再是学术脚注,而成了GPU最大的一笔开销。
目前,业界有四个方向在解决这个问题:
持注意力,学习哪些Token真正重要,跳过其余部分(代表有NSA、MoBA、DSA)。线性注意力,去掉softmax,让注意力坍缩为一个固定大小的循环状态(代表有MiniMax-01的Lightning Attention、Gated DeltaNet、RWKV-7)。状态空间模型,用一种可选择的线性递归完全取代注意力(代表是Mamba家族)。混合架构(Hybrid),保留少量精确注意力层用于精确召回,其余部分做得很便宜(代表有Jamba、Nemotron-H,以及后文会谈到的DeepSeek-V4本身)。下面就来深入聊聊这四条路线的原理、经过验证的基准测试数据,以及各自目前的生产落地情况。
长上下文推理有两个截然不同的阶段,各自卡在不同的硬件瓶颈上。
预填充(Prefill,读取提示词)是计算密集型的:整个提示词被并行处理为大规模矩阵乘法。在H100上,这个阶段的计算利用率可达90%–95%,算术强度约为200–400 ops/byte,正是O(L²)阶段。
解码(Decode,逐个生成Token)则是内存带宽密集型的。为了生成每一个新Token,GPU必须把整个KV缓存从高带宽内存(HBM)中重新读一遍;张量核心几微秒就算完了,然后就闲着等内存,利用率跌到20%–40%,内存总线却饱和在85%–95%。这个阶段才是长生成成本的大头。
举个例子:一个使用分组查询注意力(GQA)的70B模型,每个Token大约要花费0.32 MB的KV状态。一个普通的4096 Token提示词,就已经是1.34 GB了。把这个规律外推到128K上下文,算下来大约需要40–42 GB的KV缓存,一块80 GB显卡几乎不剩什么空间留给权重。极端情况更夸张:Magic.dev计算过,为Llama 3.1 405B保留一个1亿Token的KV缓存,每个用户需要638块H100,仅仅是为了缓存。
HBM之所以成为瓶颈,是因为快速内存太小了。A100有40–80 GB、带宽1.5–2.0 TB/s的HBM,但每个流式多处理器上只有192 KB、运行在约19 TB/s的片上SRAM,带宽差距大约10倍。FlashAttention凭借平铺(tiling)注意力减少HBM往返,让精确注意力更快,但它没有改变O(L²)的计算量或O(L)的缓存量。要打破这两道限制,只能改变架构本身。

一个线性注意力/SSM层可以用两种等价的方式计算——一种是用于快速训练的并行“分块”形式(块内Qintra),另一种是块之间传递单个固定大小状态S(块间Qinter),以实现恒定内存的循环推理。这种对偶性,让这些模型既能大规模训练,又能廉价解码。
高效-精确(基准组):FlashAttention、分组查询注意力(GQA)、DeepSeek的多头潜在注意力(MLA)。它们保持注意力在数学上精确,但缩减缓存或内存流量。稀疏注意力:NSA、MoBA、DSA,只在一个学习出来的Token子集上计算注意力。线性注意力:MiniMax Lightning、Gated DeltaNet、RWKV-7,用核函数取代softmax,使注意力变成一种递归。状态空间模型:Mamba、Mamba-2、Mamba-3,一种可选择的线性递归,完全抛弃注意力。混合架构:Jamba、Nemotron-H、DeepSeek-V4,把少量注意力层混入一个廉价骨干网络。在稀疏化或线性化之前,DeepSeek先对缓存本身动了手。多头潜在注意力(MLA)最早在DeepSeek-V2中提出,延续到了V3:注意力保持精确,存储量却大幅减少。

MLA(左)把每个Token的键和值压缩成一个小的潜在向量,只缓存这一个向量,再即时重建出各个头的K/V。一个小的“解耦RoPE”组件单独负责携带位置信息。
标准多头注意力要为每一层的每个头都缓存完整的键和值,MLA则把每个Token下投影成一个共享的潜在向量(键和值的低秩联合压缩),只缓存这一个向量;做注意力计算时,再通过上投影矩阵重建出各个头的键和值。旋转位置编码(RoPE)无法在这种压缩中干净地存活,所以MLA加了一个小的“解耦RoPE”组件,单独携带位置信息。
相比DeepSeek此前的67B稠密模型,MLA把KV缓存削减了93.3%,最大生成吞吐量提升了5.76倍,论文还报告精度优于完整多头注意力。MLA是DeepSeek后续整条产品线(包括下文的稀疏注意力)的地基。
多年来人们一直在尝试稀疏化注意力,但大多是在训练之后:剔除低分Token(H2O)、只保留最近的Token(StreamingLLM),或估计哪些“页面”重要(Quest)。问题在于,模型本身是按稠密注意力优化的,从未学会在稀疏模式下生存,所以质量肯定下降。而且,这些技巧通常只对解码有帮助,对训练或预填充帮不上忙。
2025年,DeepSeek的原生稀疏注意力(Native Sparse Attention,NSA)让稀疏性变得原生——成为架构的一部分。

NSA用三条并行分支取代了单一的稠密注意力:压缩(对整个上下文的粗粒度、概括性视图)、选择(只对最重要的若干个块做全分辨率注意力),以及一个滑动窗口(最近的局部Token)。一个学习出来的门控(gate)按Token把三者融合。
NSA是如何工作的?
对每一个查询Token,NSA在同一段历史上以不同分辨率运行三条注意力分支:
一个学习出来的门控,按Token决定该多大程度上信任每条分支。整个机制按块进行,与一个硬件对齐的Triton内核协同设计:把同一个GQA组里的所有查询头一起加载,把昂贵的KV读取摊销到它们身上,修正了那种会拖垮朴素稀疏注意力的算术强度失衡问题。

NSA的内核以“组”为中心:把共享同一个KV组的所有查询头一起加载(外层循环),只取出被选中的稀疏KV块(内层循环),在快速SRAM(绿色)而非HBM(蓝色)上完成计算。硬件对齐,才把“更少的Token”变成了实际的墙钟加速。
数据方面,NSA是作为一个27B参数的MoE模型(激活3B),在约2700亿Token上预训练出来的。在64k上下文下,相比完整注意力:
前向快9.0倍,反向快6.0倍,解码快11.6倍。这个解码速度背后是内存方面的功劳:64k上下文下,NSA每次注意力操作大约加载5632个Token,而完整注意力要加载65536个。平均质量更好,不仅是“相当”。NSA在九项通用基准上的平均得分是0.456,完整注意力是0.443(MMLU 0.565对0.567,GSM8K 0.520对0.486),LongBench上是0.469对0.437。64k上下文下实现完美的“大海捞针”检索。稀疏化在精确召回上没有代价。
NSA与FlashAttention-2内核在不同上下文长度下的对比:随着序列变长,加速比不断扩大,因为被选中的Token预算大致保持固定,而完整注意力则一直为O(L²)。
Moonshot AI的MoBA在同一个月推出,思路更轻量:把MoE的路由思想用到注意力上,把上下文切成若干块,用查询和该块的均值池化键之间的点积给每个块打分,只关注得分最高的top-k个块(外加当前块,始终保留)。优雅之处在于,MoBA与完整注意力共享完全相同的参数,任意一层都能在稀疏和稠密之间无缝切换、无需改动结构。这意味着,可以以“大部分稀疏”的方式训练,同时保留少量完整注意力层作为保险。

MoBA把每个查询路由到KV缓存中最相关的top-k个块,类似MoE把查询路由到专家FFN,同时对未来做因果掩码。它是Moonshot旗下Kimi系列模型背后的长上下文注意力后端。
应用到扩展到100万Token上下文的Llama 3.1 8B上,MoBA与完整注意力的差距在一两个百分点以内(RULER@128K为0.7818对0.7849),在100万Token时带来约6.5倍的注意力加速,1000万Token时可达16倍。目前部署在Kimi的长上下文请求生产环境中。
DeepSeek在生产模型DeepSeek-V3.2-Exp中上线了DeepSeek稀疏注意力(DSA):一个轻量级的“闪电索引器”(一个少头数、ReLU门控、FP8精度的打分模块),把当前查询和此前所有Token逐一比较打分;一个细粒度选择器只保留top-2048个Token;核心注意力只在这些Token上运行,把成本从O(L²)降到了O(Lk),其中k远小于L。相比NSA的关键演进在于,选择现在是Token级别的,而不是块级别的。


DeepSeek自己给出的价格对比图,输入和输出Token都降价超过50%,自V3.2-Exp上线当天起生效。
稀疏注意力仍然在计算softmax注意力,只是计算的Token变少了。线性注意力走得更远:彻底扔掉softmax。
标准注意力计算的是softmax(QKᵀ)V,其中QKᵀ就是O(L²)代价的L×L矩阵。把softmax换成一个核函数特征映射φ,分数变成φ(q)·φ(k)——一个点积,没有把所有Token耦合在一起的归一化操作。去掉softmax后,矩阵乘法的结合律允许重新调整计算顺序:
二次方写法:(φ(Q) φ(K)ᵀ) V → 先构建L×L矩阵 → O(L²d)
线性写法:φ(Q) (φ(K)ᵀ V) → 先构建较小的d×d矩阵 → O(Ld²)
头维度d远小于序列长度L,所以线性写法在序列长度上确实是线性的。更妙的是,模型只需要一个运行中的累加和S = Σ φ(kᵢ)vᵢᵀ,一个固定大小的d×d状态矩阵。生成过程因此变成一个RNN:每来一个新Token就更新状态、读出输出,无需存储不断增长的KV缓存;解码在内存上是每个Token O(1)。
但是,固定大小的状态是一种有损的压缩记忆:每个Token都累加进同一个矩阵,旧信息可能被覆盖(这就是“记忆冲突”)。softmax注意力精确保留每一个键和值,这正是它拥有完美召回能力、也正是一直在用O(L²)的原因。简单来说,线性注意力 = 有界内存、有损召回;softmax = 精确召回、无界成本。所以后来的研究,基本上是对同一个问题给出的一系列越来越聪明的答案:如何让这个固定状态聪明地遗忘和更新。
能证明这条路线能扩展到真正前沿模型的,是MiniMax-01(总参数456B,激活45.9B)。它的Lightning Attention是一种I/O感知的分块线性注意力:块内部使用廉价的二次方形式,块与块之间通过线性递归传递状态,同时获得线性扩展性,以及对张量核心友好的矩阵乘法。
MiniMax的设计选择是,纯线性注意力在精确检索上力不从心,于是每7层Lightning层后插入一层softmax。80层中以7:1的比例交替:大部分用廉价层、少量用精确层来保证召回。这种混合方法在2026年已经随处可见。

MiniMax-01的“大海捞针”检索,在长达400万Token的上下文中依然接近完美——训练时是100万Token,外推到了400万。这大约是当时GPT-4o或Claude 3.5 Sonnet窗口的20–32倍。
这个结果在真实基准测试上也站得住脚:MMLU 88.5,100万Token时RULER长上下文得分约0.910(此时softmax基线已经崩溃),同时在硬件上仍保持超过75%的模型FLOPs利用率。后续的MiniMax-M1把这套机制变成了一个推理模型,据报道在10万Token的生成长度下,FLOPs消耗只有DeepSeek-R1的约25%——恰恰是廉价长上下文最重要的场景。
线性注意力的研究前沿,全部围绕“更聪明的状态更新”展开。Gated DeltaNet结合了两种互补操作:门控(一种依赖数据的衰减,能快速清空整个状态,这是Mamba-2的强项)和Delta规则(针对当前键所对应的槽位做有针对性的读取-修改-写入,这是DeltaNet的强项)。两者结合,表现出色:13亿参数规模下,语言建模困惑度击败Mamba-2(16.42对16.56,Wikitext),检索上更是碾压(单针密码检索91.8%对30.4%)。这一设计已被采用进生产级混合模型,Qwen3-Next与Qwen3.5系列使用了3:1的gated-delta-net与注意力配比。

Gated DeltaNet融合了类似Mamba-2的门控机制(快速遗忘)与Delta规则(精确、有针对性的更新),还提供了混合变体(H1、H2),加入一点滑动窗口注意力以保证召回。
RWKV-7 “Goose”在按通道门控和上下文学习率上更进一步,证明了一个理论要点:它能够追踪状态并识别所有正则语言,同时仍可并行训练——普通Transformer已被证明做不到这一点。它的29亿参数模型,在完全开放训练的条件下,刷新了30亿参数级别多语言能力的纪录。
来源于一个不同的传统——信号处理而非注意力——状态空间模型(SSM)是一种带有固定大小状态、无需KV缓存的线性递归。
一个SSM维护一个隐藏状态hᵗ = Ā·hᵗ₋₁ + B̄·xᵗ,并读出yᵗ = C·hᵗ。经典SSM是时不变的(A、B、C固定),速度快,但对内容“视而不见”。Mamba的方法是让B、C以及时间步长Δ都变成依赖输入的,模型由此可以根据正在读取的内容有选择地记住或遗忘,并配合一个硬件感知的并行扫描保持训练速度。

Mamba的选择性SSM:依赖输入的参数让模型能自己决定保留什么,硬件感知的扫描则把状态保留在快速SRAM中。线性时间训练,恒定内存解码,无需KV缓存。
Mamba-2.8B的表现与体量两倍于它的Transformer相当(平均63.3%对Pythia-2.8B的59.1%),推理速度快5倍,且无需KV缓存。在一个合成的归纳头任务上,它以长度256训练,却能泛化到100万Token,是训练长度的4000倍。
Mamba-2带来了一个重要概念:状态空间对偶性(State Space Duality,SSD),证明了SSM和注意力其实是同一个对象的两种计算形式。一个选择性SSM可以写成一种结构化矩阵变换,在数学上等价于一种带掩码的线性注意力——这正是“SSM”和“线性注意力”在2026年实际合并成一个家族的原因,二者主要区别只在于状态如何衰减和更新。实践层面,SSD让Mamba-2的训练速度比Mamba-1快2–8倍,能携带大得多的状态(从16提升到64–256),提升了关联性召回能力。
最新的Mamba-3(ICLR 2026)带来三项升级:二阶梯形离散化(更精确的状态更新,使其能去掉曾被认为不可或缺的短卷积层);能实现依赖数据的旋转的复数值状态更新(赋予它真正的状态追踪能力,比如奇偶校验、模运算);以及一种MIMO形式,把状态更新变成能让张量核心吃满的稠密矩阵乘法。

Mamba-3在一半状态大小下,达到了与Mamba-2相当的困惑度——同等质量,解码延迟却减半。MIMO变体把这条帕累托前沿进一步推远。15亿参数规模下,Mamba-3 MIMO困惑度为10.24,对比Mamba-2的10.47;下游准确率提升了1.8个百分点,解码也更快(每个Token 0.156ms对0.203ms)。状态追踪能力上差距更悬殊:奇偶校验任务上达到100%,Mamba-2只有0.9%。
注意力让每一个过去的Token都保持可寻址,在精确召回、逐字复制以及在众多干扰项中检索方面,无人能敌。一项名为“Repeat After Me”的形式化结果证明,一个2层Transformer可以复制指数长度的字符串,而任何固定状态的模型从根本上都存在上限。Mamba-3自己的数据也印证了这一点:纯Mamba-3在一个4k的“大海捞针”测试中只能拿到约34%,而5:1的混合架构能跳到100%。
所以,生产环境中的答案几乎从来不是“纯粹”的,而是混合架构:保留少量注意力层用于精确召回,其余部分用廉价的线性/SSM层。典型配方大致是每6–12层廉价层配一层注意力层。

英伟达的Nemotron-H混合模型(大部分是Mamba-2,大约每11–12层一个注意力层),在准确率与吞吐量的权衡上优于纯Transformer:47B版本在长上下文下比Qwen-2.5-72B快2.9倍。
混合架构的阵容如今已相当庞大。
Jamba / Jamba-1.5(AI21):每7层Mamba层配1层注意力,外加MoE。Jamba-1.5-Large在256K上下文下只需9 GB的KV缓存,而Llama-3.1-70B需要约80 GB。它是首个真正实现256K有效上下文(RULER 95.7)的开放模型。英伟达Nemotron-H:大多数注意力层被Mamba-2取代(约8%的层仍是注意力层,大约12层中有1层)。56B版本在MMLU-Pro上击败Qwen-2.5-72B,速度还快得多。英伟达Nemotron-3(2026年6月):最新的混合Mamba-Transformer MoE系列。总参数550B、激活55B的“Ultra”版本支持100万Token上下文,推理吞吐量最高可达同类开放模型的约5.9倍。Falcon-H1、IBM Bamba、Zamba2、Hymba:一波并行式和顺序式混合设计,都在追求通过缩小KV缓存获得2–3倍的吞吐量提升。DeepSeek-V4的“Engram”架构——一种使用“确定性哈希查找”的“O(1)记忆”,据称能让100万Token上下文的“成本大致与128K相当”,并在100万Token时达到“97%的大海捞针准确率”。
但DeepSeek-V4真正上线后的技术报告,讲述的是另一个故事。在这份58页的官方报告中搜索,“Engram”和“O(1)”这两个词出现了零次,整份报告中也没有任何恒定时间的、基于哈希的记忆机制。(报告确实用到了一个“哈希路由”技巧,但那是用来把Token分配给MoE专家的,与注意力或记忆毫无关系。)

DeepSeek-V4-Pro的官方性能图表。真实的故事不是什么魔法记忆,而是一套严谨的混合注意力设计,以远低于V3.2的推理成本拿下了前沿水准的分数。
V4实际使用的是一种混合注意力架构,交替使用两种机制,都直接建立在前文所述的一切之上:
CSA(压缩稀疏注意力):把KV缓存压缩约4倍,在压缩后的块上应用类似闪电索引器的top-k选择,是NSA和DSA谱系的延续,做得更密集。HCA(重度压缩注意力):把KV压缩约128倍,在压缩后的块上运行稠密注意力。另外还有取代残差连接的流形约束超连接、DeepSeekMoE,以及Muon优化器,训练数据超过32T Token。验证过的效率提升:100万Token时,V4-Pro每个Token的推理FLOPs只需要V3.2的27%,KV缓存只需要10%。检索能力的报告也是诚实的:在OpenAI的MRCR 8针测试中,准确率在128K之前都很强劲,但在100万Token时降到了约0.59,恰与“100万Token时97%”的传说相反。2026年的教训是,真正的架构已经足够出色,不需要编造童话。永远要核实一手信源。
如今几乎每个模型都声称拥有百万级(甚至千万级)Token窗口,但几乎没有一个模型能真正用得上它。英伟达的RULER基准测试在“大海捞针”测试中加入多跳追踪和聚合任务,揭穿了这一点,并由此定义了“有效”长度——模型仍能达到合理准确率门槛的长度。

即便是明确为长上下文而设计的模型,随着窗口变长,表现也会褪色:LargeWorldModel系列(训练长度从128K扩展到1M)的RULER准确率随序列长度增加而下滑,训练长度较短的变体最先掉队——模型宣称的窗口与实际可用窗口之间,差距肉眼可见。
“有效长度”与“宣称长度”之间的差距很大:
GPT-4:有效64K,宣称128K。Llama-3.1-70B:64K对128K。Llama-3.1-8B、Qwen2-72B、Command-R:32K对128K。Yi-34B:有效32K,宣称200K。Gemini-1.5-Pro和Jamba-1.5-Large:是极少数能在128K处仍达标的模型。
上面是经典的“大海捞针”热力图(Gemini 1.5),展示文本、音频、视频在长达约1000万Token范围内的表现。绿色代表命中,看起来像是个已解决的问题——这正是为什么像RULER这种测试多跳和聚合能力的基准如此重要:真实的理解能力,远远落后于简单检索。
完整注意力 vs 稀疏 vs 线性 vs SSM vs 混合,逐项对比:
解码复杂度。完整注意力:每个Token O(L)(不断增长)。稀疏:O(k),固定预算。线性/SSM:O(1),固定状态。混合:O(1)加少量O(L)层。KV缓存。完整注意力:线性增长,是成本的主要驱动因素。稀疏:完整缓存,但读取更少。线性/SSM:无(固定状态)。混合:很小,仅注意力层有。精确召回。完整注意力:完美。稀疏:接近完美。线性/SSM:有损,这是短板。混合:很强,这正是其设计初衷。能否从零训练?稀疏(NSA/MoBA/DSA):可以,原生支持。线性/SSM/混合:可以。事后处理方法(H2O、Quest):不行,仅适用于推理阶段。最擅长场景。稀疏:为Transformer形态模型提供即插即用的长上下文能力。线性/SSM:最大吞吐量,边缘/流式场景。混合:实用的前沿默认选择。生产部署情况。稀疏:DeepSeek、Kimi。线性:MiniMax。SSM/混合:Jamba、Nemotron-H、Falcon-H1、DeepSeek-V4。深度学习时代的大部分时间里,“Transformer”就意味着“乖乖支付O(L²)的代价”。2026年,长上下文是一整个组合:可训练的稀疏注意力(NSA、MoBA、DSA)适用于Transformer形态的模型;线性注意力(MiniMax Lightning、Gated DeltaNet)追求最大吞吐量;状态空间模型(Mamba-3)实现恒定内存解码;混合架构(Jamba、Nemotron-H、DeepSeek-V4)则是实用的前沿默认选择。以上每一种技术,归根结底都是为了一个目的:让模型不必为每一个Token都重新读一遍以GB计的内存。
数据本身已经说明了问题:NSA带来11.6倍的解码加速;DSA上线当天,DeepSeek的API价格就降了50%以上;一个线性注意力模型实现了400万Token的窗口;Mamba-3用一半的内存达到了与前代相当的水平。这不意味着softmax注意力已经过时,它仍然拥有最好的召回能力和十年积累的工具链。
但趋势已经很明显:长上下文不再是绕不开的奢侈品,而是逐渐成为可以计算、可以优化的成本项。
archiveofourown 实战指南:常见用法整理
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
电视剧《小欢喜》剧情介绍
如何在夸克浏览器中开启网页视频的倍速播放功能?
美好的简约网名男生(精选100个)
植物娘大战僵尸电脑端与手机端存档转移的方法
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
腾讯元宝怎么用来分析股票基金的基本面信息?
盖乐世社区怎么删除帖子?盖乐世社区个人发布内容撤回步骤
wallpaper壁纸声音怎么开启
独家/李宰旭入伍前「登上孤岛服役」 惊见前辈裸体:忍不住笑了
国际贵金属走低,现货黄金价格跌0.49%
短剧《嫡女她是山大王》剧情介绍
问题:CIA币好不?Cia Protocol币今日上线:价格预测、代币经济学和未来潜力
看韩漫的APP推荐 2026免费韩漫阅读软件大全
OpenAI 调整手机端 ChatGPT,提示词可提前选 AI 响应档位
免费观看国外短视频的app有哪些 观看国外短视频的软件下载
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc