您的位置：首页 > > 教程攻略 > ai资讯 >13人干翻Transformer，新架构SSA算力暴减千倍，成本仅Opus 5%

13人干翻Transformer，新架构SSA算力暴减千倍，成本仅Opus 5%

来源:互联网 更新时间:2026-06-14 15:20

Transformer统治地位悬了！一款SubQ模型带着SAA架构横空出世，1200万上下文成本仅Opus的5%，计算量暴减千倍。

Transformer架构的王座，似乎开始松动了。

最近，一款名为SubQ的AI模型横空出世，其背后全新的架构思路，足以让整个行业侧目。它号称是全球首个基于完全亚二次方稀疏注意力架构（SSA）的模型，能够处理高达1200万Token的上下文长度。

关键在于，SubQ的SSA架构引入了一种“动态选择”机制。它不再像传统Transformer那样，强制计算序列中所有Token之间的关联，而是根据内容本身，智能地筛选出真正需要关注的焦点。这种思路上的根本转变，带来了惊人的效率提升——据称，其计算量相比标准Transformer直接减少了1000倍。

实验数据显示，在处理100万Token的上下文时，SubQ的速度比经过极致优化的FlashAttention-2还要快52倍以上，而成本更是不到Claude Opus的5%。

更令人惊讶的是，打造出这一架构的Subquadratic公司，总部位于迈阿密，整个团队仅有13人。消息一出，便在AI社区引发了激烈讨论。有行业观察者甚至评论道：“如果这一切都是真的，那么Anthropic和OpenAI的估值恐怕要归零了。” 也有人认为，这或许才是大型语言模型未来真正实现规模扩展的正确路径。

Transformer的“原罪”：九年未解的效率困局

自2017年谷歌那篇划时代的论文《Attention Is All You Need》发表以来，Transformer架构便奠定了其在AI领域的统治地位。过去九年，从GPT到Claude，再到Gemini，几乎所有前沿大模型都建立在同一个核心基础之上：密集注意力机制。

然而，这种机制存在一个根本性的效率瓶颈。它的工作方式堪称“暴力”：序列中的每个Token都需要与所有其他Token进行一次关联计算。这就导致了著名的“二次方复杂度”问题——上下文长度每增加一倍，所需的计算量便会飙升四倍。

后果显而易见：输入越长，模型运行就越昂贵、越缓慢，也越容易达到硬件极限。这直接解释了为何当前主流大模型的上下文窗口大多被限制在百万Token级别左右。并非技术上无法做到更长，而是经济上难以承受。SubQ的出现，正是试图从根本上改写这个效率等式。

SSA架构：核心思路是“做减法”

SubQ实现突破的关键，在于其SSA架构——亚二次方稀疏注意力。其设计思路出奇地清晰：既然在训练好的模型中，绝大多数注意力权重都趋近于零，那么为何还要耗费巨量算力去计算它们呢？

SSA采取了一种更聪明的策略。对于每一个查询（Query），模型会基于其内容语义，在长序列中动态地选择出真正值得关注的那些位置，然后仅在这些选定的位置上进行精确的注意力计算。换句话说，它只计算那些有意义的交互，而主动跳过了超过99%的、贡献微乎其微的计算。

这一架构带来了三个核心特性：

线性扩展：

计算量仅随选中的关键位置数量线性增长，而非随整个序列长度呈二次方爆炸。这意味着上下文长度翻倍，成本也大致只翻倍，而非四倍。

内容依赖路由：

模型根据语义相关性决定关注哪里，而非固定的位置偏移。无论关键信息藏在序列的第3个还是第1100万个Token，都能被有效定位。

精确检索：

它不像循环神经网络那样将历史信息压缩成固定维度的状态，而是保留了从原始上下文中任意位置精确检索信息的能力。

本质上，SSA的创新不在于“如何把密集注意力算得更快”，而在于“如何让模型聪明地减少不必要的注意力计算”。

减少的计算开销，直接转化为了实实在在的速度优势。

性能实测：速度与成本的碾压式优势

Subquadratic公司公布的一系列基准测试数据，每一项都极具冲击力。

在100万Token的序列长度上，SSA架构相比标准的密集注意力配合FlashAttention-2优化，速度快了52.2倍。随着上下文增长，优势呈指数级扩大：在12.8万Token上快7.2倍，25.6万Token上快13.2倍，51.2万Token上则达到23倍。这完美印证了SSA的线性扩展特性——传统方法越长越慢，而SSA则越长越显划算。