Spatial-TTT - 清华联合混元开源的流式视觉空间智能框架
来源:互联网
更新时间:2026-06-23 14:44
Spatial-TTT是什么
空间智能领域最近杀出了一匹黑马——来自清华大学、腾讯混元和南洋理工大学联合团队的Spatial-TTT。这个框架只有2B参数,却能在长达两个小时连续视频里做空间推理,而且推理过程中还在不断学习、更新自己的空间记忆。听起来有点反直觉?但它在VSI-Bench、MindCube-Tiny等主流基准测试上的成绩,已经超过了GPT-5、Gemini-3-pro这样的闭源大模型。更关键的是,它的显存占用比行业头部方案节省了40%以上。简单说:用更小的模型、更少的资源,完成了更复杂的空间理解任务。
Spatial-TTT的主要功能
- :视频流被切成小块,逐块喂给模型,每处理一块,模型的参数(fast weights)就在线更新一次,空间证据不断累积,不需要一次性把整个视频都加载进来。
- :能做相对距离、绝对距离估算,能数物体、判断大小,能感知房间尺寸、识别方向、规划路径,甚至能推理物体出现的前后顺序——这些对传统模型来说,都是超高难度的活儿。
- :10分钟到120分钟的视频流稳定处理,在VSI-SUPER长期记忆基准上性能不衰减。换句话说,看两个小时的素材,空间感知能力跟刚开机时一样清晰。
- :1024帧输入时峰值显存只有11.9GB,理论计算量799.4 TFLOPs——这个数字跟同类大模型比起来,差不多是人家的一半甚至更少。
Spatial-TTT的技术原理
- :研究团队在解码器里按3:1的比例交替放置TTT层和标准自注意力锚定层。75%的TTT层负责把长程空间信息写入快速权重,实现线性复杂度的记忆扩展;25%的全注意力层则守住预训练模型的语义理解和跨模态对齐能力——说白了,既要能记下两个小时的空间细节,又不能把原有的视觉-语言能力给冲掉。
- :传统TTT用逐点线性投影生成Q/K/V,忽略了视觉token之间的局部几何结构。Spatial-TTT在TTT分支里加了一个轻量级3D时空卷积,让快速权重学习的是时空上下文到时空上下文的预测关系,而不是孤立token之间的映射。这样一来,几何对应、视角变化和时间连续性都能被稳定地捕捉到。
- :以前的空间智能数据大多是稀疏的局部问答,很难驱动快速权重学习全局更新。团队自己构建了覆盖全局语境、物体类别、数量和空间关系的稠密3D场景描述数据,采用两阶段空间感知渐进训练:第一阶段用稠密描述让模型学会“记住整个空间”,形成全局3D意识;第二阶段用数百万条空间VQA数据强化流式推理能力。两个阶段缺一不可。
如何使用Spatial-TTT
- :去GitHub仓库克隆代码,配置好Python环境和依赖项。GitHub地址在下方项目地址里。
- :加载预训练的Spatial-TTT-2B权重,初始化TTT快速权重。
- :把长视频切成连续的chunk,一块一块地喂给模型。每处理完一个chunk,模型自动更新内部空间状态。
- :输入自然语言空间问题,比如“从红色蜡烛出发面向窗户,如何走到门口”,模型基于累积的空间记忆给出答案。
- :可以接入机器人、自动驾驶或AR设备的实时视频流,实现持续的空间感知。
Spatial-TTT的核心优势
- :2B参数在多项空间基准上击败了GPT-5、Gemini-3-pro等闭源大模型。在MindCube-Tiny上准确率领先Gemini-3-pro 12个百分点——注意,不是几个点,是12个点。
- :通过fast weights在线更新,显存和计算量随着视频长度线性增长,完全避免了传统长上下文模型那种平方级的复杂度爆炸。
- :它不依赖无限膨胀的上下文窗口,而是把观察结果转化为可更新、可修正、可调用的内部空间状态。这种机制更适合物理Agent长期运行——机器人不会“忘记”它走过的路,因为空间记忆就在模型参数里。
- :1024帧场景下显存占用只有11.9GB,而行业领先方案需要21.2GB,足足降低了40%以上。而且那些带显式几何编码器的对比模型,在同等帧数下已经跑不动了。
Spatial-TTT的项目地址
- :https://liuff19.github.io/Spatial-TTT/
- :https://github.com/THU-SI/Spatial-TTT
- :https://huggingface.co/collections/THU-SI/spatial-ttt
- :https://arxiv.org/pdf/2603.12255
Spatial-TTT的同类竞品对比
| 对比维度 |
Spatial-TTT |
Gemini-3-pro |
| 参数规模 |
2B |
闭源,未公开 |
| 模型性质 |
开源(清华/腾讯混元/NTU) |
闭源(Google) |
| 核心机制 |
TTT 快速权重 + 3D 时空卷积 + 混合注意力 |
长上下文 + 多模态预训练 |
| VSI-Bench 平均分 |
64.4 |
56.0 |
| MindCube-Tiny 准确率 |
76.2% |
63.9% |
| 120分钟视频处理 |
稳定运行(Recall 30.0 / Count 38.4) |
未公开支持,长视频易性能崩塌或OOM |
| 1024帧峰值显存 |
11.9GB |
21.2GB+ |
| 1024帧计算量 |
799.4 TFLOPs |
1403.1 TFLOPs |
| 空间记忆方式 |
在线更新参数化空间状态 |
依赖长上下文窗口缓存 |
Spatial-TTT的应用场景
- :服务机器人或家用机器人在房间里来回走动时,实时更新空间地图,能回答“沙发相对于窗户的位置”或者规划出一条最优路径。
- :车辆在长时间行驶中持续积累道路、路口、障碍物的空间关系,支持复杂的方向判断和距离估计——不是靠高清地图死记硬背,而是靠在线感知和理解。
- :头显设备在用户使用过程中持续理解环境布局,实现虚实融合的空间锚定和物体关系查询,虚拟物体才能真正“钉”在现实空间里。
- :对长时间视频流进行在线空间分析,追踪物体出现顺序、计数与位置变化,不需要离线全量处理——实时性才是安防的核心。