您的位置：首页 > > 教程攻略 > ai资讯 >Spatial-TTT - 清华联合混元开源的流式视觉空间智能框架

Spatial-TTT - 清华联合混元开源的流式视觉空间智能框架

来源:互联网 更新时间:2026-06-23 14:44

Spatial-TTT是什么

空间智能领域最近杀出了一匹黑马——来自清华大学、腾讯混元和南洋理工大学联合团队的Spatial-TTT。这个框架只有2B参数，却能在长达两个小时连续视频里做空间推理，而且推理过程中还在不断学习、更新自己的空间记忆。听起来有点反直觉？但它在VSI-Bench、MindCube-Tiny等主流基准测试上的成绩，已经超过了GPT-5、Gemini-3-pro这样的闭源大模型。更关键的是，它的显存占用比行业头部方案节省了40%以上。简单说：用更小的模型、更少的资源，完成了更复杂的空间理解任务。

Spatial-TTT的主要功能

流式空间记忆维护
：视频流被切成小块，逐块喂给模型，每处理一块，模型的参数（fast weights）就在线更新一次，空间证据不断累积，不需要一次性把整个视频都加载进来。
长时程空间推理
：能做相对距离、绝对距离估算，能数物体、判断大小，能感知房间尺寸、识别方向、规划路径，甚至能推理物体出现的前后顺序——这些对传统模型来说，都是超高难度的活儿。
超长视频处理
：10分钟到120分钟的视频流稳定处理，在VSI-SUPER长期记忆基准上性能不衰减。换句话说，看两个小时的素材，空间感知能力跟刚开机时一样清晰。
高效推理
：1024帧输入时峰值显存只有11.9GB，理论计算量799.4 TFLOPs——这个数字跟同类大模型比起来，差不多是人家的一半甚至更少。

Spatial-TTT的技术原理

混合式TTT架构
：研究团队在解码器里按3:1的比例交替放置TTT层和标准自注意力锚定层。75%的TTT层负责把长程空间信息写入快速权重，实现线性复杂度的记忆扩展；25%的全注意力层则守住预训练模型的语义理解和跨模态对齐能力——说白了，既要能记下两个小时的空间细节，又不能把原有的视觉-语言能力给冲掉。
空间预测机制
：传统TTT用逐点线性投影生成Q/K/V，忽略了视觉token之间的局部几何结构。Spatial-TTT在TTT分支里加了一个轻量级3D时空卷积，让快速权重学习的是时空上下文到时空上下文的预测关系，而不是孤立token之间的映射。这样一来，几何对应、视角变化和时间连续性都能被稳定地捕捉到。
稠密场景描述监督与渐进训练
：以前的空间智能数据大多是稀疏的局部问答，很难驱动快速权重学习全局更新。团队自己构建了覆盖全局语境、物体类别、数量和空间关系的稠密3D场景描述数据，采用两阶段空间感知渐进训练：第一阶段用稠密描述让模型学会“记住整个空间”，形成全局3D意识；第二阶段用数百万条空间VQA数据强化流式推理能力。两个阶段缺一不可。

如何使用Spatial-TTT

环境准备
：去GitHub仓库克隆代码，配置好Python环境和依赖项。GitHub地址在下方项目地址里。
模型加载
：加载预训练的Spatial-TTT-2B权重，初始化TTT快速权重。
输入视频流
：把长视频切成连续的chunk，一块一块地喂给模型。每处理完一个chunk，模型自动更新内部空间状态。
空间问答
：输入自然语言空间问题，比如“从红色蜡烛出发面向窗户，如何走到门口”，模型基于累积的空间记忆给出答案。
扩展应用
：可以接入机器人、自动驾驶或AR设备的实时视频流，实现持续的空间感知。

Spatial-TTT的核心优势

小参数超越大模型
：2B参数在多项空间基准上击败了GPT-5、Gemini-3-pro等闭源大模型。在MindCube-Tiny上准确率领先Gemini-3-pro 12个百分点——注意，不是几个点，是12个点。
线性扩展性
：通过fast weights在线更新，显存和计算量随着视频长度线性增长，完全避免了传统长上下文模型那种平方级的复杂度爆炸。
空间记忆而非内容堆积
：它不依赖无限膨胀的上下文窗口，而是把观察结果转化为可更新、可修正、可调用的内部空间状态。这种机制更适合物理Agent长期运行——机器人不会“忘记”它走过的路，因为空间记忆就在模型参数里。
显存效率显著
：1024帧场景下显存占用只有11.9GB，而行业领先方案需要21.2GB，足足降低了40%以上。而且那些带显式几何编码器的对比模型，在同等帧数下已经跑不动了。

Spatial-TTT的项目地址

项目官网
：https://liuff19.github.io/Spatial-TTT/
GitHub仓库
：https://github.com/THU-SI/Spatial-TTT
HuggingFace模型库
：https://huggingface.co/collections/THU-SI/spatial-ttt
arXiv技术论文
：https://arxiv.org/pdf/2603.12255

Spatial-TTT的同类竞品对比

对比维度	Spatial-TTT	Gemini-3-pro
参数规模	2B	闭源，未公开
模型性质	开源（清华/腾讯混元/NTU）	闭源（Google）
核心机制	TTT 快速权重 + 3D 时空卷积 + 混合注意力	长上下文 + 多模态预训练
VSI-Bench 平均分	64.4	56.0
MindCube-Tiny 准确率	76.2%	63.9%
120分钟视频处理	稳定运行（Recall 30.0 / Count 38.4）	未公开支持，长视频易性能崩塌或OOM
1024帧峰值显存	11.9GB	21.2GB+
1024帧计算量	799.4 TFLOPs	1403.1 TFLOPs
空间记忆方式	在线更新参数化空间状态	依赖长上下文窗口缓存

Spatial-TTT的应用场景

机器人导航
：服务机器人或家用机器人在房间里来回走动时，实时更新空间地图，能回答“沙发相对于窗户的位置”或者规划出一条最优路径。
自动驾驶
：车辆在长时间行驶中持续积累道路、路口、障碍物的空间关系，支持复杂的方向判断和距离估计——不是靠高清地图死记硬背，而是靠在线感知和理解。
AR/VR空间交互
：头显设备在用户使用过程中持续理解环境布局，实现虚实融合的空间锚定和物体关系查询，虚拟物体才能真正“钉”在现实空间里。
智能监控与安防
：对长时间视频流进行在线空间分析，追踪物体出现顺序、计数与位置变化，不需要离线全量处理——实时性才是安防的核心。

Spatial-TTT - 清华联合混元开源的流式视觉空间智能框架

Spatial-TTT是什么

Spatial-TTT的主要功能

流式空间记忆维护

长时程空间推理

超长视频处理

高效推理

Spatial-TTT的技术原理

混合式TTT架构

空间预测机制

稠密场景描述监督与渐进训练

如何使用Spatial-TTT

环境准备

模型加载

输入视频流

空间问答

扩展应用

Spatial-TTT的核心优势

小参数超越大模型

线性扩展性

空间记忆而非内容堆积

显存效率显著

Spatial-TTT的项目地址

项目官网

GitHub仓库

HuggingFace模型库

arXiv技术论文

Spatial-TTT的同类竞品对比

Spatial-TTT的应用场景

机器人导航

自动驾驶

AR/VR空间交互

智能监控与安防

热门资讯

热门手游

相关攻略

热门专题