热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >Spatial-TTT - 清华联合混元开源的流式视觉空间智能框架

Spatial-TTT - 清华联合混元开源的流式视觉空间智能框架

来源:互联网 更新时间:2026-06-23 14:44

Spatial-TTT是什么

空间智能领域最近杀出了一匹黑马——来自清华大学、腾讯混元和南洋理工大学联合团队的Spatial-TTT。这个框架只有2B参数,却能在长达两个小时连续视频里做空间推理,而且推理过程中还在不断学习、更新自己的空间记忆。听起来有点反直觉?但它在VSI-Bench、MindCube-Tiny等主流基准测试上的成绩,已经超过了GPT-5、Gemini-3-pro这样的闭源大模型。更关键的是,它的显存占用比行业头部方案节省了40%以上。简单说:用更小的模型、更少的资源,完成了更复杂的空间理解任务。

Spatial-TTT的主要功能

  • 流式空间记忆维护

    :视频流被切成小块,逐块喂给模型,每处理一块,模型的参数(fast weights)就在线更新一次,空间证据不断累积,不需要一次性把整个视频都加载进来。
  • 长时程空间推理

    :能做相对距离、绝对距离估算,能数物体、判断大小,能感知房间尺寸、识别方向、规划路径,甚至能推理物体出现的前后顺序——这些对传统模型来说,都是超高难度的活儿。
  • 超长视频处理

    :10分钟到120分钟的视频流稳定处理,在VSI-SUPER长期记忆基准上性能不衰减。换句话说,看两个小时的素材,空间感知能力跟刚开机时一样清晰。
  • 高效推理

    :1024帧输入时峰值显存只有11.9GB,理论计算量799.4 TFLOPs——这个数字跟同类大模型比起来,差不多是人家的一半甚至更少。

Spatial-TTT的技术原理

  • 混合式TTT架构

    :研究团队在解码器里按3:1的比例交替放置TTT层和标准自注意力锚定层。75%的TTT层负责把长程空间信息写入快速权重,实现线性复杂度的记忆扩展;25%的全注意力层则守住预训练模型的语义理解和跨模态对齐能力——说白了,既要能记下两个小时的空间细节,又不能把原有的视觉-语言能力给冲掉。
  • 空间预测机制

    :传统TTT用逐点线性投影生成Q/K/V,忽略了视觉token之间的局部几何结构。Spatial-TTT在TTT分支里加了一个轻量级3D时空卷积,让快速权重学习的是时空上下文到时空上下文的预测关系,而不是孤立token之间的映射。这样一来,几何对应、视角变化和时间连续性都能被稳定地捕捉到。
  • 稠密场景描述监督与渐进训练

    :以前的空间智能数据大多是稀疏的局部问答,很难驱动快速权重学习全局更新。团队自己构建了覆盖全局语境、物体类别、数量和空间关系的稠密3D场景描述数据,采用两阶段空间感知渐进训练:第一阶段用稠密描述让模型学会“记住整个空间”,形成全局3D意识;第二阶段用数百万条空间VQA数据强化流式推理能力。两个阶段缺一不可。

如何使用Spatial-TTT

  • 环境准备

    :去GitHub仓库克隆代码,配置好Python环境和依赖项。GitHub地址在下方项目地址里。
  • 模型加载

    :加载预训练的Spatial-TTT-2B权重,初始化TTT快速权重。
  • 输入视频流

    :把长视频切成连续的chunk,一块一块地喂给模型。每处理完一个chunk,模型自动更新内部空间状态。
  • 空间问答

    :输入自然语言空间问题,比如“从红色蜡烛出发面向窗户,如何走到门口”,模型基于累积的空间记忆给出答案。
  • 扩展应用

    :可以接入机器人、自动驾驶或AR设备的实时视频流,实现持续的空间感知。

Spatial-TTT的核心优势

  • 小参数超越大模型

    :2B参数在多项空间基准上击败了GPT-5、Gemini-3-pro等闭源大模型。在MindCube-Tiny上准确率领先Gemini-3-pro 12个百分点——注意,不是几个点,是12个点。
  • 线性扩展性

    :通过fast weights在线更新,显存和计算量随着视频长度线性增长,完全避免了传统长上下文模型那种平方级的复杂度爆炸。
  • 空间记忆而非内容堆积

    :它不依赖无限膨胀的上下文窗口,而是把观察结果转化为可更新、可修正、可调用的内部空间状态。这种机制更适合物理Agent长期运行——机器人不会“忘记”它走过的路,因为空间记忆就在模型参数里。
  • 显存效率显著

    :1024帧场景下显存占用只有11.9GB,而行业领先方案需要21.2GB,足足降低了40%以上。而且那些带显式几何编码器的对比模型,在同等帧数下已经跑不动了。

Spatial-TTT的项目地址

  • 项目官网

    :https://liuff19.github.io/Spatial-TTT/
  • GitHub仓库

    :https://github.com/THU-SI/Spatial-TTT
  • HuggingFace模型库

    :https://huggingface.co/collections/THU-SI/spatial-ttt
  • arXiv技术论文

    :https://arxiv.org/pdf/2603.12255

Spatial-TTT的同类竞品对比

对比维度 Spatial-TTT Gemini-3-pro
参数规模 2B 闭源,未公开
模型性质 开源(清华/腾讯混元/NTU) 闭源(Google)
核心机制 TTT 快速权重 + 3D 时空卷积 + 混合注意力 长上下文 + 多模态预训练
VSI-Bench 平均分 64.4 56.0
MindCube-Tiny 准确率 76.2% 63.9%
120分钟视频处理 稳定运行(Recall 30.0 / Count 38.4) 未公开支持,长视频易性能崩塌或OOM
1024帧峰值显存 11.9GB 21.2GB+
1024帧计算量 799.4 TFLOPs 1403.1 TFLOPs
空间记忆方式 在线更新参数化空间状态 依赖长上下文窗口缓存

Spatial-TTT的应用场景

  • 机器人导航

    :服务机器人或家用机器人在房间里来回走动时,实时更新空间地图,能回答“沙发相对于窗户的位置”或者规划出一条最优路径。
  • 自动驾驶

    :车辆在长时间行驶中持续积累道路、路口、障碍物的空间关系,支持复杂的方向判断和距离估计——不是靠高清地图死记硬背,而是靠在线感知和理解。
  • AR/VR空间交互

    :头显设备在用户使用过程中持续理解环境布局,实现虚实融合的空间锚定和物体关系查询,虚拟物体才能真正“钉”在现实空间里。
  • 智能监控与安防

    :对长时间视频流进行在线空间分析,追踪物体出现顺序、计数与位置变化,不需要离线全量处理——实时性才是安防的核心。

热门手游

相关攻略

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc