热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >机器人原生世界动作模型问世!首创时空一体架构,复旦系团队出品

机器人原生世界动作模型问世!首创时空一体架构,复旦系团队出品

来源:互联网 更新时间:2026-05-31 19:44

通用人工智能的战火,已经彻底从虚拟的数字空间,一路烧到了真实的物理世界。

毫无疑问,

具身智能、机器人大脑

,已经成为当下整个AGI赛道最卷、也最核心的决胜高地。

当前行业主流的VLA视觉语言动作模型、通用世界模型、视频推演方案,普遍存在一个尴尬的现实:空间感知精度不够,物理逻辑约束经常掉线,长时序规划能力薄弱,真机落地更是鲁棒性堪忧。说白了,这些模型在虚拟环境里跑得挺溜,一到现实世界就容易“水土不服”,无法支撑机器人实现真正的自主感知、自主推理、自主决策与稳定交互。

在物理AI产业快速迭代的关键节点,深耕世界动作模型底层技术五年的

复旦系科创企业眸深智能

,正式推出了

STI-WM时空一体世界动作模型(Spatiotemporally Integrated World Model)

作为

专为机器人原生打造的通用具身大脑

,该模型的核心在于三个关键词:时空一体化建模、物理一致性约束、端到端原生融合。这并非简单的技术改良,而是从底层架构上,彻底打破了传统模型的技术桎梏,为物理世界AGI落地开辟了一条全新的、更优的技术路径。

复旦+英特尔+英伟达,硬核学术成果稳居全球第一梯队

眸深智能的技术突破,绝非一日之功,背后是长期深耕的学术积淀与全栈工程能力。

公司核心团队源自复旦大学深度学习实验室,一个典型的

学术科研、工程落地、产业商业化

三位一体顶级架构:由复旦大学未来信息创新学院教授、深度学习实验室主任

陈涛

坐镇科研底层,原英特尔中国首席科学家

张益民

博士和来自

英伟达

的技术负责人掌舵工程化落地,95后复旦连续创业者

穆泽林

主导商业化布局。这套被称为“复旦铁三角”的核心阵容,实力相当强劲。

团队

超九成

核心研发人员来自复旦大学,汇聚百余名校硕博人才。最关键的是,他们在2021年行业风口还未真正到来时,就已经前瞻性地布局了世界模型、三维感知、时序动作生成这三大底层核心技术,持续深耕技术攻坚。

多年来的积累,让团队斩获多项

全球顶尖赛事冠军与顶级学术荣誉

  • 推出全球首个人形动作生成大模型MotionGPT、三维世界模型HL3DWM;
  • 拿下ICCV2023全球三维目标识别冠军、CVPR2024三维密集语义推理冠军;
  • 斩获IJCAI2025杰出论文奖,是

    近五年国内唯一斩获该奖项的具身智能团队

  • 团队技术负责人还入选了2025年中国具身智能新秀EAI榜单20强。

其原创技术成果被英伟达DAIR等国际顶尖实验室引用,学术创新与工程落地能力稳居全球第一梯队。

重构行业技术范式:5年沉淀,开创并引领世界动作模型路线

当前行业多数方案仍采用

通用世界模型+VLA拼接

的改良模式。这种模式下,模态之间的信息割裂、损耗严重,就像用不同频道的对讲机在沟通,缺乏真实物理世界的约束。最终结果往往是“视觉上看起来合理”,但无法适配机器人真机落地的真实需求,动作一执行就露馅。

眸深智能的思考方式不同。他们从AGI本质出发,率先确立了

世界动作模型原生融合路线

:机器人与物理世界的一切交互,最终都落地为动作。唯有精准理解时空演化规律、遵守物理逻辑、实现端到端原生映射,才能真正解决机器人泛化性差、落地难的行业顽疾。

早在2022年,团队便创新性地提出了

全球首个影空间语言-动作端到端映射MLD模型

,成果发表于CVPR 2023。这个核心思路,在2025年5月被英伟达DAIR实验室的核心工作引用验证,足见其前瞻性。

历经五年迭代,团队已完成

7代动作模型技术更新

,在多模态端到端融合、高精度动作生成、时序逻辑推演领域积累了深厚的技术护城河。动作精度、推理速度、任务泛化性持续领跑行业。

机器人原生架构四维统一,破解真机落地核心痛点

不同于行业依托大语言模型二次改造的适配性方案,

STI-WM时空一体世界动作模型

是完全面向机器人长时序规划、在线闭环控制、真实物理交互打造的原生具身智能框架。它实现了

空间结构、时间演化、物理一致性、执行鲁棒性

四维一体化统一。

模型可以兼容RGB图像、深度点云、机器人本体多模态感知输入,将复杂环境信息统一编码为紧凑高效的时空潜在世界状态。上层可以支撑百秒级长时程任务推演与全局轨迹规划,下层则输出精准可控的精细化动作片段。同时依托实时环境观测进行动态纠偏、在线重规划,构建出了一个完整的“理解世界—推演未来—规划动作—执行纠错”的物理智能闭环。

相较于Dreamer系列偏重环境预测、忽视真机控制的通用世界模型,LWM、PWM等时空割裂的抽象动作模型,以及仅追求视觉逼真、无视物理可行性的视频生成模型,STI‑WM跳出了纯视觉推演的误区。它把三维几何约束、动力学校验、真机闭环执行作为核心,彻底解决了传统模型信息失真、泛化薄弱、落地困难的核心痛点,让机器人真正做到

看懂三维空间、遵守物理规则、自主规划任务、稳定闭环执行

△眸深STI-WM1.0时空一体世界动作模型架构

六大核心技术壁垒,支撑机器人规模化落地

依托五年全链路自研积淀,STI‑WM构建起行业难以复刻的六大技术优势:

  1. 时空一体化原生建模

    :空间结构与时间动态实时耦合,消除多模块拼接的信息损耗,大幅提升推理效率与决策精准度;
  2. 原生三维感知能力

    :基于点云直接还原真实物理空间,彻底规避2D视觉深度缺失、空间误判的固有缺陷;
  3. 内置物理一致性引擎

    :融合碰撞检测、动力学约束,从底层杜绝不合理动作与环境崩坏,保障真机执行安全稳定;
  4. 长时程高阶规划

    :突破传统短片段动作局限,支持百秒级连续复杂任务自主推演,适配真实场景复杂作业需求;
  5. 端侧轻量化部署

    :自研模型压缩、量化蒸馏技术,实现百亿级大模型低成本落地机器人端侧芯片,大幅降低产业化算力门槛;
  6. 小样本强泛化能力

    :依托虚拟世界大规模预训练+少量真机微调,高效适配陌生场景与长尾任务,大幅降低数据依赖。
△眸深“一脑多形”跨本体通用大脑

资本与商业双爆发,产业化进程突飞猛进

凭借底层架构原创创新、全栈自研技术壁垒、以及可落地的商业化能力,眸深智能迎来了高速发展期。一个关键数据:

半年内完成5轮融资,3亿元Pre-A轮融资获5倍超额认购

,获得了国家级投资平台、头部产业资本、券商机构的高度认可。

商业化落地同步驶入快车道。公司已与宇树科技、禾川科技、颐家养老等行业头部企业达成深度合作,技术落地覆盖工业制造、居家康养、商业服务等多元真实场景。

目前,眸深智能已与近十家上市公司达成战略合作,其中包含

五家以上千亿级产业龙头

,未来三年预计可锁定10亿元订单支撑。技术产业化速度远超行业平均水平。

△眸深智能与居家养老头部企业颐家战略合作

当下,AGI竞争正式进入

物理智能新时代

。可以确定的是,以世界动作模型为核心的原生具身大脑,已然成为通用机器人的核心底座。

未来,眸深智能将持续迭代STI‑WM模型体系,全面赋能人形机器人、四足机器人、工业机械臂、服务机器人等全品类硬件,加速通用具身智能的规模化落地,推动中国原生物理AI技术领跑全球,开启物理世界AGI的全新纪元。

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc