来源:互联网 更新时间:2026-06-04 15:08
“隐空间世界模型很难,但我们一定要做。”
这句硬核宣言,出自Yann LeCun押注的世界模型路线——而现在,一匹来自深圳的黑马早已提前落子。
这支团队是
眼下,他们押注的方向是——
这条路线有多关键?LeCun为此离开Meta、创办AMI Labs,完成10.3亿美元融资,创下欧洲史上最大种子轮纪录。
但与主流世界模型预测“下一帧画面长什么样”不同,
那么,隐空间世界模型为什么是更难的那条路?难在哪里?做出来又意味着什么?
随着人工智能加速从数字世界走向物理世界,智能体面临的核心任务已经变了。它不仅要“看见”,而且要“预见”——理解因果关系,把握时空动态,在稀疏反馈与复杂约束下完成规划、决策与学习。
强化学习提供了从交互经验中学习的基本范式。大语言模型这边,从ChatGPT应用强化学习,到o系列模型以及coding能力的突破,本质上都是一系列强化学习算法应用的突破。但物理世界的样本效率低、安全约束严、交互成本高、环境不可重置,单纯依赖在线试错的方法,难以扩展到真实场景。

张磊的判断是:
这正是世界模型的意义所在:让AI从经验数据中学习动作、状态与结果之间的因果关系,在行动前先“想象”下一步可能发生什么,为强化学习提供可扩展的内部预演空间。
在张磊看来,当前各种世界模型路线都在不同方向上推进得很快。但对于机器人和物理智能而言,一个核心挑战仍然存在:
模型在像素层面学习,很容易被纹理、光照、背景等细节干扰,学习效率低下,不利于学习真实的因果关系和物理规律。这正是LeCun说
Latent表征的价值在于,它可以把高维、冗余的视觉输入压缩成更抽象的状态表示,过滤掉大量与决策无关的像素细节,把学习重点放到更本质的变化规律上。可以说,表征学习是世界模型中最为核心的问题。
换句话说,隐空间世界模型不执着于“未来画面长什么样”,更关注“世界状态如何演化”,因此更适合学习物理规律和因果关系。
但视启发现,现有的隐空间方案还差了关键的一步。大多数latent表征虽然脱离了像素,却并不真正“理解物体”。如果模型不知道场景里哪些是独立物体、物体之间是什么关系、哪些变化来自视角、哪些变化来自交互,那么它要直接在隐空间中学习物理规律,难度仍然非常高。
原因很简单:

张磊认为,latent表征必须具备理解物体的能力,才能更好地学习物理规律。视启的解法是
通过引入物体理解的结构信息,模型可以更高效地对数据进行压缩,从海量数据中学到内在的、更为本质的规律。模型学习的不再是黑盒式表征,而是一个更具对象性、空间性和物理性的结构化latent世界。
因此,视启将自己的路线称为
为了实现真正可落地的物理世界模型,张磊认为,这类模型需要同时具备三个核心特征:
张磊说,视启对方向的判断始终正确,只是赛道的热闹程度,确实超出了当初的预想。不过,这反而印证了视启坚守隐空间路线的前瞻性——在所有人都往像素空间冲的时候,视启已经在更难、也更正确的方向上积累了先发优势。
张磊对于世界模型的见地,并非空xue来风。背后是视启长期构建的以物体为中心的视觉理解能力,也是这支团队数年的积累。
视启未来,其核心团队来自粤港澳大湾区数字经济研究院计算机视觉与机器人研究中心(IDEA CVR)孵化的
Grounding DINO已成为开放集检测的重要里程碑之一,而
今年4月,谷歌DeepMind发表的Vision Banana论文中,多处提到视启未来的DINO-X模型。这篇论文的署名作者包括何恺明和谢赛宁,在SA-CO/Gold instance segmentation任务上,强调DINO-X是zero-shot transfer物体理解的全球SOTA。
此外,DINO系列论文也广泛被Meta的SAM2/SAM3、阿里的Qwen系列、字节的Seed系列引用。这反映出视觉物体理解基模门槛极高,依赖强大的视觉基座大模型预训练能力。自2023年以来,视启未来凭借Grounding-DINO与DINO-X系列,在开放物体理解榜单上保持了最长的连续领先时间。
有趣的是,DINO的意思是“恐龙”,恐龙也是这个团队各种模型的标志。他们还有一个基于视觉提示做物体检测的模型T-Rex2,就是恐龙家族的霸王龙。
DINO系列解决的核心问题,正是Object-Centric世界模型最需要的底层能力:让机器真正“看懂”世界由哪些物体构成、它们在哪里、它们之间是什么关系。
视启未来的路线,更强调面向真实世界交互的Object-Centric表征能力,即围绕“物体是什么、在哪里、如何被引用、如何与环境发生关系”建立统一建模能力。在此基础上,他们不仅在2D物体检测与分割,3D物体理解与语义理解上建立了显著优势,也持续向3D动作理解延伸,形成了从看见物体,到理解物体,再到理解动作与物体交互的完整能力栈。

从这个意义上说,视启做世界模型并不是转型,而是在其原有技术基础上的顺势延伸。单个模型的成功还能归因于机会,但连续做出Grounding DINO、DINO-X等全球领先的物体理解视觉基座大模型,说明团队底层能力已经成型。对一家做基础模型的团队来说,这意味着它不仅会“做模型”,更掌握了数据组织、预训练范式、能力迁移和任务扩展的系统方法——这恰恰是基模训练能力最有说服力的体现。
这种能力已经开始在产品上体现。5月15日,视启未来联合百度智能云正式发布了
EgoTwin直击行业最卡脖子的难题——把人手操作数据转化为机器人能用的训练数据,
更大的愿景,张磊直言:
物理世界里,同样的范式变化正在发生。只不过,物理世界的基础设施除了算力之外,还会加入机器人本体。在这一层之上,张磊带领的世界模型团队正在打通Learning From Experience的范式,机器人在学习过程中可以变得更加自主、更加高效,由此获得更强的物理任务技能。
英伟达科学家Jim Fan年初说,下一个词预测是第一种预训练范式,现在我们正在经历

张磊支持这个判断,同时强调一点:
要做世界级的模型,首先得有世界级的团队。
视启未来创始人兼CEO
他曾在微软亚洲研究院、微软总部研究院及计算机视觉相关产品部门任首席研究员,带领研究组从事计算机视觉基础研究,及其在大规模图像分析、物体检测、视觉语言多模态理解方面的应用,研究成果被广泛用于微软必应搜索及认知服务云计算平台。
值得一提的是,在张磊进行博士深造之前,是国内最早一批参与室内移动机器人研究的人员之一。绕了一个大圈,从机器人到计算机视觉,再从视觉回到机器人,这条轨迹并非偶然,而是他对物理世界AI判断的一向逻辑在驱动。
2021年,张磊加入IDEA研究院,带领团队研发DINO-X视觉大模型,为机器赋予物体级理解能力。随后其孵化视启未来,将这套能力推向世界模型赛道。
视启未来还邀请了
近期,视启在北京进一步吸引了多位国内机器人和强化学习方向的优秀年轻算法人才加入。他们的主动选择,本身就是一种投票——投的是视启在世界模型方向上的技术判断,也是他们对这支团队能够再创辉煌的信心。
做世界模型很难,做隐空间世界模型更难。曾经做出世界第一视觉大模型的视启团队,正把同样的信念,押注在隐空间世界模型上。张磊和他的视启未来,正走在将隐空间世界模型贯彻到底、知难而进的路上。
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
《Off Campus》第二季官宣:这对CP还在,但不再是主角
4D采矿者官网在哪下载 最新官方下载安装地址
免费影视剧APP推荐
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短剧《情绪超市》剧情介绍
短视频软件推荐
免费看电影的软件推荐
抖音最火沙雕男生网名(精选100个)
苹果macOS 27将优化界面设计并测试AI驱动的Safari标签页自动分组功能
网络热词聊污是什么意思
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
洛克王国世界S2赛季狂欢怪谈介绍
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
KuCoin基本面分析
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc