来源:互联网 更新时间:2026-05-26 17:16
过去几年,“世界模型”概念的兴起,正在悄然改变人工智能的发展轨迹。它让AI不再仅仅停留在虚拟的文字和图像世界,而是开始尝试理解并推演物理世界的运行规律。智能汽车,作为AI从数字空间迈向物理世界的天然载体,自然成为了世界模型技术落地的前沿阵地。
今天,小米汽车正式发布了其全新的“Xiaomi Auto World Model”框架。这套方案为业界提供了一条将三维重建与视频生成深度耦合的全新路径,旨在推动智能驾驶的感知系统,从基础的“场景感知”向更高阶的“认知推演与场景进化”形态跃迁。
这并非简单的功能叠加。传统方案通常将重建(WorldRec)与生成(WorldGen)模块独立开发后再串联,但两者目标存在内在矛盾:重建追求几何保真,生成追求内容多样。简单拼接往往导致优势互损。小米的框架则尝试从根本上解决这一问题,通过一体化设计让两者在结构上相互约束、协同增益。目前,该框架已在Waymo、nuScenes等主流基准测试中取得全面领先(SOTA)的成绩,并成功应用于小米汽车的合成数据生成、仿真测试与智能座舱三大核心业务场景。
想象这样一个场景:在高速公路上,前方突然滚落一个轮胎。要让车辆的辅助驾驶系统妥善处理此类突发状况,传统方法需要它在海量真实数据中“见过”足够多的类似案例。然而,现实世界中的极端情况——比如暴雨中突然冲出的行人、山路上的落石、对向车道的逆行车辆——虽然发生概率极低,但一旦出现就可能是致命的。我们无法穷尽所有可能性。
这正是世界模型的价值所在。它能够基于历史和当前的观测,预测周围环境在未来时刻的可能演化。对于辅助驾驶而言,这意味着车辆不仅能够“看见”当下,更具备了“想象”未来的能力,从而为决策争取宝贵时间。
目前,构建世界模型主要有两条技术路线:
一个很自然的想法是:能否将两者结合,取长补短?现有方法多采用简单的串联模式——先重建一个场景,再将其作为条件输入生成模型。但这存在一个根本性矛盾:
Xiaomi Auto World Model 提出的,正是一个将重建与生成深度耦合的全新整合框架。其核心思想是让两个模块在训练和推理过程中相互约束、共同进化:
简而言之,重建提供了稳定的3D几何锚点,约束着生成过程的“骨架”;而生成为系统补全了“血肉”,并将预测能力延伸到观测之外。两者形成闭环,最终在三个关键维度上实现了协同增益:

要深入理解这套协同机制,首先要看重建侧做了什么革新。当前主流的前馈式三维重建方法,普遍采用“为每个像素预测高斯属性”的范式。每张图像独立产生一套高斯点云,再后融合到三维空间中。这种方法容易导致“鬼影”、分层等问题,且渲染开销巨大(常涉及上亿高斯点)。
问题的根源或许不在于融合策略,而在于表征本身——缺乏一种机制来约束“同一个三维空间点必须在所有视角下收敛为同一个高斯”。
基于这一洞察,WorldRec模块的核心思路是将场景表示从“稠密像素”转换为

有了精确的3D场景作为“锚点”,生成侧的任务就变得明确:在重建覆盖不到的“空白区域”——未来帧、未观测视角、遮挡部分——进行高质量的内容补全。
WorldGen不再是一个需要大量迭代“修图”的模型,而是一个能够“自由绘画”的高效生成引擎。它仅需4步去噪,约0.19秒即可生成一帧,并支持最长1分钟的连续视频生成。
其能力源于两阶段训练策略:
除了效率,WorldGen的真正价值在于其应对真实世界“长尾”极端场景的能力。无论是罕见的动物闯入(如马匹、老虎突然出现在路面),还是极端恶劣天气(如暴雨、大雪、浓雾),WorldGen都能生成高质量、高保真的场景数据。这为训练辅助驾驶感知模型提供了极其宝贵且难以获取的虚拟数据,直接提升了系统在危险场景下的识别与应对能力。

技术上的“1+1>2”,最终需要硬核的实测数据来证明。
在三维重建领域,Xiaomi Auto World Model的WorldRec模块在Waymo公开数据集上全面超越了之前的SOTA方法DGGT。其PSNR(峰值信噪比,衡量重建精度的核心指标,数值越高越好)达到28.48,领先约1个点。更重要的是,在nuScenes数据集上的零样本泛化测试中,它对比其他SOTA方法依然保持领先,证明了其强大的场景适应能力,而非仅在特定数据集上表现优异。
在视频生成领域,Xiaomi Auto World Model的WorldGen模块在H20 GPU上,单视角生成速度达到0.19秒/帧,三视角为0.46秒/帧。对比同为自回归方法的Epona(1.06秒/帧),速度快了5.6倍。同时,WorldGen支持高达81帧的连续生成(支持10Hz/30Hz,最长1分钟),而大多数公开基线模型仅能生成8-16帧。在权威的nuScenes数据集评测中,WorldGen取得了FVD 64.97和FID 7.04的成绩,其FVD指标超越了所有对比的双向与自回归模型,保持了极具竞争力的生成质量。
目前,Xiaomi Auto World Model已经深度融入小米汽车的三大实际业务场景:
从被动“看见”到主动“想象”,Xiaomi Auto World Model正在为智能辅助驾驶构建一个可预测、可推演的“数字平行世界”。这不仅是实验室榜单上的技术突破,更是已经转化为实际生产力的业务引擎。下一步,小米汽车将继续探索预训练与闭环训练范式,致力于推动端到端自动驾驶模型的认知能力实现新的跃升。

《Off Campus》第二季官宣:这对CP还在,但不再是主角
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
archiveofourown 实战指南:常见用法整理
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
帅气继父网名女生可爱英文(精选100个)
帅到极致的网名女生霸气(精选100个)
如何在夸克浏览器中开启网页视频的倍速播放功能?
作家助手如何上传自制封面 作家助手如何设置小说的封面
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
韩漫小少爷网名大全女生(精选100个)
网络热词聊污是什么意思
电视剧《小欢喜》剧情介绍
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
有寓意的易经网名男生(精选100个)
小众游戏抖音网名男生(精选100个)
电影《遁甲门之消失的公主》剧情介绍
美国市场:股票相对债券的风险溢价正在消失
全链网:黄金价格因美元的走强及利率担忧而下跌
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc