您的位置：首页 > > 教程攻略 > ai资讯 >大晓机器人联合南洋理工打通Physical AI全链路！PhysX-Omni补齐物理AI基建

大晓机器人联合南洋理工打通Physical AI全链路！PhysX-Omni补齐物理AI基建

来源:互联网 更新时间:2026-06-07 12:40

PhysX-Omni：统一刚体、可形变与关节物体的物理 3D 生成

大晓机器人联合南洋理工打通Physical AI全链路！PhysX-Omni补齐Physical AI基建

先说一个核心判断：我们正处在一个从“感知世界”向“理解并交互世界”跨越的节点上。大语言模型、视觉语言模型、具身智能，这些技术这几年跑得飞快。但一个很尴尬的现实是，市面上绝大多数3D生成方法，还停留在“好看”的层面——盯着外观和几何结构使劲，却忽略了真实世界最底层的逻辑：物理属性。

没有物理属性的3D模型，在机器人眼里，充其量只是个漂亮的静态摆设。它没法被推倒，没法被捏变形，更不可能被机械臂抓起来然后自动调整姿态。而真正能用来训练机器人、做仿真的“simulation-ready”级3D资产，又长期面临一个老大难问题：数据太少，评测标准不统一。

针对这些挑战，大晓机器人和南洋理工大学的研究团队拿出了PhysX-Omni——一个统一生成框架，首次实现了对刚体、可形变物体，甚至关节物体的统一建模。它生成的东西，不光看着对，用着也对，可以直接扔进真实的物理仿真环境里干活。研究团队还配套推出了迄今为止规模最大的物理3D数据集PhysXVerse，以及一个统一的评测基准PhysX-Bench。从数据到标准，算是给Physical AI和具身智能研究补上了一个至关重要的基建环节。

论文第一作者曹子昂，主要合作者包括南洋理工大学的李海天、姚润茂、洪方舟、陈昭熹，以及大晓机器人的刘英豪和潘亮，通讯作者是南洋理工大学的刘子纬教授。值得一提的是，大晓机器人此前发布过“环境式数据采集—世界模型—泛化大脑模组”的ACE具身研发范式，这次的研究成果很可能为其打造能真正理解物理世界的机器人“大脑”，提供底层的数据支撑。

1 引言

PhysX-Omni的野心，并不只是生成一个“长得像”的3D模型。它要解决的是传统3D AIGC方法没碰过的硬骨头：物体的绝对尺度、材料属性、运动学参数、交互能力（Affordance），甚至语义描述。只有把这些物理信息全都建模到位，生成出来的东西才算得上“可交互、可运动、可仿真”，才能真正为Physical AI所用。

为了做到这一点，PhysX-Omni的核心创新之一，是提出了一种专门面向视觉语言模型的全新几何表征方式。它能直接、显式地建模高分辨率的三维结构，而且不需要引入额外的“特殊标记”，避免了传统方法中由于分割误差导致的累积错误，这个设计思路非常巧妙。

当然，光有方法还不够。针对simulation-ready物理3D数据稀缺的现状，团队构建了首个通用数据集PhysXVerse，包含超过8K个高质量资产，覆盖2K多个室内外类别。同时，为了公平、全面地评估这类生成模型，他们还提出了首个物理3D生成基准——PhysX-Bench，从六个核心维度对结果进行综合打分，包括几何结构、绝对尺度、材料属性、可供性、运动学和语义描述。

2 方法介绍

2.1 物理几何表征

高质量生成，首先得有好使的几何表征。PhysX-Omni的设计思路，是借鉴了经典的二维游程编码（RLE），但又针对三维场景做了大幅改进，提出了基于模板的RLE表示方法。

具体流程是这样的：先把3D资产做体素化处理，然后根据物体的部件层级结构，拆分成部件级的体素。接着，每个部件体素沿Z轴方向切分成一系列二维二值掩码，再用紧凑的二维RLE编码，把占据区域高效地转换成一串文本token。

这里有个聪明的优化：三维结构的相邻切片之间，往往存在很强的空间冗余性，尤其是在平滑区域或重复结构。能不能利用一下？研究团队于是提出了“模板层”的概念——让多个结构相似的切片共享同一个模板，只记录它们相对于模板的差异变化。这样一来，就不需要对每一层都从头编码，压缩效率大幅提升，同时精细几何信息也没丢。

更重要的是，这种基于模板的表征，在整个生成过程中都保留了显式的三维结构信息。相比传统的自回归几何生成方法，它更能抵抗预测误差的累积，处理复杂的高分辨率三维结构时，鲁棒性明显更好。

2.2 PhysXVerse 数据集

物理化3D数据稀缺，是行业里公认的痛点。PhysX-Omni团队为了解决它，构建了PhysXVerse数据集——目前首个通用型、可直接用于物理仿真的3D数据集。

为了保证资产质量，他们从PartVerse数据集中提取了经过人工验证的部件分割结果，再结合此前提出的“人在回路”物理标注流程，精细地给每个部件打上物理属性标签。最终，PhysXVerse包含了超过8.7K个高质量的simulation-ready 3D资产，覆盖了2.9K多个类别，从室内家具、无人机、机器人到车辆甚至大型场景组件，样样都有。和现有的同类数据集相比，PhysXVerse在类别多样性和物理属性覆盖面上，优势非常明显。

2.3 PhysX-Bench

怎么才算把一个“能直接用的物理3D模型”生成好了？行业内一直缺少一个统一的评价标准。PhysX-Bench就是来填这个坑的。

这个基准依托开源视觉语言模型和物理仿真引擎来工作。为了降低复杂物理属性和三维结构的理解难度，它不直接输入一堆物理参数，而是通过渲染图像和仿真视频来做评测，更贴近人类感知和机器人应用的实际情况。

评测从六个维度展开：Geometry（三维一致性与视觉质量）、Absolute Scale（尺寸合理性）、Material（材料属性）、Affordance（交互合理性）、Kinematics（运动一致性）、Description（语义理解）。

举个例子，测试“材料属性”时，会通过自由落体、水中下落等仿真视频来间接评估密度、杨氏模量和泊松比。测试“运动学”时，则通过分析运动视频，看关节运动是否协调、合理。通过物理仿真加VLM推理的组合拳，PhysX-Bench能更真实、更全面地反映生成资产的实际质量与可用性。

3 实验

3.1 在传统评估指标上的结果

研究团队将PhysX-Omni与PhysXGen、Articulate-Anything、MonoArt、PhysX-Anything等几个最新的simulation-ready 3D生成方法做了系统对比，在PhysXVerse和PhysX-Mobility数据集上进行了大量实验。

结果很清楚：PhysX-Omni在几乎所有几何和物理属性指标上都拿下了最佳成绩。尤其是在“绝对尺度”评估上，误差比PhysXGen和PhysX-Anything降了两个数量级，这说明模型对真实世界的尺寸和物理先验，确实有了更深的理解。在材料、可供性、语义描述和运动学等维度上，PhysX-Omni也都是最优表现。其中运动学维度的提升尤为明显——关节结构、运动类型、运动约束推理得更准，生成的关节类资产自然也就更“活”了。

3.2 PhysX-Bench 上的结果

为了测试泛化能力，团队进一步在PhysX-Bench上做了系统实验。这个基准的特别之处在于，它不依赖传统的Ground Truth标注，而是用真实场景照片加渲染图像来评测，覆盖了大量复杂和野外挑战性案例。

实验结果再次印证了PhysX-Omni的统治力：在绝大多数物理属性评测上都拿了最高分，尤其是绝对尺度、材料、可供性、运动学和语义描述这几个硬核维度。在可供性和语义描述这类需要物理推理和语义理解的任务上，表现同样亮眼。大量的可视化结果也表明，PhysX-Omni在处理复杂结构、精细几何和极具挑战性的关节物体时，鲁棒性非常出色。

3.3 相关应用

光看指标还不够，最终得落地。研究团队将PhysX-Omni生成的simulation-ready 3D资产，直接部署到了物理模拟器中，用于机器人交互和策略学习。实验证明，这些资产是真的能直接用的，为大规模具身智能数据的构建，打开了一条新路。

除了单个物体的生成，团队还探索了其在场景级仿真生成中的潜力。这些初步结果说明，PhysX-Omni不仅是一个优秀的物体生成工具，未来还有望成为场景级物理世界生成、机器人训练环境构建，乃至具身AI世界建模的基础设施。

4 总结

PhysX-Omni提供了一个统一的simulation-ready物理3D生成框架，把刚体、可形变物体和关节物体全部拉了进来。它不满足于“看着像”，而是要求生成的东西几何对、材料对、运动对、交互也对，直接就能扔进仿真环境里跑。

数据不够？他们建了PhysXVerse。标准不全？他们推了PhysX-Bench。大量实验已经证明，PhysX-Omni在几何质量、物理一致性和运动建模上，显著优于现有方法，并且能直接服务于机器人策略学习、场景生成、具身AI等下游任务。这不仅是方法本身的进步，更给未来的Physical AI和物理世界生成，提供了一个清晰的新方向。