来源:互联网 更新时间:2026-05-28 09:20
3D世界“会看”了,但还不会“改”——这大概是当前3D生成领域最真实的写照。

从NeRF到3D Gaussian Splatting,再到VGGT、π³这类前馈式3D重建模型,整个行业的进展速度确实惊人。如今,只需几张图片,就能在几秒内重建出一个完整的3D场景。
但问题也恰恰出在这里。这些模型虽然已经能理解三维世界,却还不会修改三维世界。你可以让它重建一个房间,却很难真正告诉它:把椅子移到窗边,删除中间那张椅子,或者把灰色皮沙发改成白色长毛沙发。
更麻烦的是,一旦涉及复杂编辑,现有方法往往迅速崩溃——某些角度里椅子消失了,换个视角椅子又重新出现;明明没改的背景,却跟着一起变形。
为应对这一挑战,来自北京大学、香港中文大学、上海AI Lab、NTU等机构的研究团队,提出了一套原生3D编辑框架:VGGT-Edit。
核心思路非常清晰,一句话就能概括:
在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度均超过现有方法,单次编辑仅需约
目前大多数编辑3D的方法,本质上仍然是“2D思维”——先把场景拆成多张2D图片,逐张编辑,再重新拼回3D。
但由于每个视角都是独立处理的,所以很容易出现各种问题:
很多结果看起来更像“在不同角度硬P出来的图”,而不是真正稳定的3D空间。
对于机器人、AR/VR、空间智能这些方向来说,这几乎是致命问题——这些场景真正需要的,不是“某一个角度看起来对”,而是整个3D世界始终稳定一致。
VGGT-Edit的核心思路非常直接:
整个框架建立在VGGT-Like前馈式重建模型之上,继承了其快速、高效的3D表示能力。但有意思的是,团队并没有选择重新生成整个场景,而是提出了一种非常巧妙的机制:
简单理解就是:模型先保留原始场景稳定的3D结构,然后只学习“哪里需要变化”,例如:
这些变化,都被表示成了一个简洁的公式:
这个设计有个非常重要的好处——因为大部分区域本来就不需要变化,所以模型不用重新“生成整个世界”,只需修改局部,结果就是没改动的背景区域会非常稳定。这也是VGGT-Edit和很多现有方法最明显的区别之一。
研究团队发现,如果只是简单把一句文本输入模型,很容易出现一种情况——模型知道“你想改什么”,但不知道“该改哪里”。
为了解决这个问题,VGGT-Edit设计了一套关键机制:
本质上可以理解成让文本语义和3D空间特征,在同一个深度层级里持续同步。
传统方法通常只在前面注入一次文本信息,但VGGT-Edit会在多个关键层持续融合文本语义,这样模型在整个3D生成过程中,始终知道:
与此同时,团队还专门设计了一套“
除了整体框架之外,VGGT-Edit还有一个非常关键的部分——
研究团队发现,对于VGGT-Like模型来说,原本的重建Head更关注“如何恢复场景”,但3D编辑真正需要解决的问题是:
因此,VGGT-Edit额外设计了一套编辑分支,专门预测场景中的局部变化。这个编辑Head会直接作用于3D表示空间,并输出对应的残差场变化。本质上,它学习的是:
相比直接重新生成整个场景,这种方式更加稳定,也更加高效——这也是让VGGT-Like前馈重建模型具有编辑能力的关键一步。
为了训练VGGT-Edit,团队专门构建了一个新的3D编辑数据集
更重要的是,整个数据生成流程高度自动化。团队通过利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自动完成编辑指令生成、目标识别、多视角编辑、3D一致性过滤,最终得到真正满足“多视角几何一致”的训练数据。
对于原生3D编辑来说,这一步非常关键——模型真正需要学习的,不只是“图像变化”,而是同一个编辑,在不同视角下如何始终保持空间一致。
从结果来看,这条路线确实有效。在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度都超过了现有方法。
尤其是在添加家具、调整位置、修改材质这些复杂任务中,很多传统方法仍然会出现明显的“贴图感”和几何漂移,但VGGT-Edit生成的结果,会明显更像一个真实稳定的3D空间。
更关键的是速度——论文中,VGGT-Edit单次编辑只需约
这意味着编辑3D第一次真正开始接近实时交互。对于机器人、数字孪生、AR/VR等方向来说,这种变化非常重要——只有当编辑速度足够快,3D世界才真正可能变成“可交互”的世界。
论文里还有一个非常有意思的实验。研究人员输入了一条训练中从未出现过的指令——“将中间椅子顺时针旋转90度。”结果模型依然成功完成了编辑。
这说明VGGT-Edit学到的,并不只是固定模板,它真正开始理解文本语义如何映射到3D空间变化。
而这件事,可能比“会生成3D”本身更重要。因为对于空间智能来说,未来真正关键的能力,也许不是“生成一个世界”,而是能否像人一样,自由、稳定、实时地修改这个世界。VGGT-Edit,正在把这件事往前推进一步。
论文链接:https://arxiv.org/abs/2605.15186
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
初中英语同步课文跟读APP推荐|免费下载高口碑跟读软件排行榜
BuuPo官网在哪下载 最新官方下载安装地址
4D采矿者官网在哪下载 最新官方下载安装地址
阅读app安卓版下载推荐
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
喧哗番长乙女 2nd Rumble !!官网在哪下载 最新官方下载安装地址
纸嫁衣9官网在哪下载 最新官方下载安装地址
萌神契约手游下载安装
好用的手环阅读app下载安装
无尽花界时装合辑
免费影视剧APP推荐
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
人声接近真人!OpenAI一口气更新三款超强语音AI
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短视频软件推荐
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc