热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

来源:互联网 更新时间:2026-06-06 12:49

仅凭一张照片,到底能不能又快又好地生成一个可用的3D资产?这个问题正在成为3D生成、机器人感知,乃至空间计算领域的一项基础能力。

过去,单图3D重建更多是停留在“能生成一个物体”的阶段。而SAM3D的出现,则把这个问题推进到了更复杂、也更贴近真实的开放场景:给定一张图像和对应的目标mask,它不仅能重建出任意一个物体,还能恢复出物体的纹理和它在空间中的布局。

不过,当技术真正走向应用时,推理效率很快就成了新的瓶颈。高质量的3D重建过程如果耗时过长,就很难支撑起复杂的现实场景。所以,一个很实际的问题就摆在了面前:能不能更快、更稳定、也更便宜地完成重建?

单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

针对这一挑战,来自中国科学院计算技术研究所和ETH Zurich等机构的研究者,提出了

Fast-SAM3D

。这种方法直接瞄准了SAM3D的推理链路,做了一种“训练无关”的加速,在最大程度上保持重建质量的同时,将单个对象的生成速度提升了最高

2.67倍

,场景级别的生成速度也提升了最高

2.01倍

一起来看看它是怎么实现的。

SAM3D为何被“卡脖子”

SAM3D采用了一种“粗到精”的两阶段流程:先预测物体的粗结构和空间布局,再进一步细化几何和纹理,最后通过解码器输出一个显式的3D结果。

研究团队对它的推理过程做了系统性的分析,发现耗时主要集中在三个环节:

Sparse Structure生成器

Sparse Latent生成器

,以及

Mesh解码器

。换句话说,问题的瓶颈很清晰。

单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

迭代式生成器和Mesh解码器是主要计算瓶颈

单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

各模块上均实现大幅度推理加速

但有意思的是,

SAM3D的“慢”并非均匀发生

。有些模块的计算负担其实是可以被更聪明的策略所分担的。比如,形状token的变化往往比较平滑,可以被更简单地预测;而布局token控制着姿态、旋转和尺度,一个小误差就可能造成整体漂移。纹理和细节的更新也不是处处都需要,真正需要反复计算的,通常是边缘、接缝、薄结构这些高信息熵的区域。更不用说,杯子和龙雕这类物体在几何复杂度上差异巨大,显然不应该使用同样密度的解码预算。

这就解释了为什么简单的通用加速策略在SAM3D上容易失效。统一跳步可能带来位姿漂移,随机token剪枝可能导致结构坍塌,统一下采样又会抹掉复杂物体的细节。

所以,Fast-SAM3D的核心思路很明确:不是粗暴地少算,而是

把计算花在真正需要的地方

单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

让计算资源与模块复杂度精准匹配

Fast-SAM3D的框架由三个模块组成,分别对应结构生成、细节生成和网格解码这三个关键阶段。

单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

Fast-SAM3D三部分组成

首先是

Modality-Aware Step Caching(模态感知步骤缓存)

在结构生成阶段,Fast-SAM3D将形状token和布局token区分处理:对于演化平滑的形状token,进行预测和复用;而对于更敏感的布局token,则用锚点约束来抑制抖动。这样做的好处是,既减少了主干网络的调用次数,又有效避免了物体姿态在加速过程中“跑偏”。

单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

其次是

Joint Spatiotemporal Token Carving(联合时空Token雕刻)

在细节生成阶段,Fast-SAM3D不再让所有token平均参与计算,而是根据时间变化、突变程度和空间频率,找出最值得更新的区域。平滑的表面可以少算,而边缘、尖角、纹理突变等区域,则获得更多的计算资源。

单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

第三是

Spectral-Aware Token Aggregation(频谱感知Token聚合)

在Mesh解码阶段,方法通过2D mask和3D粗结构的频谱信息来评估物体的复杂度:简单物体更激进地聚合token,而复杂物体则保留更多高频细节。这样一来,系统就能针对不同物体自适应地分配解码预算。

单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

速度提升明显,质量基本不掉队

在SAM3D的基准测试上,Fast-SAM3D将场景级生成时间从462.3秒大幅降至229.7秒,实现了

2.01倍

的加速;单对象生成则达到了

2.67倍

的加速。

更重要的是,几何质量并没有因此而明显下降。F1@0.05这个关键指标从92.34提升到了92.59,vIoU也从0.543提升到了0.552,这说明加速并未以牺牲质量作为代价。

单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

定性结果也印证了这一点。随机剪枝容易导致结构坍塌,通用缓存方法可能出现语义或布局漂移,而

Fast-SAM3D的结果与原始SAM3D的结果最为接近

。这充分说明,3D重建中的加速不能照搬2D扩散模型的经验,而必须深刻理解3D数据自身的结构、位姿和频谱差异。

单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍

总结来看,Fast-SAM3D的价值不仅仅在于刷新了几个速度指标:

  • 内容生产

    :更快的单图3D重建意味着设计师可以更频繁地试错,快速将图片素材变成可编辑的资产;
  • 电商和展示业务

    :商品图转3D的成本下降后,批量3D化才有可能成为常规流程;
  • 机器人和具身智能

    :系统若能更快地从现场图像中恢复可操作物体,将直接影响在线感知与规划效率;
  • AR/VR应用

    :低延迟的重建,则决定了交互体验是否足够自然。

更实际的一点是,Fast-SAM3D是一个训练无关的框架,不需要重新收集数据或重训基础模型,因此更容易接入已有的SAM3D流程。

它给出的启发也很清晰:

当3D生成能力逐渐从“能做”走向“可用”,系统级的效率优化会变得和模型能力本身一样重要。

下一阶段,单图3D重建的竞争点将不再仅仅是“生成效果”,而是能否在真实的业务场景中稳定、快速、低成本地运行。Fast-SAM3D正是在这个方向上迈出的坚实一步。

本文共同第一作者为中国科学院计算所博士生冯伟伦、硕士生伍明强。通讯作者为中国科学院计算所杨传广和安竹林副研究员。核心成员来自计算所智能算法安全全国重点实验室智能优化课题组,隶属于徐勇军研究员团队,课题组长期从事高效人工智能的研究,重点关注视觉、多模态等领域的理解与生成高效性。

论文链接:https://arxiv.org/abs/2602.05293

代码链接:https://github.com/wlfeng0509/Fast-SAM3D

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc