您的位置：首页 > > 教程攻略 > ai资讯 >一件衣服「隐身」可见光-热成像检测器，清华多模态对抗新方法

一件衣服「隐身」可见光-热成像检测器，清华多模态对抗新方法

来源:互联网 更新时间:2026-06-09 12:40

清华大学提出了一种新型物理对抗方法，通过特殊设计的服装，同时干扰可见光和热成像两种检测模式。这套服装利用非重叠设计和三维建模优化，能够有效规避RGB-T联合检测系统，为多模态感知系统的安全研究提供了新的视角。

近年来，可见光-热成像（RGB-T）联合目标检测系统正变得越来越常见。与只依赖可见光的传统检测方式相比，RGB-T检测器能同时获取普通相机和热成像相机的信息，在夜间、弱光、恶劣天气等复杂环境下表现更稳定。自动驾驶、智能安防、机器人感知——这些场景里都有它的身影。

多模态系统同时融合了可见光和热成像信息，给人的第一感觉是：它肯定比单模态系统更可靠。毕竟，就算一个模态被干扰，另一个仍能提供补充信息。

但一个问题始终悬而未决：这类系统在现实物理世界中到底有多可靠？安全风险究竟有多大？

在CVPR 2026的一篇论文中，清华大学研究团队给出了一个思路。他们设计了一套特殊的对抗服装，穿上它，一个行人在现实世界中就能同时骗过可见光相机和热成像仪——两种检测器都“看”不到他。

论文链接：https://arxiv.org/abs/2605.04675
代码链接：https://github.com/zxp555/RGBT-Clothing

实验数据显示，这套方法能对抗不同融合架构的RGB-T检测器。在数字世界，平均对抗成功率达到90%；在现实物理世界，这个数字也达到了60%。

研究背景

对抗样本研究早就告诉我们，深度神经网络在面对精心设计的扰动时，很容易“犯糊涂”。过去的工作主要集中在单一模态上：可见光场景里，可以把对抗图案打印在纸张、贴纸或衣服上；热成像场景里，则可以利用发热器件、隔热材料来改变热图像。

问题在于，可见光和热成像的成像机制差异太大。可见光图像依赖光照、颜色和纹理，而热成像反映的是物体表面的热辐射特性。

所以，针对可见光设计的对抗图案，往往对热成像无效；反过来，只针对热成像的材料，也难以骗过可见光检测器。

目前也有少数工作尝试对抗RGB-T检测器，但局限性很明显。比如，有些方法用二维对抗贴片，可对抗角度范围很窄；另一些方法需要在打印图案上叠加特殊低辐射薄膜，结果削弱了可见光图案效果，成本也跟着上去了。总之，RGB-T检测器在不同角度、距离和融合架构下的真实安全风险，远没有被充分揭示。

研究方法

面对这些问题，研究团队提出了一种非重叠RGB-T对抗图案设计，称为NORP（non-overlapping RGB-T pattern）。核心思想很直白：物理对抗服装上的每个位置，要么用于显示可见光图案来干扰可见光检测，要么用于显示热成像图案来干扰热成像模态，两者在空间中绝不重叠。

具体实现时，研究人员用普通可打印布料来承载可见光对抗图案，同时用常见的铝膜材料来改变局部的热成像效果。这样做，既能同时作用于RGB和Thermal两个模态，又避免了传统重叠式打印带来的亮度下降问题。

为了让对抗服装在现实世界中适用于不同观察角度，研究团队进一步构建了人体和服装的三维RGB-T模型。通过三维建模，系统可以在数字世界中模拟0到360度全视角下的人体穿衣效果，并同步渲染可见光图像和热成像图像。优化完成后，再根据生成的图案制作真实衣服——包括上衣和裤子——从而实现物理世界中的全视角RGB-T对抗。

不过，NORP设计带来了一个难题：同一个位置，不可能既是可连续优化的RGB颜色，又是离散选择的热成像材料。为此，研究团队提出了空间离散-连续优化方法。在优化过程中，随机选择部分区域进行离散化，同时更新另一部分连续变量。这样既满足了物理可制造约束，又能联合优化可见光和热成像的对抗图案。

为了提升对未知检测器的迁移对抗能力，研究团队还提出了融合阶段集成方法。将早期融合、中期融合、晚期融合以及独立双模态检测器共同纳入优化范围，确保一套衣服就能有效干扰不同融合架构的RGB-T检测系统。

实验结果

数字世界的评估首先展开。实验覆盖了多种RGB-T检测架构，包括早期融合检测器Prob-E、中期融合检测器Prob-M、晚期融合检测器Prob-L，以及独立的YOLO11可见光和热成像检测器。评测使用FLIR测试集的500张图像，在随机人物角度、距离、背景和光照条件下进行。

结果显示，得益于3D建模和连续离散混合优化的对抗方法，这套方案在数字世界中对不同RGB-T检测器均取得了超过90%的对抗成功率（ASR）。相比之下，普通纯色衣服、随机RGB-T图案以及已有的对抗方法，对多模态目标检测器的成功率相当有限。

研究团队还进一步分析了不同距离和角度下的表现。实验覆盖0到360度视角，以及2.5米到20米的距离范围。结论是：这套方法能够在全视角和多个距离条件下稳定对抗RGB-T检测器，相较于以往主要适用于有限角度的二维贴片方法，优势明显。

接下来，团队用布料和铝膜制作了真实的RGB-T对抗服装，并开展了物理世界实验。实验使用iPhone 13 Pro和FLIR T560热成像相机同步采集可见光和热成像图像，在室内和室外，以及早晨、中午、下午、傍晚等不同场景中采集数据。物理实验结果表明，这套服装在不同融合架构的RGB-T检测器上均能有效逃避检测，平均对抗成功率达到60%，远优于普通衣服、随机图案衣服和已有的对抗方法。

研究团队还验证了方法在黑盒设置下的迁移能力。通过融合阶段集成优化，一套对抗服装可以迁移对抗未参与训练的RGB-T检测器，例如RPN-E、AR-CNN、RPN-L和Deformable DETR等。在这些模型上，也观察到了一定的迁移对抗效果。这意味着，当前RGB-T检测系统在面对现实物理对抗时，确实存在普遍的安全隐患。