跳转至

3D Gaussian Splatting Driven Multi-View Robust Physical Adversarial Camouflage Generation

会议: ICCV 2025
arXiv: 2507.01367
代码: https://github.com/TRLou/PGA (有)
领域: 3D视觉 / 对抗攻击 / 物理安全
关键词: 3D Gaussian Splatting, 物理对抗攻击, 对抗伪装, 多视角鲁棒性, 自动驾驶安全

一句话总结

提出首个基于3D高斯体(3DGS)的物理对抗攻击框架PGA,通过解决高斯体的互遮挡和自遮挡问题保证跨视角一致性,并设计min-max优化策略过滤非鲁棒对抗特征,在数字域和物理域均大幅超越SOTA方法。

背景与动机

物理对抗攻击是揭示深度神经网络脆弱性的重要手段,尤其在自动驾驶等安全关键场景中具有重大威胁。相比对抗patch,对抗伪装(adversarial camouflage)覆盖整个目标物体表面,能在复杂物理环境中保持更强的攻击效果。

然而,现有对抗伪装方法存在两个核心痛点: 1. 依赖mesh先验和模拟环境:如DAS、FCA、DTA等方法需要目标物体的mesh模型,并依赖CARLA等模拟器构建虚拟环境,获取成本高且与真实世界存在不可避免的域差距(domain gap)。 2. 多视角鲁棒性不足:训练时背景种类有限,优化容易陷入局部最优,导致生成的伪装在不同视角、距离、天气条件下的攻击效果和通用性较差。

近期NeRF被引入对抗攻击领域用于3D建模,但受限于NeRF本身的缺陷——渲染速度慢、质量低、内存需求大,效果有限。3DGS作为一种新型3D表示方法,具备快速精确重建和可微分实时渲染的优势,为物理对抗攻击提供了更好的基础。

核心问题

如何利用3DGS的快速重建和可微渲染能力,仅从少量真实图像出发(无需mesh和模拟器),生成在多视角、多距离、多天气等复杂物理条件下都保持高攻击效果和鲁棒性的对抗伪装?

具体而言,需要同时解决两个技术挑战: - 跨视角一致性问题:vanilla 3DGS中高斯体之间存在互遮挡(mutual occlusion)以及球谐函数引发的自遮挡(self-occlusion),导致不同视角下渲染的伪装图案不一致,破坏对抗效果。 - 多视角鲁棒性问题:有限的训练背景使优化易陷入次优解,难以生成在各种真实环境中普遍有效的对抗特征。

方法详解

整体框架

PGA框架由三个模块组成:

  1. 重建模块(Reconstruction):输入多视角少量图像,通过3DGS训练流程重建目标物体和背景场景的3D高斯体表示 \(\mathcal{G} = \{g_1, g_2, \ldots, g_N\}\)
  2. 渲染模块(Rendering):选择覆盖不同距离、俯仰角、方位角的多个相机视角,通过3DGS光栅化器进行可微渲染,并使用SAM分割出目标物体掩码,将干净背景与对抗伪装区域合成为检测用图像。
  3. 攻击模块(Attack):将合成图像送入目标检测器,计算检测损失并迭代优化高斯体的球谐系数,最终提取对抗伪装纹理部署到物理世界。

整个pipeline实现了从真实图像→3DGS重建→多视角渲染→迭代攻击→物理部署的端到端流程。

关键设计

  1. 跨视角一致性改进(Cross-Viewpoint Consistency)
  2. 解决互遮挡:引入SuGaR的正则化项,在重建阶段将高斯体对齐到物体表面,并鼓励降低不透明度,防止高斯体被优化到物体内部,避免视角变化时其他表面高斯的颜色被遮挡。
  3. 解决自遮挡:高阶球谐函数赋予单个高斯体强大的颜色表达能力,导致同一高斯体的不同区域在视角变化时展现完全不同的颜色。解决方案:在迭代攻击中仅优化零阶球谐系数 \(\langle k \rangle_0\),确保每个高斯体表面颜色变化均匀一致。

  4. Min-Max多视角鲁棒优化(Multi-view Robust Optimization)

  5. 逐视角序列优化:由于多视角优化本质上是通用对抗扰动(UAP)问题,各视角攻击难度不同,PGA对每个视角依次迭代优化,并设定每个视角的迭代上限——一旦成功攻击当前视角则跳过剩余迭代,避免对简单视角的过度优化。
  6. 背景"反攻击":在每次伪装优化迭代前,先对背景添加点级噪声 \(\sigma\),使用I-FGSM优化使检测器恢复正确检测(即max阶段),然后再在此"加强"的背景下优化伪装(即min阶段)。这一min-max策略迫使算法筛除依赖特定背景的非鲁棒对抗特征,保留真正多视角鲁棒的对抗特征。形式化为: $\(\mathcal{G}' = \arg\min_{\mathcal{G}} \max_{\sigma} \mathcal{L}_{\text{det}}(\mathcal{I}_{\text{det}}(\theta_c, \mathcal{G}) + \sigma \cdot (1 - \mathcal{M}))\)$

  7. SAM辅助分割:使用Segment Anything Model提取目标物体掩码,确保对抗扰动仅添加到目标物体区域,背景保持干净。

损失函数 / 训练策略

总体损失函数: $\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{det}}(T(\mathcal{I}_{\text{det}}(\theta_c, \mathcal{G}) + \sigma \cdot (1 - \mathcal{M}))) + \lambda(\text{NPS} + \mathcal{L}_{\text{clr}} + \|\langle k \rangle_0 - \langle k \rangle_0^{\text{ori}}\|_2)\)$

各项含义: - \(\mathcal{L}_{\text{det}}\):检测损失,最小化正确类别在最大IoU框中的置信度 - EoT变换 \(T\):对图像施加随机缩放、对比度、亮度、噪声等增强,提升物理鲁棒性 - NPS(Non-Printability Score):约束伪装颜色接近可打印色域,减小制造误差 - \(\mathcal{L}_{\text{clr}}\)(主色正则化):用K-means从背景中提取top-k主色,约束伪装颜色接近环境主色调,增强视觉隐蔽性 - \(\|\langle k \rangle_0 - \langle k \rangle_0^{\text{ori}}\|_2\):约束攻击前后球谐系数变化幅度

仅更新零阶球谐系数:\(\langle k_{t+1} \rangle_0 = \langle k_t \rangle_0 + \eta \nabla_{\langle k \rangle_0} \mathcal{L}_{\text{total}}\)

实验关键数据

数字域实验(CARLA,AP@0.5 (%) ↓越低攻击越强)

距离 方法 Faster R-CNN YOLO-v5* Mask R-CNN* Def-DETR* 平均
5m Clean ~73 ~73 ~76 ~73 73.72
5m RAUCA 21.71 46.94 31.90 36.54 37.16
5m PGA 4.52 39.10 10.62 28.31 23.46
10m Clean ~89 ~88 ~95 ~91 88.56
10m RAUCA 18.88 56.70 31.00 44.85 39.25
10m PGA 1.40 45.53 8.44 30.89 21.78
20m Clean ~87 ~87 ~99 ~92 90.20
20m RAUCA 37.29 59.34 59.07 48.60 49.50
20m PGA 1.85 43.95 14.60 23.14 20.73

注: 标记为黑盒迁移攻击(白盒训练在Faster R-CNN上)。

俯仰角实验(Faster R-CNN,AP@0.5均值)

方法 20° 30° 40° 50° 60° 平均
Clean 91.30 87.00 88.04 78.70 65.46 82.10
RAUCA 46.36 43.69 46.72 23.47 9.63 33.97
PGA 21.01 4.62 4.11 3.90 0.00 6.73

物理域实验(1:24模型车,AP@0.5)

距离 方法 Faster R-CNN YOLO-v5* Mask R-CNN* Def-DETR* 平均
50cm Clean 86.12 90.71 85.36 89.25 87.86
50cm RAUCA 28.86 50.67 32.09 35.14 36.69
50cm PGA 20.94 50.25 22.35 21.25 28.69
100cm Clean 90.19 92.95 89.32 93.02 91.37
100cm RAUCA 34.61 44.14 35.55 34.70 37.25
100cm PGA 21.77 41.82 23.92 25.54 28.26

1:1真车物理实验

  • Faster R-CNN AP@0.5:88.48% → 25.67%(使用贴纸部署伪装,无人机多视角拍摄)

消融实验要点

一致性改进 Min-Max优化 Faster R-CNN YOLO-v5* Mask R-CNN* Def-DETR* 平均
8.05 50.38 16.33 34.50 27.32
10.23 54.40 20.56 36.82 30.50
3.57 47.24 11.89 28.78 22.87
  • 两个模块贡献互补:一致性改进和min-max优化各自单独使用都有效,组合使用达到最佳
  • Min-Max优化对白盒攻击(Faster R-CNN)提升尤为显著(8.05→3.57)
  • 一致性改进对跨模型迁移效果也有正面影响

亮点

  • 首个3DGS物理攻击框架:彻底摆脱对mesh模型和模拟器的依赖,仅需少量真实照片即可快速建模并攻击任意物体,大幅降低攻击门槛
  • 互遮挡/自遮挡问题分析精准:深入分析了vanilla 3DGS在对抗优化中的两个根本问题,并给出针对性解决方案——SuGaR正则化+仅优化零阶球谐系数,设计简洁且有效
  • Min-Max对抗博弈思路巧妙:通过先"反攻击"背景再优化伪装的两阶段策略,自动过滤依赖特定背景的伪对抗特征,思路可迁移至其他鲁棒优化场景
  • 主色正则化设计实用:从背景提取主色调约束伪装颜色,同时提升视觉隐蔽性和环境适应性
  • 从数字到物理的完整验证链:CARLA模拟→1:24模型车→1:1真车的三级验证极具说服力

局限性 / 可改进方向

  • 白盒攻击转黑盒的迁移性有待提升:从实验数据看,白盒Faster R-CNN上AP可降至1-4%,但迁移到YOLO-v5时仍有40-55%的AP,差距显著
  • 背景噪声预算\(\epsilon\)的选择:论文未充分讨论该超参数的敏感性,过大可能导致伪装难以优化,过小则无法有效过滤非鲁棒特征
  • 对更先进检测器的评估有限:未测试YOLO-v8/v9、RT-DETR等最新检测器
  • 伪装部署方式受限:目前通过贴纸部署,对曲面复杂的物体(如不规则形状)可能存在贴合问题
  • 只优化颜色不优化形状:为便于物理部署仅优化球谐系数,但未探索结合几何扰动的更强攻击
  • 防御视角缺失:未讨论任何可能的防御措施 → 可关联 频域安全防御3DGS idea

与相关工作的对比

对比维度 DAS/FCA/DTA/ACTIVE/TAS RAUCA PGA (本文)
3D建模 需要mesh + 模拟器 需要mesh + 增强神经渲染器 3DGS,仅需少量照片
渲染管道 可微Neural Renderer 增强Neural Renderer 3DGS光栅化器(更快更真实)
跨视角一致性 无特殊处理 天气增强 互遮挡/自遮挡修复
鲁棒性优化 简单数据增强 天气+光照增强 Min-Max对抗训练
白盒攻击(FR-CNN) 32-78% AP 18-37% AP 1-5% AP
物理部署难度 高(需mesh建模) 低(照片→贴纸)

与NeRF-based攻击方法(Adv3D、Huang et al.)相比,PGA继承了3DGS在渲染速度、质量和内存效率上的全面优势。

启发与关联

  1. 频域安全防御3DGS 的直接关联:PGA是进攻方,只优化零阶球谐系数的攻击模式暗示频域防御可能特别有效——如果能检测到零阶球谐系数的异常分布,即可识别此类攻击
  2. Min-Max优化的通用性:该策略不仅适用于对抗伪装,也可迁移到对抗训练、鲁棒特征学习等场景中,用"先干扰背景/context再优化主体"的思路提升优化鲁棒性
  3. 3DGS作为通用攻击工具:论文提到PGA可扩展到红外目标检测攻击,说明3DGS-based攻击框架具有模态无关的通用性
  4. 仅零阶SH优化的发现:暗示3DGS中高阶SH对表面颜色的贡献在安全场景中可能是双刃剑——提供了表达能力但也引入了安全风险

评分

  • 新颖性: ⭐⭐⭐⭐ 首个3DGS物理攻击框架,互遮挡/自遮挡分析有洞见,但min-max思路在对抗训练中已有先例
  • 实验充分度: ⭐⭐⭐⭐⭐ 数字域+物理域多层验证,6个SOTA对比,4个检测器,多距离多角度多天气完整覆盖
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,问题-方案对应明确,图示直观
  • 价值: ⭐⭐⭐⭐ 对自动驾驶安全具有重要参考价值,攻击效果显著,但缺乏防御讨论