3D Gaussian Splatting Driven Multi-View Robust Physical Adversarial Camouflage Generation¶
会议: ICCV 2025
arXiv: 2507.01367
代码: https://github.com/TRLou/PGA (有)
领域: 3D视觉 / 对抗攻击 / 物理安全
关键词: 3D Gaussian Splatting, 物理对抗攻击, 对抗伪装, 多视角鲁棒性, 自动驾驶安全
一句话总结¶
提出首个基于3D高斯体(3DGS)的物理对抗攻击框架PGA,通过解决高斯体的互遮挡和自遮挡问题保证跨视角一致性,并设计min-max优化策略过滤非鲁棒对抗特征,在数字域和物理域均大幅超越SOTA方法。
背景与动机¶
物理对抗攻击是揭示深度神经网络脆弱性的重要手段,尤其在自动驾驶等安全关键场景中具有重大威胁。相比对抗patch,对抗伪装(adversarial camouflage)覆盖整个目标物体表面,能在复杂物理环境中保持更强的攻击效果。
然而,现有对抗伪装方法存在两个核心痛点: 1. 依赖mesh先验和模拟环境:如DAS、FCA、DTA等方法需要目标物体的mesh模型,并依赖CARLA等模拟器构建虚拟环境,获取成本高且与真实世界存在不可避免的域差距(domain gap)。 2. 多视角鲁棒性不足:训练时背景种类有限,优化容易陷入局部最优,导致生成的伪装在不同视角、距离、天气条件下的攻击效果和通用性较差。
近期NeRF被引入对抗攻击领域用于3D建模,但受限于NeRF本身的缺陷——渲染速度慢、质量低、内存需求大,效果有限。3DGS作为一种新型3D表示方法,具备快速精确重建和可微分实时渲染的优势,为物理对抗攻击提供了更好的基础。
核心问题¶
如何利用3DGS的快速重建和可微渲染能力,仅从少量真实图像出发(无需mesh和模拟器),生成在多视角、多距离、多天气等复杂物理条件下都保持高攻击效果和鲁棒性的对抗伪装?
具体而言,需要同时解决两个技术挑战: - 跨视角一致性问题:vanilla 3DGS中高斯体之间存在互遮挡(mutual occlusion)以及球谐函数引发的自遮挡(self-occlusion),导致不同视角下渲染的伪装图案不一致,破坏对抗效果。 - 多视角鲁棒性问题:有限的训练背景使优化易陷入次优解,难以生成在各种真实环境中普遍有效的对抗特征。
方法详解¶
整体框架¶
PGA框架由三个模块组成:
- 重建模块(Reconstruction):输入多视角少量图像,通过3DGS训练流程重建目标物体和背景场景的3D高斯体表示 \(\mathcal{G} = \{g_1, g_2, \ldots, g_N\}\)。
- 渲染模块(Rendering):选择覆盖不同距离、俯仰角、方位角的多个相机视角,通过3DGS光栅化器进行可微渲染,并使用SAM分割出目标物体掩码,将干净背景与对抗伪装区域合成为检测用图像。
- 攻击模块(Attack):将合成图像送入目标检测器,计算检测损失并迭代优化高斯体的球谐系数,最终提取对抗伪装纹理部署到物理世界。
整个pipeline实现了从真实图像→3DGS重建→多视角渲染→迭代攻击→物理部署的端到端流程。
关键设计¶
- 跨视角一致性改进(Cross-Viewpoint Consistency)
- 解决互遮挡:引入SuGaR的正则化项,在重建阶段将高斯体对齐到物体表面,并鼓励降低不透明度,防止高斯体被优化到物体内部,避免视角变化时其他表面高斯的颜色被遮挡。
-
解决自遮挡:高阶球谐函数赋予单个高斯体强大的颜色表达能力,导致同一高斯体的不同区域在视角变化时展现完全不同的颜色。解决方案:在迭代攻击中仅优化零阶球谐系数 \(\langle k \rangle_0\),确保每个高斯体表面颜色变化均匀一致。
-
Min-Max多视角鲁棒优化(Multi-view Robust Optimization)
- 逐视角序列优化:由于多视角优化本质上是通用对抗扰动(UAP)问题,各视角攻击难度不同,PGA对每个视角依次迭代优化,并设定每个视角的迭代上限——一旦成功攻击当前视角则跳过剩余迭代,避免对简单视角的过度优化。
-
背景"反攻击":在每次伪装优化迭代前,先对背景添加点级噪声 \(\sigma\),使用I-FGSM优化使检测器恢复正确检测(即max阶段),然后再在此"加强"的背景下优化伪装(即min阶段)。这一min-max策略迫使算法筛除依赖特定背景的非鲁棒对抗特征,保留真正多视角鲁棒的对抗特征。形式化为: $\(\mathcal{G}' = \arg\min_{\mathcal{G}} \max_{\sigma} \mathcal{L}_{\text{det}}(\mathcal{I}_{\text{det}}(\theta_c, \mathcal{G}) + \sigma \cdot (1 - \mathcal{M}))\)$
-
SAM辅助分割:使用Segment Anything Model提取目标物体掩码,确保对抗扰动仅添加到目标物体区域,背景保持干净。
损失函数 / 训练策略¶
总体损失函数: $\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{det}}(T(\mathcal{I}_{\text{det}}(\theta_c, \mathcal{G}) + \sigma \cdot (1 - \mathcal{M}))) + \lambda(\text{NPS} + \mathcal{L}_{\text{clr}} + \|\langle k \rangle_0 - \langle k \rangle_0^{\text{ori}}\|_2)\)$
各项含义: - \(\mathcal{L}_{\text{det}}\):检测损失,最小化正确类别在最大IoU框中的置信度 - EoT变换 \(T\):对图像施加随机缩放、对比度、亮度、噪声等增强,提升物理鲁棒性 - NPS(Non-Printability Score):约束伪装颜色接近可打印色域,减小制造误差 - \(\mathcal{L}_{\text{clr}}\)(主色正则化):用K-means从背景中提取top-k主色,约束伪装颜色接近环境主色调,增强视觉隐蔽性 - \(\|\langle k \rangle_0 - \langle k \rangle_0^{\text{ori}}\|_2\):约束攻击前后球谐系数变化幅度
仅更新零阶球谐系数:\(\langle k_{t+1} \rangle_0 = \langle k_t \rangle_0 + \eta \nabla_{\langle k \rangle_0} \mathcal{L}_{\text{total}}\)
实验关键数据¶
数字域实验(CARLA,AP@0.5 (%) ↓越低攻击越强)¶
| 距离 | 方法 | Faster R-CNN | YOLO-v5* | Mask R-CNN* | Def-DETR* | 平均 |
|---|---|---|---|---|---|---|
| 5m | Clean | ~73 | ~73 | ~76 | ~73 | 73.72 |
| 5m | RAUCA | 21.71 | 46.94 | 31.90 | 36.54 | 37.16 |
| 5m | PGA | 4.52 | 39.10 | 10.62 | 28.31 | 23.46 |
| 10m | Clean | ~89 | ~88 | ~95 | ~91 | 88.56 |
| 10m | RAUCA | 18.88 | 56.70 | 31.00 | 44.85 | 39.25 |
| 10m | PGA | 1.40 | 45.53 | 8.44 | 30.89 | 21.78 |
| 20m | Clean | ~87 | ~87 | ~99 | ~92 | 90.20 |
| 20m | RAUCA | 37.29 | 59.34 | 59.07 | 48.60 | 49.50 |
| 20m | PGA | 1.85 | 43.95 | 14.60 | 23.14 | 20.73 |
注: 标记为黑盒迁移攻击(白盒训练在Faster R-CNN上)。
俯仰角实验(Faster R-CNN,AP@0.5均值)¶
| 方法 | 20° | 30° | 40° | 50° | 60° | 平均 |
|---|---|---|---|---|---|---|
| Clean | 91.30 | 87.00 | 88.04 | 78.70 | 65.46 | 82.10 |
| RAUCA | 46.36 | 43.69 | 46.72 | 23.47 | 9.63 | 33.97 |
| PGA | 21.01 | 4.62 | 4.11 | 3.90 | 0.00 | 6.73 |
物理域实验(1:24模型车,AP@0.5)¶
| 距离 | 方法 | Faster R-CNN | YOLO-v5* | Mask R-CNN* | Def-DETR* | 平均 |
|---|---|---|---|---|---|---|
| 50cm | Clean | 86.12 | 90.71 | 85.36 | 89.25 | 87.86 |
| 50cm | RAUCA | 28.86 | 50.67 | 32.09 | 35.14 | 36.69 |
| 50cm | PGA | 20.94 | 50.25 | 22.35 | 21.25 | 28.69 |
| 100cm | Clean | 90.19 | 92.95 | 89.32 | 93.02 | 91.37 |
| 100cm | RAUCA | 34.61 | 44.14 | 35.55 | 34.70 | 37.25 |
| 100cm | PGA | 21.77 | 41.82 | 23.92 | 25.54 | 28.26 |
1:1真车物理实验¶
- Faster R-CNN AP@0.5:88.48% → 25.67%(使用贴纸部署伪装,无人机多视角拍摄)
消融实验要点¶
| 一致性改进 | Min-Max优化 | Faster R-CNN | YOLO-v5* | Mask R-CNN* | Def-DETR* | 平均 |
|---|---|---|---|---|---|---|
| ✗ | ✓ | 8.05 | 50.38 | 16.33 | 34.50 | 27.32 |
| ✓ | ✗ | 10.23 | 54.40 | 20.56 | 36.82 | 30.50 |
| ✓ | ✓ | 3.57 | 47.24 | 11.89 | 28.78 | 22.87 |
- 两个模块贡献互补:一致性改进和min-max优化各自单独使用都有效,组合使用达到最佳
- Min-Max优化对白盒攻击(Faster R-CNN)提升尤为显著(8.05→3.57)
- 一致性改进对跨模型迁移效果也有正面影响
亮点¶
- 首个3DGS物理攻击框架:彻底摆脱对mesh模型和模拟器的依赖,仅需少量真实照片即可快速建模并攻击任意物体,大幅降低攻击门槛
- 互遮挡/自遮挡问题分析精准:深入分析了vanilla 3DGS在对抗优化中的两个根本问题,并给出针对性解决方案——SuGaR正则化+仅优化零阶球谐系数,设计简洁且有效
- Min-Max对抗博弈思路巧妙:通过先"反攻击"背景再优化伪装的两阶段策略,自动过滤依赖特定背景的伪对抗特征,思路可迁移至其他鲁棒优化场景
- 主色正则化设计实用:从背景提取主色调约束伪装颜色,同时提升视觉隐蔽性和环境适应性
- 从数字到物理的完整验证链:CARLA模拟→1:24模型车→1:1真车的三级验证极具说服力
局限性 / 可改进方向¶
- 白盒攻击转黑盒的迁移性有待提升:从实验数据看,白盒Faster R-CNN上AP可降至1-4%,但迁移到YOLO-v5时仍有40-55%的AP,差距显著
- 背景噪声预算\(\epsilon\)的选择:论文未充分讨论该超参数的敏感性,过大可能导致伪装难以优化,过小则无法有效过滤非鲁棒特征
- 对更先进检测器的评估有限:未测试YOLO-v8/v9、RT-DETR等最新检测器
- 伪装部署方式受限:目前通过贴纸部署,对曲面复杂的物体(如不规则形状)可能存在贴合问题
- 只优化颜色不优化形状:为便于物理部署仅优化球谐系数,但未探索结合几何扰动的更强攻击
- 防御视角缺失:未讨论任何可能的防御措施 → 可关联 频域安全防御3DGS idea
与相关工作的对比¶
| 对比维度 | DAS/FCA/DTA/ACTIVE/TAS | RAUCA | PGA (本文) |
|---|---|---|---|
| 3D建模 | 需要mesh + 模拟器 | 需要mesh + 增强神经渲染器 | 3DGS,仅需少量照片 |
| 渲染管道 | 可微Neural Renderer | 增强Neural Renderer | 3DGS光栅化器(更快更真实) |
| 跨视角一致性 | 无特殊处理 | 天气增强 | 互遮挡/自遮挡修复 |
| 鲁棒性优化 | 简单数据增强 | 天气+光照增强 | Min-Max对抗训练 |
| 白盒攻击(FR-CNN) | 32-78% AP | 18-37% AP | 1-5% AP |
| 物理部署难度 | 高(需mesh建模) | 高 | 低(照片→贴纸) |
与NeRF-based攻击方法(Adv3D、Huang et al.)相比,PGA继承了3DGS在渲染速度、质量和内存效率上的全面优势。
启发与关联¶
- 与 频域安全防御3DGS 的直接关联:PGA是进攻方,只优化零阶球谐系数的攻击模式暗示频域防御可能特别有效——如果能检测到零阶球谐系数的异常分布,即可识别此类攻击
- Min-Max优化的通用性:该策略不仅适用于对抗伪装,也可迁移到对抗训练、鲁棒特征学习等场景中,用"先干扰背景/context再优化主体"的思路提升优化鲁棒性
- 3DGS作为通用攻击工具:论文提到PGA可扩展到红外目标检测攻击,说明3DGS-based攻击框架具有模态无关的通用性
- 仅零阶SH优化的发现:暗示3DGS中高阶SH对表面颜色的贡献在安全场景中可能是双刃剑——提供了表达能力但也引入了安全风险
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个3DGS物理攻击框架,互遮挡/自遮挡分析有洞见,但min-max思路在对抗训练中已有先例
- 实验充分度: ⭐⭐⭐⭐⭐ 数字域+物理域多层验证,6个SOTA对比,4个检测器,多距离多角度多天气完整覆盖
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,问题-方案对应明确,图示直观
- 价值: ⭐⭐⭐⭐ 对自动驾驶安全具有重要参考价值,攻击效果显著,但缺乏防御讨论