跳转至

Spectral Defense Against Resource-Targeting Attack in 3D Gaussian Splatting

会议: CVPR 2026
arXiv: 2603.12796
代码: 无
领域: 3D视觉 / 神经渲染安全
作者: Yang Chen, Yi Yu, Jiaming He, Yueqi Duan, Zheng Zhu, Yap-Peng Tan (NTU, UESTC, 清华, GigaAI, VinUniversity)
关键词: 3D高斯泼溅, 资源瞄准攻击, 频域防御, 频率感知剪枝, 各向异性正则化

一句话总结

提出首个针对3DGS资源瞄准攻击的频域防御框架——联合3D频率感知高斯剪枝与2D角度各向异性正则化,将投毒导致的高斯过增长最多抑制5.92×、峰值显存降3.66×、渲染速度提升4.34×,同时渲染质量反而提升(PSNR +1.93dB)。

背景与动机

3DGS通过自适应致密化(adaptive densification)动态增减高斯基元以匹配场景复杂度。Poison-Splat攻击利用这一机制:向训练图像注入微小扰动(ε-ball约束,默认16/255),构造max-min双层优化问题,诱导3DGS过度致密化→显存爆炸+渲染减速。

现有防御的不足: - 图像平滑: 破坏真实精细结构 - 统一高斯阈值(UT): 无法跨场景泛化,对某些场景过严、对另一些不足 - 效率导向剪枝(LG/PUP): 设计目标是压缩而非鲁棒性,被投毒监督误导后无法区分对抗高斯与真实细节

核心洞察

投毒图像在傅里叶域呈现两个特征性指纹:(1)异常高频放大——干净图像不具备的频段出现显著能量;(2)方向各向异性——高频能量集中在少数角度方向,而自然纹理的高频近似各向同性。这些频域畸变在像素空间视觉上难以察觉,却驱动优化器膨胀噪声高频分量→不稳定高斯过增长。因此攻击根源在于频域行为而非空间结构。

方法详解

整体框架

在3DGS训练循环中联合操作两个域:3D高斯参数空间(频率感知剪枝)+ 2D渲染图像空间(频谱正则化)。算法每迭代:渲染→若达到剪枝间隔则执行3D滤波→计算各向异性损失→联合优化更新高斯集合。

3D 频率滤波器

利用高斯的傅里叶变换性质:协方差矩阵Σ完全决定频率特性(位置μ仅影响相位)。具体步骤:

  1. 高斯频率表示: 3D高斯G(x)的傅里叶变换振幅 γ(t)∝exp(−2π²t⊤Σt),协方差最小特征值σ_min越小→高频衰减越弱→高频响应越强
  2. 频率感知打分: 在固定参考频率t处计算衰减分数 S(G)=exp(−2π²t²σ²_min),再映射为重要性权重 W(G)=(1−S(G))^α。S(G)过大(强高频响应)的高斯被赋予低权重
  3. 可见性加权: 随机采样K*个相机视角,统计每个高斯的射线命中次数hit(G),最终得分 score(G)=W(G)·hit(G)——低分意味着"很少被观测到却有强高频行为"→典型攻击诱导成分
  4. 周期剪枝: 每T_prune=100次迭代,按score排序剪去最低ρ%的高斯

2D 频谱正则化

受害模型仍在投毒视图上优化,仅靠3D剪枝不够。对渲染图像施加频域先验:

  1. 频谱能量提取: 对渲染图V̇做2D DFT,用振幅阈值[γ̇_min, γ̇_max]提取高频带 E(u,v)
  2. 角度分布: 将频率平面[−π,π)离散化为B=36个均匀角度箱,每个箱聚合高频能量E_b,形成归一化概率分布 P_b = E_b/ΣE_j
  3. 各向异性损失: 计算角度能量分布的归一化熵 norm(H) = H/log(B),定义损失 L_ani = 1−norm(H)。干净图像高频近似各向同性→H接近log(B)→损失趋近0;投毒图像高频集中在少数方向→H低→损失大
  4. 跨视图聚合: L_freq = (1/K)Σ L_ani(V̇_k),对所有K个训练视图取平均

联合优化

总损失:L_total = L_recon(V̇,V^p) + λ·(L_freq + L_tv) - L_recon: 标准3DGS重建损失(L1 + D-SSIM) - L_tv: 全变分损失,促进局部平滑抑制像素噪声 - λ: 损失权重,平衡重建与频域正则

实验配置

  • 数据集: Tanks and Temples (21场景)、NeRF-Synthetic (8场景)、Mip-NeRF 360 (9场景)
  • 设备: 单块NVIDIA RTX A6000
  • 超参: t=8, α=2; NS场景 ρ=3%/λ=4, TT场景 ρ=4.5%/λ=4, MIP场景 ρ=5%/λ=5; K*=48, B=36, γ̇∈[0.3,0.9]
  • 攻击强度: 默认ε=16/255; 消融含8/255、24/255、∞

实验关键数据

训练资源抑制(Table 1 平均值)

数据集 指标 干净 投毒 防御后 攻击抑制
TT(21场景) Max高斯(M) 1.751 2.889 (1.65×↑) 1.128 2.56×↓
NS(8场景) Max高斯(M) 0.291 0.720 (2.47×↑) 0.273 2.64×↓
MIP(9场景) Max高斯(M) 3.191 7.045 (2.21×↑) 1.876 3.76×↓
TT平均 峰值显存 7408 11276 6614 1.70×↓
NS平均 峰值显存 2513 9833 4217 2.33×↓
MIP平均 峰值显存 12510 24445 11491 2.13×↓

极端场景

  • MIP-bonsai: 高斯数从6.139M→1.037M (5.92×↓), PSNR从27.14→29.07 (+1.93dB)
  • NS-hotdog: 显存从28124MB→7781MB (3.61×↓)
  • MIP-garden: FPS从48→208 (4.34×↑)
  • NS-chair: FPS从124→455 (3.67×↑)

渲染质量 vs 基线(Table 2 部分)

场景 poison UT▽ LG▽ PUP▽ Ours
TT-Panther PSNR 25.25 17.02 25.09 24.57 25.79
MIP-bonsai PSNR 27.14 22.68 27.05 26.81 29.07
MIP-garden PSNR 24.63 18.99 24.05 23.77 25.13

消融实验要点

  • 3D频率滤波器: t=8/α=2最优; t在4-10范围内结果稳定; ρ=3%/K*=48为最佳平衡点
  • 2D频谱正则: 对超参高度稳健——频率阈值[0.28,0.92]→[0.40,0.85]范围PSNR变动<0.2dB; B=12→72角度箱差异很小
  • 损失权重: λ=4-5最佳; λ过大在NS小场景过度抑制细节(NS-chair λ=5时PSNR降至24.31),但MIP复杂场景需λ=5
  • 攻击强度鲁棒性: ε=8/255→∞全范围有效, ε=∞(无约束攻击)下NS-chair从4.223M→1.855M仍有效
  • 黑盒泛化: 攻击Scaffold-GS作为受害模型,防御仍有效(MIP-bonsai 11.108M→2.011M, 5.52×↓)
  • 干净输入兼容: 在无攻击场景下也能压缩高斯(MIP-bicycle 5.782M→1.339M, 4.32×↓)且不显著损失质量

亮点

  • 首创性: 首次从频域视角分析和防御3DGS资源攻击,揭示投毒的频谱指纹(高频放大+方向各向异性)
  • 防御增益: PSNR反而提升(最高+1.93dB)——因为频率感知剪枝移除的正是噪声高斯
  • 双重价值: 不仅是安全工具,在干净数据上也起到高效压缩作用(类似LightGaussian但有更好的频率判据)
  • 实验覆盖: 3个数据集38个场景 + 多攻击强度 + 黑盒迁移 + 干净输入 + 详细超参消融

局限性 / 可改进方向

  • 核心假设是攻击引入高频各向异性——自适应攻击者若生成各向同性噪声可能绕过2D正则
  • 未考虑accuracy-targeting攻击(如StealthAttack),仅针对resource-targeting
  • 剪枝率按数据集手动设定(NS 3%/TT 4.5%/MIP 5%),未实现自适应调整
  • 频率阈值γ̇_min/γ̇_max为固定值,未与场景复杂度自适应耦合

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 频域防御3DGS攻击的视角全新,数学推导扎实(高斯傅里叶变换→频率感知打分)
  • 实验充分度: ⭐⭐⭐⭐⭐ 38场景×3个setting + 黑盒迁移 + 干净输入 + 8组消融
  • 价值: ⭐⭐⭐⭐ 对3DGS安全部署有重要意义,且方法在无攻击场景下也有实用压缩价值