Spectral Defense Against Resource-Targeting Attack in 3D Gaussian Splatting¶
会议: CVPR 2026
arXiv: 2603.12796
代码: 无
领域: 3D视觉 / 神经渲染安全
作者: Yang Chen, Yi Yu, Jiaming He, Yueqi Duan, Zheng Zhu, Yap-Peng Tan (NTU, UESTC, 清华, GigaAI, VinUniversity)
关键词: 3D高斯泼溅, 资源瞄准攻击, 频域防御, 频率感知剪枝, 各向异性正则化
一句话总结¶
提出首个针对3DGS资源瞄准攻击的频域防御框架——联合3D频率感知高斯剪枝与2D角度各向异性正则化,将投毒导致的高斯过增长最多抑制5.92×、峰值显存降3.66×、渲染速度提升4.34×,同时渲染质量反而提升(PSNR +1.93dB)。
背景与动机¶
3DGS通过自适应致密化(adaptive densification)动态增减高斯基元以匹配场景复杂度。Poison-Splat攻击利用这一机制:向训练图像注入微小扰动(ε-ball约束,默认16/255),构造max-min双层优化问题,诱导3DGS过度致密化→显存爆炸+渲染减速。
现有防御的不足: - 图像平滑: 破坏真实精细结构 - 统一高斯阈值(UT): 无法跨场景泛化,对某些场景过严、对另一些不足 - 效率导向剪枝(LG/PUP): 设计目标是压缩而非鲁棒性,被投毒监督误导后无法区分对抗高斯与真实细节
核心洞察¶
投毒图像在傅里叶域呈现两个特征性指纹:(1)异常高频放大——干净图像不具备的频段出现显著能量;(2)方向各向异性——高频能量集中在少数角度方向,而自然纹理的高频近似各向同性。这些频域畸变在像素空间视觉上难以察觉,却驱动优化器膨胀噪声高频分量→不稳定高斯过增长。因此攻击根源在于频域行为而非空间结构。
方法详解¶
整体框架¶
在3DGS训练循环中联合操作两个域:3D高斯参数空间(频率感知剪枝)+ 2D渲染图像空间(频谱正则化)。算法每迭代:渲染→若达到剪枝间隔则执行3D滤波→计算各向异性损失→联合优化更新高斯集合。
3D 频率滤波器¶
利用高斯的傅里叶变换性质:协方差矩阵Σ完全决定频率特性(位置μ仅影响相位)。具体步骤:
- 高斯频率表示: 3D高斯G(x)的傅里叶变换振幅 γ(t)∝exp(−2π²t⊤Σt),协方差最小特征值σ_min越小→高频衰减越弱→高频响应越强
- 频率感知打分: 在固定参考频率t处计算衰减分数 S(G)=exp(−2π²t²σ²_min),再映射为重要性权重 W(G)=(1−S(G))^α。S(G)过大(强高频响应)的高斯被赋予低权重
- 可见性加权: 随机采样K*个相机视角,统计每个高斯的射线命中次数hit(G),最终得分 score(G)=W(G)·hit(G)——低分意味着"很少被观测到却有强高频行为"→典型攻击诱导成分
- 周期剪枝: 每T_prune=100次迭代,按score排序剪去最低ρ%的高斯
2D 频谱正则化¶
受害模型仍在投毒视图上优化,仅靠3D剪枝不够。对渲染图像施加频域先验:
- 频谱能量提取: 对渲染图V̇做2D DFT,用振幅阈值[γ̇_min, γ̇_max]提取高频带 E(u,v)
- 角度分布: 将频率平面[−π,π)离散化为B=36个均匀角度箱,每个箱聚合高频能量E_b,形成归一化概率分布 P_b = E_b/ΣE_j
- 各向异性损失: 计算角度能量分布的归一化熵 norm(H) = H/log(B),定义损失 L_ani = 1−norm(H)。干净图像高频近似各向同性→H接近log(B)→损失趋近0;投毒图像高频集中在少数方向→H低→损失大
- 跨视图聚合: L_freq = (1/K)Σ L_ani(V̇_k),对所有K个训练视图取平均
联合优化¶
总损失:L_total = L_recon(V̇,V^p) + λ·(L_freq + L_tv) - L_recon: 标准3DGS重建损失(L1 + D-SSIM) - L_tv: 全变分损失,促进局部平滑抑制像素噪声 - λ: 损失权重,平衡重建与频域正则
实验配置¶
- 数据集: Tanks and Temples (21场景)、NeRF-Synthetic (8场景)、Mip-NeRF 360 (9场景)
- 设备: 单块NVIDIA RTX A6000
- 超参: t=8, α=2; NS场景 ρ=3%/λ=4, TT场景 ρ=4.5%/λ=4, MIP场景 ρ=5%/λ=5; K*=48, B=36, γ̇∈[0.3,0.9]
- 攻击强度: 默认ε=16/255; 消融含8/255、24/255、∞
实验关键数据¶
训练资源抑制(Table 1 平均值)¶
| 数据集 | 指标 | 干净 | 投毒 | 防御后 | 攻击抑制 |
|---|---|---|---|---|---|
| TT(21场景) | Max高斯(M) | 1.751 | 2.889 (1.65×↑) | 1.128 | 2.56×↓ |
| NS(8场景) | Max高斯(M) | 0.291 | 0.720 (2.47×↑) | 0.273 | 2.64×↓ |
| MIP(9场景) | Max高斯(M) | 3.191 | 7.045 (2.21×↑) | 1.876 | 3.76×↓ |
| TT平均 | 峰值显存 | 7408 | 11276 | 6614 | 1.70×↓ |
| NS平均 | 峰值显存 | 2513 | 9833 | 4217 | 2.33×↓ |
| MIP平均 | 峰值显存 | 12510 | 24445 | 11491 | 2.13×↓ |
极端场景¶
- MIP-bonsai: 高斯数从6.139M→1.037M (5.92×↓), PSNR从27.14→29.07 (+1.93dB)
- NS-hotdog: 显存从28124MB→7781MB (3.61×↓)
- MIP-garden: FPS从48→208 (4.34×↑)
- NS-chair: FPS从124→455 (3.67×↑)
渲染质量 vs 基线(Table 2 部分)¶
| 场景 | poison | UT▽ | LG▽ | PUP▽ | Ours |
|---|---|---|---|---|---|
| TT-Panther PSNR | 25.25 | 17.02 | 25.09 | 24.57 | 25.79 |
| MIP-bonsai PSNR | 27.14 | 22.68 | 27.05 | 26.81 | 29.07 |
| MIP-garden PSNR | 24.63 | 18.99 | 24.05 | 23.77 | 25.13 |
消融实验要点¶
- 3D频率滤波器: t=8/α=2最优; t在4-10范围内结果稳定; ρ=3%/K*=48为最佳平衡点
- 2D频谱正则: 对超参高度稳健——频率阈值[0.28,0.92]→[0.40,0.85]范围PSNR变动<0.2dB; B=12→72角度箱差异很小
- 损失权重: λ=4-5最佳; λ过大在NS小场景过度抑制细节(NS-chair λ=5时PSNR降至24.31),但MIP复杂场景需λ=5
- 攻击强度鲁棒性: ε=8/255→∞全范围有效, ε=∞(无约束攻击)下NS-chair从4.223M→1.855M仍有效
- 黑盒泛化: 攻击Scaffold-GS作为受害模型,防御仍有效(MIP-bonsai 11.108M→2.011M, 5.52×↓)
- 干净输入兼容: 在无攻击场景下也能压缩高斯(MIP-bicycle 5.782M→1.339M, 4.32×↓)且不显著损失质量
亮点¶
- 首创性: 首次从频域视角分析和防御3DGS资源攻击,揭示投毒的频谱指纹(高频放大+方向各向异性)
- 防御增益: PSNR反而提升(最高+1.93dB)——因为频率感知剪枝移除的正是噪声高斯
- 双重价值: 不仅是安全工具,在干净数据上也起到高效压缩作用(类似LightGaussian但有更好的频率判据)
- 实验覆盖: 3个数据集38个场景 + 多攻击强度 + 黑盒迁移 + 干净输入 + 详细超参消融
局限性 / 可改进方向¶
- 核心假设是攻击引入高频各向异性——自适应攻击者若生成各向同性噪声可能绕过2D正则
- 未考虑accuracy-targeting攻击(如StealthAttack),仅针对resource-targeting
- 剪枝率按数据集手动设定(NS 3%/TT 4.5%/MIP 5%),未实现自适应调整
- 频率阈值γ̇_min/γ̇_max为固定值,未与场景复杂度自适应耦合
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 频域防御3DGS攻击的视角全新,数学推导扎实(高斯傅里叶变换→频率感知打分)
- 实验充分度: ⭐⭐⭐⭐⭐ 38场景×3个setting + 黑盒迁移 + 干净输入 + 8组消融
- 价值: ⭐⭐⭐⭐ 对3DGS安全部署有重要意义,且方法在无攻击场景下也有实用压缩价值