Spectral Defense Against Resource-Targeting Attack in 3D Gaussian Splatting¶

会议: CVPR 2026
arXiv: 2603.12796
代码: 无
领域: 3D视觉 / 神经渲染安全
作者: Yang Chen, Yi Yu, Jiaming He, Yueqi Duan, Zheng Zhu, Yap-Peng Tan (NTU, UESTC, 清华, GigaAI, VinUniversity)
关键词: 3D高斯泼溅, 资源瞄准攻击, 频域防御, 频率感知剪枝, 各向异性正则化

一句话总结¶

提出首个针对3DGS资源瞄准攻击的频域防御框架——联合3D频率感知高斯剪枝与2D角度各向异性正则化，将投毒导致的高斯过增长最多抑制5.92×、峰值显存降3.66×、渲染速度提升4.34×，同时渲染质量反而提升(PSNR +1.93dB)。

背景与动机¶

3DGS通过自适应致密化(adaptive densification)动态增减高斯基元以匹配场景复杂度。Poison-Splat攻击利用这一机制：向训练图像注入微小扰动（ε-ball约束，默认16/255），构造max-min双层优化问题，诱导3DGS过度致密化→显存爆炸+渲染减速。

现有防御的不足： - 图像平滑: 破坏真实精细结构 - 统一高斯阈值(UT): 无法跨场景泛化，对某些场景过严、对另一些不足 - 效率导向剪枝(LG/PUP): 设计目标是压缩而非鲁棒性，被投毒监督误导后无法区分对抗高斯与真实细节

核心洞察¶

投毒图像在傅里叶域呈现两个特征性指纹：(1)异常高频放大——干净图像不具备的频段出现显著能量；(2)方向各向异性——高频能量集中在少数角度方向，而自然纹理的高频近似各向同性。这些频域畸变在像素空间视觉上难以察觉，却驱动优化器膨胀噪声高频分量→不稳定高斯过增长。因此攻击根源在于频域行为而非空间结构。

方法详解¶

整体框架¶

在3DGS训练循环中联合操作两个域：3D高斯参数空间（频率感知剪枝）+ 2D渲染图像空间（频谱正则化）。算法每迭代：渲染→若达到剪枝间隔则执行3D滤波→计算各向异性损失→联合优化更新高斯集合。

3D 频率滤波器¶

利用高斯的傅里叶变换性质：协方差矩阵Σ完全决定频率特性（位置μ仅影响相位）。具体步骤：

高斯频率表示: 3D高斯G(x)的傅里叶变换振幅 γ(t)∝exp(−2π²t⊤Σt)，协方差最小特征值σ_min越小→高频衰减越弱→高频响应越强
频率感知打分: 在固定参考频率t处计算衰减分数 S(G)=exp(−2π²t²σ²_min)，再映射为重要性权重 W(G)=(1−S(G))^α。S(G)过大(强高频响应)的高斯被赋予低权重
可见性加权: 随机采样K*个相机视角，统计每个高斯的射线命中次数hit(G)，最终得分 score(G)=W(G)·hit(G)——低分意味着"很少被观测到却有强高频行为"→典型攻击诱导成分
周期剪枝: 每T_prune=100次迭代，按score排序剪去最低ρ%的高斯

2D 频谱正则化¶

受害模型仍在投毒视图上优化，仅靠3D剪枝不够。对渲染图像施加频域先验：

频谱能量提取: 对渲染图V̇做2D DFT，用振幅阈值[γ̇_min, γ̇_max]提取高频带 E(u,v)
角度分布: 将频率平面[−π,π)离散化为B=36个均匀角度箱，每个箱聚合高频能量E_b，形成归一化概率分布 P_b = E_b/ΣE_j
各向异性损失: 计算角度能量分布的归一化熵 norm(H) = H/log(B)，定义损失 L_ani = 1−norm(H)。干净图像高频近似各向同性→H接近log(B)→损失趋近0；投毒图像高频集中在少数方向→H低→损失大
跨视图聚合: L_freq = (1/K)Σ L_ani(V̇_k)，对所有K个训练视图取平均

联合优化¶

总损失：L_total = L_recon(V̇,V^p) + λ·(L_freq + L_tv) - L_recon: 标准3DGS重建损失(L1 + D-SSIM) - L_tv: 全变分损失，促进局部平滑抑制像素噪声 - λ: 损失权重，平衡重建与频域正则

实验配置¶

数据集: Tanks and Temples (21场景)、NeRF-Synthetic (8场景)、Mip-NeRF 360 (9场景)
设备: 单块NVIDIA RTX A6000
超参: t=8, α=2; NS场景 ρ=3%/λ=4, TT场景 ρ=4.5%/λ=4, MIP场景 ρ=5%/λ=5; K*=48, B=36, γ̇∈[0.3,0.9]
攻击强度: 默认ε=16/255; 消融含8/255、24/255、∞

实验关键数据¶

训练资源抑制（Table 1 平均值）¶

数据集	指标	干净	投毒	防御后	攻击抑制
TT(21场景)	Max高斯(M)	1.751	2.889 (1.65×↑)	1.128	2.56×↓
NS(8场景)	Max高斯(M)	0.291	0.720 (2.47×↑)	0.273	2.64×↓
MIP(9场景)	Max高斯(M)	3.191	7.045 (2.21×↑)	1.876	3.76×↓
TT平均	峰值显存	7408	11276	6614	1.70×↓
NS平均	峰值显存	2513	9833	4217	2.33×↓
MIP平均	峰值显存	12510	24445	11491	2.13×↓

极端场景¶

MIP-bonsai: 高斯数从6.139M→1.037M (5.92×↓), PSNR从27.14→29.07 (+1.93dB)
NS-hotdog: 显存从28124MB→7781MB (3.61×↓)
MIP-garden: FPS从48→208 (4.34×↑)
NS-chair: FPS从124→455 (3.67×↑)

渲染质量 vs 基线（Table 2 部分）¶

场景	poison	UT▽	LG▽	PUP▽	Ours
TT-Panther PSNR	25.25	17.02	25.09	24.57	25.79
MIP-bonsai PSNR	27.14	22.68	27.05	26.81	29.07
MIP-garden PSNR	24.63	18.99	24.05	23.77	25.13

消融实验要点¶

3D频率滤波器: t=8/α=2最优; t在4-10范围内结果稳定; ρ=3%/K*=48为最佳平衡点
2D频谱正则: 对超参高度稳健——频率阈值[0.28,0.92]→[0.40,0.85]范围PSNR变动<0.2dB; B=12→72角度箱差异很小
损失权重: λ=4-5最佳; λ过大在NS小场景过度抑制细节(NS-chair λ=5时PSNR降至24.31)，但MIP复杂场景需λ=5
攻击强度鲁棒性: ε=8/255→∞全范围有效, ε=∞(无约束攻击)下NS-chair从4.223M→1.855M仍有效
黑盒泛化: 攻击Scaffold-GS作为受害模型，防御仍有效(MIP-bonsai 11.108M→2.011M, 5.52×↓)
干净输入兼容: 在无攻击场景下也能压缩高斯(MIP-bicycle 5.782M→1.339M, 4.32×↓)且不显著损失质量

亮点¶

首创性: 首次从频域视角分析和防御3DGS资源攻击，揭示投毒的频谱指纹(高频放大+方向各向异性)
防御增益: PSNR反而提升(最高+1.93dB)——因为频率感知剪枝移除的正是噪声高斯
双重价值: 不仅是安全工具，在干净数据上也起到高效压缩作用(类似LightGaussian但有更好的频率判据)
实验覆盖: 3个数据集38个场景 + 多攻击强度 + 黑盒迁移 + 干净输入 + 详细超参消融

局限性 / 可改进方向¶

核心假设是攻击引入高频各向异性——自适应攻击者若生成各向同性噪声可能绕过2D正则
未考虑accuracy-targeting攻击（如StealthAttack），仅针对resource-targeting
剪枝率按数据集手动设定(NS 3%/TT 4.5%/MIP 5%)，未实现自适应调整
频率阈值γ̇_min/γ̇_max为固定值，未与场景复杂度自适应耦合

评分¶

新颖性: ⭐⭐⭐⭐⭐ 频域防御3DGS攻击的视角全新，数学推导扎实(高斯傅里叶变换→频率感知打分)
实验充分度: ⭐⭐⭐⭐⭐ 38场景×3个setting + 黑盒迁移 + 干净输入 + 8组消融
价值: ⭐⭐⭐⭐ 对3DGS安全部署有重要意义，且方法在无攻击场景下也有实用压缩价值