Temporal Smoothness-Aware Rate-Distortion Optimized 4D Gaussian Splatting¶

会议: NeurIPS 2025
arXiv: 2507.17336
代码: https://github.com/HyeongminLEE/RD4DGS (有)
领域: 3D Vision / Neural Rendering
关键词: 4D高斯泼溅, 率失真优化, 小波变换, 时序压缩, 动态场景

一句话总结¶

提出首个端到端率失真（RD）优化的 4D 高斯泼溅压缩框架，通过 Haar 小波变换利用动态点轨迹的时序平滑先验，在 Ex4DGS 基础上实现高达 91× 的压缩率（平均模型仅约原始 1.1%），同时保持合理的渲染质量和灵活的率-质量权衡控制。

研究背景与动机¶

4D 高斯泼溅（4DGS）将 3DGS 的高速渲染能力扩展到动态场景，但面临严重的存储问题：（1）大量高斯基元需要存储位置、协方差、颜色（球谐系数）等参数；（2）动态点在各时间帧独立存储，产生大量时序冗余；（3）现有的 4DGS 压缩方法缺少熵感知的比特级压缩框架，无法进行灵活的率失真优化。

虽然 3DGS 的压缩已有较好进展（如 Compact3DGS、HAC++、RD3DGS），但 4DGS 面临额外挑战：时序维度引入的冗余需要专门的压缩策略。现有 4DGS 压缩工作（如 Light4GS、QUEEN）或未显式优化熵，或目标不同（逐帧流式压缩），4DGS 的端到端 RD 优化仍是空白。

本文的核心 idea：利用动态点运动轨迹的平滑先验——现实世界中物体运动通常是平滑的，可以用小波变换有效表示。通过 Haar 小波变换丢弃高频细节系数，大幅减少动态位置的存储需求，同时结合掩码剪枝、向量量化等标准技术进行全面压缩。

方法详解¶

整体框架¶

以 Ex4DGS（全显式 4D 高斯泼溅）为基线，将场景分解为静态和动态两部分。对两者共有的参数（球谐系数、旋转、尺度）采用标准 3DGS 压缩方法；对动态特有的位置轨迹，引入小波变换进行时域压缩；对不透明度的各分量进行差异化量化策略。整体通过端到端 RD 优化联合学习。

关键设计¶

高斯基元和球谐系数剪枝：
- 使用可学习掩码 ϕ_i，通过 sigmoid 生成软掩码、STE 二值化为硬掩码
- 基元剪枝代价：L_GSprune = (1/N)Σϕ_i^soft
- 球谐系数按度数分层剪枝：θ_i^(l) 对应 l≥1 阶系数，加权因子 (2l+1)/((k+1)²-1) 使高阶系数更容易被剪枝
- 对静态和动态高斯统一应用
小波变换压缩动态位置（核心创新）：
- 对每个动态点的位置轨迹 μ_d = [p₁, p₂, ..., p_T]^T ∈ R^{T×3} 沿时间轴做单层 Haar 小波变换
- 分解为近似系数 F_a ∈ R^{T/2×3}（低频/粗运动）和细节系数 F_d ∈ R^{T/2×3}（高频）
- 显式丢弃 F_d（置零），仅保留 F_a
- 重建：通过逆 Haar 变换（正交矩阵转置）恢复 μ̂_d
- 直觉：运动轨迹通常平滑，低频分量包含主要信息，高频细节可被牺牲
- 存储从 T×3 降低到 T/2×3，同时实验证明渲染质量甚至略有提升（PSNR +0.19 dB at Level 1）
差异化不透明度量化：
- Ex4DGS 用两个高斯混合模型参数化动态不透明度：中心参数 (a_s^o, a_f^o) 和方差参数 (b_s^o, b_f^o)
- 通过消融发现：静态/动态基础不透明度和中心参数对量化不敏感，可安全量化
- 方差参数 (b_s^o, b_f^o) 对量化极其敏感——量化后 PSNR 从 29.57→28.52（Level 6），但额外压缩仅 1.57%
- 因此策略是：量化 α_s, α_d, a_^o，但跳过 b_^o
端到端率失真优化：
- 总损失：L_total = L_dist + λ_R · L_rate + λ_reg · L_reg
- L_dist = (1-λ_dssim)·L1 + λ_dssim·(1-SSIM)
- L_rate 聚合所有比特率开销：VQ 索引熵、掩码剪枝代价等
- L_reg 来自 Ex4DGS 的正则项（静态位移惩罚、时序平滑性）
- 通过调整 λ_GSprune 和 λ_SHprune 定义 6 个压缩等级

损失函数 / 训练策略¶

两阶段训练：先用 Ex4DGS 标准流程训练基础模型（~1小时），然后加入 RD 优化层（剪枝、ECVQ、小波变换）再训练 ~1 小时。6 个压缩等级通过调整剪枝超参实现：λ_GSprune ∈ [0.05, 0.0005]，λ_SHprune ∈ [0.5, 0.005]。

实验关键数据¶

主实验¶

方法	PSNR (dB) ↑	大小 (MB) ↓	FPS ↑	压缩比
Ex4DGS (N3V)	32.11	115	72.3	1×
本文 Level 6	29.66	11.06	100.9	10.4×
本文 Level 1	27.04	1.26	163.0	91.3×
Ex4DGS (Technicolor)	33.62	140.2	72.3	1×
本文 Level 6	32.20	19.6	113.1	7.2×
本文 Level 1	28.60	2.1	213.9	66.8×

消融实验¶

配置	PSNR (L1)	大小 (L1)	PSNR (L6)	大小 (L6)	说明
无小波	27.20	2.01	30.17	19.87	基线 RD 压缩
+小波变换	27.39	1.63	30.26	14.67	+0.19dB/-19% (L1)
小波 Level 2 (1/4)	26.89	1.36	28.47	11.35	更激进但RD曲线更差
小波 Level 3 (1/8)	26.43	1.16	27.74	9.80	过度压缩

关键发现¶

小波变换同时改善质量和压缩：这是反直觉的——丢弃高频分量不仅减小模型，还提升了 PSNR（0.09-0.19 dB），说明高频噪声的去除反而改善了轨迹建模精度
更深层的小波分解（Level 2/3）虽然进一步缩小模型，但 RD 曲线不优于单层小波，表明单层是最佳权衡
Level 6 尺寸（11 MB）小于 4DGaussians（34 MB），但 PSNR 更高（29.66 vs 28.63）
Level 1 以 1.26 MB 实现 163 FPS 的实时渲染，适合边缘设备

亮点与洞察¶

首个 4DGS 的比特级 RD 优化框架：填补了动态高斯泼溅端到端压缩的空白
小波变换的巧妙应用：利用运动轨迹的物理先验（平滑性），将信号处理工具引入 3D 表示压缩
差异化量化策略：不是对所有参数一视同仁，而是通过消融发现不同参数对量化的敏感度差异巨大，量化方差参数的成本收益极不划算
提供 6 级灵活压缩控制，用户可根据部署平台选择合适的率-质量权衡点

局限与展望¶

小波变换丢弃高频的策略对快速运动物体会产生运动模糊伪影
动态点仍占存储的较大比例（Appendix G/H），动态分量的压缩还有很大改进空间
可能对静态和动态点使用不同的剪枝权重来进一步优化
基于 Ex4DGS 的框架限制——核心 RD 优化原则可推广到其他 4DGS 模型
RD 曲线的高保真端（接近原始质量）还有提升空间

评分¶

新颖性: ⭐⭐⭐⭐ 首个 4DGS 的 RD 优化框架，小波变换的引入有见地
实验充分度: ⭐⭐⭐⭐⭐ N3V 和 Technicolor 两个数据集、6 个压缩等级、详尽的消融研究
写作质量: ⭐⭐⭐⭐ 方法描述清晰，消融分析有说服力
价值: ⭐⭐⭐⭐ 使 4DGS 实际可部署到边缘设备，填补了重要的技术空白