Temporal Smoothness-Aware Rate-Distortion Optimized 4D Gaussian Splatting¶
会议: NeurIPS 2025
arXiv: 2507.17336
代码: https://github.com/HyeongminLEE/RD4DGS (有)
领域: 3D Vision / Neural Rendering
关键词: 4D高斯泼溅, 率失真优化, 小波变换, 时序压缩, 动态场景
一句话总结¶
提出首个端到端率失真(RD)优化的 4D 高斯泼溅压缩框架,通过 Haar 小波变换利用动态点轨迹的时序平滑先验,在 Ex4DGS 基础上实现高达 91× 的压缩率(平均模型仅约原始 1.1%),同时保持合理的渲染质量和灵活的率-质量权衡控制。
研究背景与动机¶
4D 高斯泼溅(4DGS)将 3DGS 的高速渲染能力扩展到动态场景,但面临严重的存储问题:(1)大量高斯基元需要存储位置、协方差、颜色(球谐系数)等参数;(2)动态点在各时间帧独立存储,产生大量时序冗余;(3)现有的 4DGS 压缩方法缺少熵感知的比特级压缩框架,无法进行灵活的率失真优化。
虽然 3DGS 的压缩已有较好进展(如 Compact3DGS、HAC++、RD3DGS),但 4DGS 面临额外挑战:时序维度引入的冗余需要专门的压缩策略。现有 4DGS 压缩工作(如 Light4GS、QUEEN)或未显式优化熵,或目标不同(逐帧流式压缩),4DGS 的端到端 RD 优化仍是空白。
本文的核心 idea:利用动态点运动轨迹的平滑先验——现实世界中物体运动通常是平滑的,可以用小波变换有效表示。通过 Haar 小波变换丢弃高频细节系数,大幅减少动态位置的存储需求,同时结合掩码剪枝、向量量化等标准技术进行全面压缩。
方法详解¶
整体框架¶
以 Ex4DGS(全显式 4D 高斯泼溅)为基线,将场景分解为静态和动态两部分。对两者共有的参数(球谐系数、旋转、尺度)采用标准 3DGS 压缩方法;对动态特有的位置轨迹,引入小波变换进行时域压缩;对不透明度的各分量进行差异化量化策略。整体通过端到端 RD 优化联合学习。
关键设计¶
-
高斯基元和球谐系数剪枝:
- 使用可学习掩码 ϕ_i,通过 sigmoid 生成软掩码、STE 二值化为硬掩码
- 基元剪枝代价:L_GSprune = (1/N)Σϕ_i^soft
- 球谐系数按度数分层剪枝:θ_i^(l) 对应 l≥1 阶系数,加权因子 (2l+1)/((k+1)²-1) 使高阶系数更容易被剪枝
- 对静态和动态高斯统一应用
-
小波变换压缩动态位置(核心创新):
- 对每个动态点的位置轨迹 μ_d = [p₁, p₂, ..., p_T]^T ∈ R^{T×3} 沿时间轴做单层 Haar 小波变换
- 分解为近似系数 F_a ∈ R^{T/2×3}(低频/粗运动)和细节系数 F_d ∈ R^{T/2×3}(高频)
- 显式丢弃 F_d(置零),仅保留 F_a
- 重建:通过逆 Haar 变换(正交矩阵转置)恢复 μ̂_d
- 直觉:运动轨迹通常平滑,低频分量包含主要信息,高频细节可被牺牲
- 存储从 T×3 降低到 T/2×3,同时实验证明渲染质量甚至略有提升(PSNR +0.19 dB at Level 1)
-
差异化不透明度量化:
- Ex4DGS 用两个高斯混合模型参数化动态不透明度:中心参数 (a_s^o, a_f^o) 和方差参数 (b_s^o, b_f^o)
- 通过消融发现:静态/动态基础不透明度和中心参数对量化不敏感,可安全量化
- 方差参数 (b_s^o, b_f^o) 对量化极其敏感——量化后 PSNR 从 29.57→28.52(Level 6),但额外压缩仅 1.57%
- 因此策略是:量化 α_s, α_d, a_^o,但跳过 b_^o
-
端到端率失真优化:
- 总损失:L_total = L_dist + λ_R · L_rate + λ_reg · L_reg
- L_dist = (1-λ_dssim)·L1 + λ_dssim·(1-SSIM)
- L_rate 聚合所有比特率开销:VQ 索引熵、掩码剪枝代价等
- L_reg 来自 Ex4DGS 的正则项(静态位移惩罚、时序平滑性)
- 通过调整 λ_GSprune 和 λ_SHprune 定义 6 个压缩等级
损失函数 / 训练策略¶
两阶段训练:先用 Ex4DGS 标准流程训练基础模型(~1小时),然后加入 RD 优化层(剪枝、ECVQ、小波变换)再训练 ~1 小时。6 个压缩等级通过调整剪枝超参实现:λ_GSprune ∈ [0.05, 0.0005],λ_SHprune ∈ [0.5, 0.005]。
实验关键数据¶
主实验¶
| 方法 | PSNR (dB) ↑ | 大小 (MB) ↓ | FPS ↑ | 压缩比 |
|---|---|---|---|---|
| Ex4DGS (N3V) | 32.11 | 115 | 72.3 | 1× |
| 本文 Level 6 | 29.66 | 11.06 | 100.9 | 10.4× |
| 本文 Level 1 | 27.04 | 1.26 | 163.0 | 91.3× |
| Ex4DGS (Technicolor) | 33.62 | 140.2 | 72.3 | 1× |
| 本文 Level 6 | 32.20 | 19.6 | 113.1 | 7.2× |
| 本文 Level 1 | 28.60 | 2.1 | 213.9 | 66.8× |
消融实验¶
| 配置 | PSNR (L1) | 大小 (L1) | PSNR (L6) | 大小 (L6) | 说明 |
|---|---|---|---|---|---|
| 无小波 | 27.20 | 2.01 | 30.17 | 19.87 | 基线 RD 压缩 |
| +小波变换 | 27.39 | 1.63 | 30.26 | 14.67 | +0.19dB/-19% (L1) |
| 小波 Level 2 (1/4) | 26.89 | 1.36 | 28.47 | 11.35 | 更激进但RD曲线更差 |
| 小波 Level 3 (1/8) | 26.43 | 1.16 | 27.74 | 9.80 | 过度压缩 |
关键发现¶
- 小波变换同时改善质量和压缩:这是反直觉的——丢弃高频分量不仅减小模型,还提升了 PSNR(0.09-0.19 dB),说明高频噪声的去除反而改善了轨迹建模精度
- 更深层的小波分解(Level 2/3)虽然进一步缩小模型,但 RD 曲线不优于单层小波,表明单层是最佳权衡
- Level 6 尺寸(11 MB)小于 4DGaussians(34 MB),但 PSNR 更高(29.66 vs 28.63)
- Level 1 以 1.26 MB 实现 163 FPS 的实时渲染,适合边缘设备
亮点与洞察¶
- 首个 4DGS 的比特级 RD 优化框架:填补了动态高斯泼溅端到端压缩的空白
- 小波变换的巧妙应用:利用运动轨迹的物理先验(平滑性),将信号处理工具引入 3D 表示压缩
- 差异化量化策略:不是对所有参数一视同仁,而是通过消融发现不同参数对量化的敏感度差异巨大,量化方差参数的成本收益极不划算
- 提供 6 级灵活压缩控制,用户可根据部署平台选择合适的率-质量权衡点
局限与展望¶
- 小波变换丢弃高频的策略对快速运动物体会产生运动模糊伪影
- 动态点仍占存储的较大比例(Appendix G/H),动态分量的压缩还有很大改进空间
- 可能对静态和动态点使用不同的剪枝权重来进一步优化
- 基于 Ex4DGS 的框架限制——核心 RD 优化原则可推广到其他 4DGS 模型
- RD 曲线的高保真端(接近原始质量)还有提升空间
相关工作与启发¶
- vs RD3DGS (Wang et al.): 直接将 3DGS 的 RD 优化扩展到 4D,但本文增加了小波变换和差异化量化来处理时序挑战
- vs QUEEN: QUEEN 做逐帧压缩流式传输,不显式优化熵;本文做整体模型压缩,目标是完整动态场景的高效存储
- vs Light4GS: 使用时空剪枝+熵编码,但未进行端到端 RD 优化
- vs 视频编码 (H.264/H.265): 小波变换在传统视频编码中广泛使用;本文将这一思想迁移到 4D 高斯表示
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个 4DGS 的 RD 优化框架,小波变换的引入有见地
- 实验充分度: ⭐⭐⭐⭐⭐ N3V 和 Technicolor 两个数据集、6 个压缩等级、详尽的消融研究
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,消融分析有说服力
- 价值: ⭐⭐⭐⭐ 使 4DGS 实际可部署到边缘设备,填补了重要的技术空白
相关论文¶
- [CVPR 2025] 4DGC: Rate-Aware 4D Gaussian Compression for Efficient Streamable Free-Viewpoint Video
- [NeurIPS 2025] Orientation-anchored Hyper-Gaussian for 4D Reconstruction from Casual Videos
- [NeurIPS 2025] TRIM: Scalable 3D Gaussian Diffusion Inference with Temporal and Spatial Trimming
- [ICCV 2025] 4D Gaussian Splatting SLAM
- [ICCV 2025] Compression of 3D Gaussian Splatting with Optimized Feature Planes and Standard Video Codecs