跳转至

Temporal Smoothness-Aware Rate-Distortion Optimized 4D Gaussian Splatting

会议: NeurIPS 2025
arXiv: 2507.17336
代码: https://github.com/HyeongminLEE/RD4DGS (有)
领域: 3D Vision / Neural Rendering
关键词: 4D高斯泼溅, 率失真优化, 小波变换, 时序压缩, 动态场景

一句话总结

提出首个端到端率失真(RD)优化的 4D 高斯泼溅压缩框架,通过 Haar 小波变换利用动态点轨迹的时序平滑先验,在 Ex4DGS 基础上实现高达 91× 的压缩率(平均模型仅约原始 1.1%),同时保持合理的渲染质量和灵活的率-质量权衡控制。

研究背景与动机

4D 高斯泼溅(4DGS)将 3DGS 的高速渲染能力扩展到动态场景,但面临严重的存储问题:(1)大量高斯基元需要存储位置、协方差、颜色(球谐系数)等参数;(2)动态点在各时间帧独立存储,产生大量时序冗余;(3)现有的 4DGS 压缩方法缺少熵感知的比特级压缩框架,无法进行灵活的率失真优化。

虽然 3DGS 的压缩已有较好进展(如 Compact3DGS、HAC++、RD3DGS),但 4DGS 面临额外挑战:时序维度引入的冗余需要专门的压缩策略。现有 4DGS 压缩工作(如 Light4GS、QUEEN)或未显式优化熵,或目标不同(逐帧流式压缩),4DGS 的端到端 RD 优化仍是空白。

本文的核心 idea:利用动态点运动轨迹的平滑先验——现实世界中物体运动通常是平滑的,可以用小波变换有效表示。通过 Haar 小波变换丢弃高频细节系数,大幅减少动态位置的存储需求,同时结合掩码剪枝、向量量化等标准技术进行全面压缩。

方法详解

整体框架

以 Ex4DGS(全显式 4D 高斯泼溅)为基线,将场景分解为静态动态两部分。对两者共有的参数(球谐系数、旋转、尺度)采用标准 3DGS 压缩方法;对动态特有的位置轨迹,引入小波变换进行时域压缩;对不透明度的各分量进行差异化量化策略。整体通过端到端 RD 优化联合学习。

关键设计

  1. 高斯基元和球谐系数剪枝

    • 使用可学习掩码 ϕ_i,通过 sigmoid 生成软掩码、STE 二值化为硬掩码
    • 基元剪枝代价:L_GSprune = (1/N)Σϕ_i^soft
    • 球谐系数按度数分层剪枝:θ_i^(l) 对应 l≥1 阶系数,加权因子 (2l+1)/((k+1)²-1) 使高阶系数更容易被剪枝
    • 对静态和动态高斯统一应用
  2. 小波变换压缩动态位置(核心创新)

    • 对每个动态点的位置轨迹 μ_d = [p₁, p₂, ..., p_T]^T ∈ R^{T×3} 沿时间轴做单层 Haar 小波变换
    • 分解为近似系数 F_a ∈ R^{T/2×3}(低频/粗运动)和细节系数 F_d ∈ R^{T/2×3}(高频)
    • 显式丢弃 F_d(置零),仅保留 F_a
    • 重建:通过逆 Haar 变换(正交矩阵转置)恢复 μ̂_d
    • 直觉:运动轨迹通常平滑,低频分量包含主要信息,高频细节可被牺牲
    • 存储从 T×3 降低到 T/2×3,同时实验证明渲染质量甚至略有提升(PSNR +0.19 dB at Level 1)
  3. 差异化不透明度量化

    • Ex4DGS 用两个高斯混合模型参数化动态不透明度:中心参数 (a_s^o, a_f^o) 和方差参数 (b_s^o, b_f^o)
    • 通过消融发现:静态/动态基础不透明度和中心参数对量化不敏感,可安全量化
    • 方差参数 (b_s^o, b_f^o) 对量化极其敏感——量化后 PSNR 从 29.57→28.52(Level 6),但额外压缩仅 1.57%
    • 因此策略是:量化 α_s, α_d, a_^o,但跳过 b_^o
  4. 端到端率失真优化

    • 总损失:L_total = L_dist + λ_R · L_rate + λ_reg · L_reg
    • L_dist = (1-λ_dssim)·L1 + λ_dssim·(1-SSIM)
    • L_rate 聚合所有比特率开销:VQ 索引熵、掩码剪枝代价等
    • L_reg 来自 Ex4DGS 的正则项(静态位移惩罚、时序平滑性)
    • 通过调整 λ_GSprune 和 λ_SHprune 定义 6 个压缩等级

损失函数 / 训练策略

两阶段训练:先用 Ex4DGS 标准流程训练基础模型(~1小时),然后加入 RD 优化层(剪枝、ECVQ、小波变换)再训练 ~1 小时。6 个压缩等级通过调整剪枝超参实现:λ_GSprune ∈ [0.05, 0.0005],λ_SHprune ∈ [0.5, 0.005]。

实验关键数据

主实验

方法 PSNR (dB) ↑ 大小 (MB) ↓ FPS ↑ 压缩比
Ex4DGS (N3V) 32.11 115 72.3
本文 Level 6 29.66 11.06 100.9 10.4×
本文 Level 1 27.04 1.26 163.0 91.3×
Ex4DGS (Technicolor) 33.62 140.2 72.3
本文 Level 6 32.20 19.6 113.1 7.2×
本文 Level 1 28.60 2.1 213.9 66.8×

消融实验

配置 PSNR (L1) 大小 (L1) PSNR (L6) 大小 (L6) 说明
无小波 27.20 2.01 30.17 19.87 基线 RD 压缩
+小波变换 27.39 1.63 30.26 14.67 +0.19dB/-19% (L1)
小波 Level 2 (1/4) 26.89 1.36 28.47 11.35 更激进但RD曲线更差
小波 Level 3 (1/8) 26.43 1.16 27.74 9.80 过度压缩

关键发现

  • 小波变换同时改善质量和压缩:这是反直觉的——丢弃高频分量不仅减小模型,还提升了 PSNR(0.09-0.19 dB),说明高频噪声的去除反而改善了轨迹建模精度
  • 更深层的小波分解(Level 2/3)虽然进一步缩小模型,但 RD 曲线不优于单层小波,表明单层是最佳权衡
  • Level 6 尺寸(11 MB)小于 4DGaussians(34 MB),但 PSNR 更高(29.66 vs 28.63)
  • Level 1 以 1.26 MB 实现 163 FPS 的实时渲染,适合边缘设备

亮点与洞察

  • 首个 4DGS 的比特级 RD 优化框架:填补了动态高斯泼溅端到端压缩的空白
  • 小波变换的巧妙应用:利用运动轨迹的物理先验(平滑性),将信号处理工具引入 3D 表示压缩
  • 差异化量化策略:不是对所有参数一视同仁,而是通过消融发现不同参数对量化的敏感度差异巨大,量化方差参数的成本收益极不划算
  • 提供 6 级灵活压缩控制,用户可根据部署平台选择合适的率-质量权衡点

局限与展望

  • 小波变换丢弃高频的策略对快速运动物体会产生运动模糊伪影
  • 动态点仍占存储的较大比例(Appendix G/H),动态分量的压缩还有很大改进空间
  • 可能对静态和动态点使用不同的剪枝权重来进一步优化
  • 基于 Ex4DGS 的框架限制——核心 RD 优化原则可推广到其他 4DGS 模型
  • RD 曲线的高保真端(接近原始质量)还有提升空间

相关工作与启发

  • vs RD3DGS (Wang et al.): 直接将 3DGS 的 RD 优化扩展到 4D,但本文增加了小波变换和差异化量化来处理时序挑战
  • vs QUEEN: QUEEN 做逐帧压缩流式传输,不显式优化熵;本文做整体模型压缩,目标是完整动态场景的高效存储
  • vs Light4GS: 使用时空剪枝+熵编码,但未进行端到端 RD 优化
  • vs 视频编码 (H.264/H.265): 小波变换在传统视频编码中广泛使用;本文将这一思想迁移到 4D 高斯表示

评分

  • 新颖性: ⭐⭐⭐⭐ 首个 4DGS 的 RD 优化框架,小波变换的引入有见地
  • 实验充分度: ⭐⭐⭐⭐⭐ N3V 和 Technicolor 两个数据集、6 个压缩等级、详尽的消融研究
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,消融分析有说服力
  • 价值: ⭐⭐⭐⭐ 使 4DGS 实际可部署到边缘设备,填补了重要的技术空白

相关论文