跳转至

4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming

会议: NeurIPS 2025
arXiv: 2509.17513
代码: 项目页(代码将开源)
领域: 3D视觉/体积视频压缩
关键词: 4D Gaussian Splatting, 渐进式流媒体, 体积视频压缩, 层级表示, 熵编码

一句话总结

提出层级化的4D高斯压缩框架4DGCPro,通过感知加权的层级高斯表示、运动感知自适应分组和端到端熵优化训练,在单一模型内实现多码率渐进式体积视频流媒体,可在移动设备上实时解码和渲染,RD性能超越现有SOTA。

背景与动机

体积视频(Volumetric Video)能提供沉浸式自由视点导航体验,但其数据量极大,对带宽、存储和实时解码能力要求远高于2D视频。现有方法面临两大核心痛点:

  1. 缺乏灵活性:大多数现有方法为每个比特率训练单独模型,导致存储成本高,无法根据动态网络条件自适应调整质量——这与2D视频中的可伸缩编码(如H.264/SVC)形成鲜明对比。
  2. 解码效率不足:NeRF系列方法(如HPC)虽然有压缩能力,但解码延迟高(121ms),无法在移动平台实时播放。3DGS系虽然渲染快,但现有的动态3DGS压缩方法(如4DGC)在大运动场景下因刚性建模限制而失效,且同样不支持多码率。

核心问题

如何在单一模型内实现体积视频的多码率渐进式流媒体,同时保证在移动端实时解码渲染,并且在大运动复杂场景下保持高保真重建?

这个问题的难点在于三个层面的矛盾:(1) 高压缩率与高重建质量的矛盾;(2) 单一模型与多码率支持的矛盾;(3) 大运动场景下时序建模稳定性与紧凑性的矛盾。

方法详解

4DGCPro的核心思路是:将3D高斯按视觉重要性组织为层级结构,用刚性变换+残差变形建模帧间运动,并在训练中端到端优化每一层的率失真性能,最终通过H.264编码器生成渐进式码流。

整体框架

输入:多视角视频序列 → 输出:渐进式压缩码流,客户端可按层解码

Pipeline分三个阶段: 1. 关键帧层级高斯表示(Sec 3.1):通过NeuS2获取初始网格,训练高质量3DGS后,按感知重要性度量Ψ将高斯分为L=6层,低层保留核心结构、高层补充细节。 2. 层级运动建模+自适应分组(Sec 3.2):帧间运动分解为刚性变换(位置+旋转)和残差变形(scale+opacity+SH),并根据运动幅度自适应决定分组边界。 3. 端到端熵优化训练+渐进编码(Sec 3.3):引入逐层RD监督和属性特定的熵估计,训练后将高斯属性展平为2D图像序列,用H.264编码。

关键设计

  1. 感知加权重要性度量Ψ\(\Psi = \alpha + \lambda_\Psi \cdot S\),其中\(\alpha\)是不透明度,\(S = \frac{4}{3}\pi abc\)是高斯空间体积。这个度量将几何贡献(体积大→结构重要)和视觉贡献(不透明度高→渲染重要)正交结合。实验表明简单乘法不如加权加法,且\(\lambda_\Psi = 1 \times 10^5\)是平衡二者的最优权重。按Ψ降序排列后,高斯被分为L层:基础层\(\mathbf{G}_1\)保留最重要的高斯,客户端根据带宽选择解码到第\(l\)层。

  2. 层级运动建模

  3. 刚性变换:用多分辨率哈希网格编码前帧高斯位置,再由两个轻量MLP分别预测平移\(\Delta\boldsymbol{\mu}_t\)和旋转\(\Delta\mathbf{R}_t\)。位置和旋转通过累加更新。
  4. 残差变形:在刚性变换基础上进一步学习scale、opacity和SH系数的残差\((\Delta\mathbf{s}_t, \Delta\alpha_t, \Delta\mathbf{f}_t)\),解决现有方法仅建模刚体运动导致的伪影问题。

  5. 运动感知自适应分组:当帧间平均高斯平移\(\overline{\Delta\boldsymbol{\mu}_t}\)超过阈值\(\tau_\mu\)时,开启新的参考帧。这避免了固定分组长度的两难困境——大组导致误差累积、小组导致数据冗余。不同数据集使用不同阈值(自建数据集0.0025,HiFi4G 0.001,N3DV 0.01),自动适配运动强度。

  6. 属性特定的熵建模:关键帧高斯属性分布不规则(Fig 3b),采用FFT加速的KDE估计PMF;而帧间残差属性天然呈高斯分布(Fig 3c),仅需计算均值和方差即可——这一发现大幅简化了帧间编码的训练过程。

损失函数 / 训练策略

关键帧训练分两阶段:先用\(\mathcal{L}_{color}\)预训练12000步→剪枝低opacity(40%)→层级RD优化1500步。层级RD损失:

\[\mathcal{L}_{key} = \sum_{l=1}^{L} \lambda_l \left( \mathcal{L}_{color}^l + \lambda_{rate\_key} \mathcal{L}_{rate\_key}^l \right)\]

其中\(\lambda_l = 0.5/l\)\(l<L\)时)或1(\(l=L\)时),让高层(细节层)受更严格的质量约束。

帧间训练分两阶段: - 刚性变换阶段(800步):仅用\(\mathcal{L}_{color}\)监督,使用模拟量化但不加熵约束,保证位置和旋转精度。 - 残差变形阶段(2000步):加入熵损失\(\mathcal{L}_{rate\_inter}\)和时序一致性正则\(\mathcal{L}_{reg}\),后者显式约束残差属性的帧间平滑性。

训练中使用均匀噪声注入\(u \sim U(-\frac{q}{2}, \frac{q}{2})\)模拟量化效果,确保梯度可传播。

编码阶段:位置用uint16/uint32量化(精度敏感),其他属性用uint8。属性按通道展平为2D图像序列,用H.264 x264(无B帧、3参考帧、YUV4:4:4、qp=10/20)编码。

实验关键数据

数据集 指标 本文(High) 之前SOTA 提升
4DGCPro PSNR/Size 29.47dB/1.31MB V³: 28.11dB/1.60MB +1.36dB, -18%大小
HiFi4G PSNR/Size 36.38dB/0.75MB V³: 36.26dB/0.92MB +0.12dB, -18%大小
N3DV PSNR/Size 31.64dB/0.64MB 4DGC: 31.58dB/0.50MB +0.06dB
4DGCPro BD-PSNR(vs ReRF) 4.20dB HPC: 3.42dB, V³: 1.90dB 超越所有方法
HiFi4G BD-PSNR(vs ReRF) 7.87dB HPC: 5.84dB, V³: 7.19dB 超越所有方法

效率对比(4DGCPro数据集): | 指标 | HPC | V³ | 本文(Mid) | |------|-----|-----|-----------| | 解码(ms) | 121 | 20 | 19 | | 渲染(ms) | 231 | 2.8 | 2.5 | | 训练(min) | 93 | 0.97 | 4.3 |

移动端:iPad M2上高质量完整流水线43ms(约23FPS),中质量39ms(约26FPS),iPhone A15上高34ms。

关键亮点:单一模型支持High/Mid/Low三档(甚至6层任意组合),vs HPC需要三个独立模型。与HPC相比在同等质量下压缩率提升3倍。

消融实验要点

  • 重要性度量Ψ:去掉opacity→-0.98dB,去掉volume→-1.86dB,二者乘法组合→-1.33dB。加权加法(本文)最优。
  • 自适应分组vs固定分组:最优固定长度(5帧)仍有+8.11% BDBR、-0.25dB BD-PSNR的劣势;固定1帧(逐帧独立)→+48.37% BDBR。
  • 层数L:L=4→-0.87dB BD-PSNR,L=6最优平衡(4.3min训练),L=8仅+0.09dB但训练时间增28%。
  • 熵建模:去掉层级监督(H-S)→-2.89dB BD-PSNR(贡献最大!);去掉模拟量化(S-Q)→+4.36% BDBR;全用KDE可行但每帧多耗1.2min。
  • 运动分解:去掉运动分解→Mid质量从28.68降至28.17(-0.51dB)。
  • 层级监督:去掉→High几乎不变(29.53 vs 29.47),但Mid/Low严重退化(26.49 vs 28.68 / 24.98 vs 27.69),说明层级监督对低层高斯至关重要。

亮点

  • "一个模型走天下"的渐进式流媒体架构:这是最核心的贡献——在3DGS体积视频压缩领域首次实现单模型多码率,真正解决了带宽波动场景下的无缝切换问题,对实际部署意义重大。
  • 感知重要性度量设计简洁有效\(\Psi = \alpha + \lambda_\Psi S\) 仅用两个最基本的几何属性,没有引入任何学习参数或复杂计算,但消融证明比纯opacity/volume/乘法都好。
  • 属性分布特性的观察与利用精妙:发现关键帧高斯属性分布不规则→用KDE,帧间残差天然高斯分布→直接均值方差,这种"因材施教"的熵建模策略既高效又直觉。
  • 巧用标准视频编码器做最后一公里:属性展平为2D图像→H.264编码,直接利用硬件编解码加速,避免了自研解码器在移动端部署的困难。
  • 自适应分组思路简单实用,用运动幅度阈值自动切换参考帧,比固定分组全面优胜。

局限性 / 可改进方向

  • 训练时间较长:层级监督需要每层都渲染一次,导致训练时间是V³的4.4倍(4.3min vs 0.97min),虽然远短于HPC(93min),但仍有优化空间。
  • 依赖多视角输入:需要密集多视角(如81个同步相机),稀疏视角下表现受限,限制了消费级场景应用。
  • 重要性度量仍偏简单:只考虑了体积和不透明度,未考虑视角依赖性(某个高斯在多少个视角中可见?)和语义重要性(前景人物vs背景),可能在语义显著性差异大的场景表现次优。
  • 大空间场景不足:框架主要在人物为中心的场景验证,对大范围室外/室内场景的可扩展性存疑。
  • 分组阈值需手动选择:不同数据集的\(\tau_\mu\)不同(0.001~0.01),缺乏自动确定机制。

与相关工作的对比

(最直接的baseline)比:V³使用固定分组长度,导致大组误差累积/小组冗余,且不支持渐进式码率控制。4DGCPro通过自适应分组+层级表示解决了这两个问题。V³在Coser2序列因NeuS2初始化失败而崩溃,4DGCPro通过残差NeuS2策略解决。RD性能全面优于V³(BD-PSNR高2.3dB on 4DGCPro数据集)。

HPC比:HPC是NeRF系方法的渐进式编码框架,有渐进能力但解码延迟高(121ms vs 19ms),无法实时;且无法处理有背景的N3DV场景。4DGCPro解码速度是HPC的6倍以上。

4DGC比:4DGC是同一团队的前作(CVPR 2025),也做端到端RD优化但仅支持单码率,且刚性建模在大运动场景严重失效(4DGCPro数据集上PSNR仅21.48dB vs 本文29.47dB)。

启发与关联

  • 与ideas中的全属性时序校正4DGS关联:4DGCPro的运动分解(刚性+残差)思路与全属性校正形成互补——后者关注生成场景的时序一致性,前者关注压缩场景的紧凑性。两者可以结合:用全属性校正提升重建质量,用层级压缩减少传输开销。
  • 渐进式表示的通用性:这种"按重要性分层→逐层增强"的模式不限于流媒体,也可用于3D场景的LOD渲染、交互式编辑(先编辑粗层再传播到细层)、甚至3D生成(粗到细的生成策略)。
  • 属性分布特性的利用:关键帧分布不规则用KDE、残差分布近似高斯用参数化——这种观察可以推广到其他需要做概率建模的3DGS任务中(如3DGS不确定性估计)。
  • H.264做"最后一公里"编码器的策略值得关注:直接利用现有硬件生态,而非自研解码器,是工程上非常聪明的选择,类似的思路可用于其他需要在端侧部署的3D表示。

评分

  • 新颖性: ⭐⭐⭐⭐ 渐进式层级高斯+自适应分组+属性特定熵建模的组合是新的,但各个组件(层级表示、运动分解、KDE熵估计)单独都不算全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个数据集+自建数据集、6个对比方法、4组消融、多平台效率测试、稳定性验证,非常完整
  • 写作质量: ⭐⭐⭐⭐ 结构清晰、动机明确、图表丰富,不过公式较密集,部分标记不够直观
  • 价值: ⭐⭐⭐⭐⭐ 直击体积视频流媒体部署的核心痛点(多码率+移动端实时),工程价值极高