4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming¶
会议: NeurIPS 2025
arXiv: 2509.17513
代码: 项目页(代码将开源)
领域: 3D视觉/体积视频压缩
关键词: 4D Gaussian Splatting, 渐进式流媒体, 体积视频压缩, 层级表示, 熵编码
一句话总结¶
提出层级化的4D高斯压缩框架4DGCPro,通过感知加权的层级高斯表示、运动感知自适应分组和端到端熵优化训练,在单一模型内实现多码率渐进式体积视频流媒体,可在移动设备上实时解码和渲染,RD性能超越现有SOTA。
背景与动机¶
体积视频(Volumetric Video)能提供沉浸式自由视点导航体验,但其数据量极大,对带宽、存储和实时解码能力要求远高于2D视频。现有方法面临两大核心痛点:
- 缺乏灵活性:大多数现有方法为每个比特率训练单独模型,导致存储成本高,无法根据动态网络条件自适应调整质量——这与2D视频中的可伸缩编码(如H.264/SVC)形成鲜明对比。
- 解码效率不足:NeRF系列方法(如HPC)虽然有压缩能力,但解码延迟高(121ms),无法在移动平台实时播放。3DGS系虽然渲染快,但现有的动态3DGS压缩方法(如4DGC)在大运动场景下因刚性建模限制而失效,且同样不支持多码率。
核心问题¶
如何在单一模型内实现体积视频的多码率渐进式流媒体,同时保证在移动端实时解码渲染,并且在大运动复杂场景下保持高保真重建?
这个问题的难点在于三个层面的矛盾:(1) 高压缩率与高重建质量的矛盾;(2) 单一模型与多码率支持的矛盾;(3) 大运动场景下时序建模稳定性与紧凑性的矛盾。
方法详解¶
4DGCPro的核心思路是:将3D高斯按视觉重要性组织为层级结构,用刚性变换+残差变形建模帧间运动,并在训练中端到端优化每一层的率失真性能,最终通过H.264编码器生成渐进式码流。
整体框架¶
输入:多视角视频序列 → 输出:渐进式压缩码流,客户端可按层解码
Pipeline分三个阶段: 1. 关键帧层级高斯表示(Sec 3.1):通过NeuS2获取初始网格,训练高质量3DGS后,按感知重要性度量Ψ将高斯分为L=6层,低层保留核心结构、高层补充细节。 2. 层级运动建模+自适应分组(Sec 3.2):帧间运动分解为刚性变换(位置+旋转)和残差变形(scale+opacity+SH),并根据运动幅度自适应决定分组边界。 3. 端到端熵优化训练+渐进编码(Sec 3.3):引入逐层RD监督和属性特定的熵估计,训练后将高斯属性展平为2D图像序列,用H.264编码。
关键设计¶
-
感知加权重要性度量Ψ:\(\Psi = \alpha + \lambda_\Psi \cdot S\),其中\(\alpha\)是不透明度,\(S = \frac{4}{3}\pi abc\)是高斯空间体积。这个度量将几何贡献(体积大→结构重要)和视觉贡献(不透明度高→渲染重要)正交结合。实验表明简单乘法不如加权加法,且\(\lambda_\Psi = 1 \times 10^5\)是平衡二者的最优权重。按Ψ降序排列后,高斯被分为L层:基础层\(\mathbf{G}_1\)保留最重要的高斯,客户端根据带宽选择解码到第\(l\)层。
-
层级运动建模:
- 刚性变换:用多分辨率哈希网格编码前帧高斯位置,再由两个轻量MLP分别预测平移\(\Delta\boldsymbol{\mu}_t\)和旋转\(\Delta\mathbf{R}_t\)。位置和旋转通过累加更新。
-
残差变形:在刚性变换基础上进一步学习scale、opacity和SH系数的残差\((\Delta\mathbf{s}_t, \Delta\alpha_t, \Delta\mathbf{f}_t)\),解决现有方法仅建模刚体运动导致的伪影问题。
-
运动感知自适应分组:当帧间平均高斯平移\(\overline{\Delta\boldsymbol{\mu}_t}\)超过阈值\(\tau_\mu\)时,开启新的参考帧。这避免了固定分组长度的两难困境——大组导致误差累积、小组导致数据冗余。不同数据集使用不同阈值(自建数据集0.0025,HiFi4G 0.001,N3DV 0.01),自动适配运动强度。
-
属性特定的熵建模:关键帧高斯属性分布不规则(Fig 3b),采用FFT加速的KDE估计PMF;而帧间残差属性天然呈高斯分布(Fig 3c),仅需计算均值和方差即可——这一发现大幅简化了帧间编码的训练过程。
损失函数 / 训练策略¶
关键帧训练分两阶段:先用\(\mathcal{L}_{color}\)预训练12000步→剪枝低opacity(40%)→层级RD优化1500步。层级RD损失:
其中\(\lambda_l = 0.5/l\)(\(l<L\)时)或1(\(l=L\)时),让高层(细节层)受更严格的质量约束。
帧间训练分两阶段: - 刚性变换阶段(800步):仅用\(\mathcal{L}_{color}\)监督,使用模拟量化但不加熵约束,保证位置和旋转精度。 - 残差变形阶段(2000步):加入熵损失\(\mathcal{L}_{rate\_inter}\)和时序一致性正则\(\mathcal{L}_{reg}\),后者显式约束残差属性的帧间平滑性。
训练中使用均匀噪声注入\(u \sim U(-\frac{q}{2}, \frac{q}{2})\)模拟量化效果,确保梯度可传播。
编码阶段:位置用uint16/uint32量化(精度敏感),其他属性用uint8。属性按通道展平为2D图像序列,用H.264 x264(无B帧、3参考帧、YUV4:4:4、qp=10/20)编码。
实验关键数据¶
| 数据集 | 指标 | 本文(High) | 之前SOTA | 提升 |
|---|---|---|---|---|
| 4DGCPro | PSNR/Size | 29.47dB/1.31MB | V³: 28.11dB/1.60MB | +1.36dB, -18%大小 |
| HiFi4G | PSNR/Size | 36.38dB/0.75MB | V³: 36.26dB/0.92MB | +0.12dB, -18%大小 |
| N3DV | PSNR/Size | 31.64dB/0.64MB | 4DGC: 31.58dB/0.50MB | +0.06dB |
| 4DGCPro | BD-PSNR(vs ReRF) | 4.20dB | HPC: 3.42dB, V³: 1.90dB | 超越所有方法 |
| HiFi4G | BD-PSNR(vs ReRF) | 7.87dB | HPC: 5.84dB, V³: 7.19dB | 超越所有方法 |
效率对比(4DGCPro数据集): | 指标 | HPC | V³ | 本文(Mid) | |------|-----|-----|-----------| | 解码(ms) | 121 | 20 | 19 | | 渲染(ms) | 231 | 2.8 | 2.5 | | 训练(min) | 93 | 0.97 | 4.3 |
移动端:iPad M2上高质量完整流水线43ms(约23FPS),中质量39ms(约26FPS),iPhone A15上高34ms。
关键亮点:单一模型支持High/Mid/Low三档(甚至6层任意组合),vs HPC需要三个独立模型。与HPC相比在同等质量下压缩率提升3倍。
消融实验要点¶
- 重要性度量Ψ:去掉opacity→-0.98dB,去掉volume→-1.86dB,二者乘法组合→-1.33dB。加权加法(本文)最优。
- 自适应分组vs固定分组:最优固定长度(5帧)仍有+8.11% BDBR、-0.25dB BD-PSNR的劣势;固定1帧(逐帧独立)→+48.37% BDBR。
- 层数L:L=4→-0.87dB BD-PSNR,L=6最优平衡(4.3min训练),L=8仅+0.09dB但训练时间增28%。
- 熵建模:去掉层级监督(H-S)→-2.89dB BD-PSNR(贡献最大!);去掉模拟量化(S-Q)→+4.36% BDBR;全用KDE可行但每帧多耗1.2min。
- 运动分解:去掉运动分解→Mid质量从28.68降至28.17(-0.51dB)。
- 层级监督:去掉→High几乎不变(29.53 vs 29.47),但Mid/Low严重退化(26.49 vs 28.68 / 24.98 vs 27.69),说明层级监督对低层高斯至关重要。
亮点¶
- "一个模型走天下"的渐进式流媒体架构:这是最核心的贡献——在3DGS体积视频压缩领域首次实现单模型多码率,真正解决了带宽波动场景下的无缝切换问题,对实际部署意义重大。
- 感知重要性度量设计简洁有效:\(\Psi = \alpha + \lambda_\Psi S\) 仅用两个最基本的几何属性,没有引入任何学习参数或复杂计算,但消融证明比纯opacity/volume/乘法都好。
- 属性分布特性的观察与利用精妙:发现关键帧高斯属性分布不规则→用KDE,帧间残差天然高斯分布→直接均值方差,这种"因材施教"的熵建模策略既高效又直觉。
- 巧用标准视频编码器做最后一公里:属性展平为2D图像→H.264编码,直接利用硬件编解码加速,避免了自研解码器在移动端部署的困难。
- 自适应分组思路简单实用,用运动幅度阈值自动切换参考帧,比固定分组全面优胜。
局限性 / 可改进方向¶
- 训练时间较长:层级监督需要每层都渲染一次,导致训练时间是V³的4.4倍(4.3min vs 0.97min),虽然远短于HPC(93min),但仍有优化空间。
- 依赖多视角输入:需要密集多视角(如81个同步相机),稀疏视角下表现受限,限制了消费级场景应用。
- 重要性度量仍偏简单:只考虑了体积和不透明度,未考虑视角依赖性(某个高斯在多少个视角中可见?)和语义重要性(前景人物vs背景),可能在语义显著性差异大的场景表现次优。
- 大空间场景不足:框架主要在人物为中心的场景验证,对大范围室外/室内场景的可扩展性存疑。
- 分组阈值需手动选择:不同数据集的\(\tau_\mu\)不同(0.001~0.01),缺乏自动确定机制。
与相关工作的对比¶
与V³(最直接的baseline)比:V³使用固定分组长度,导致大组误差累积/小组冗余,且不支持渐进式码率控制。4DGCPro通过自适应分组+层级表示解决了这两个问题。V³在Coser2序列因NeuS2初始化失败而崩溃,4DGCPro通过残差NeuS2策略解决。RD性能全面优于V³(BD-PSNR高2.3dB on 4DGCPro数据集)。
与HPC比:HPC是NeRF系方法的渐进式编码框架,有渐进能力但解码延迟高(121ms vs 19ms),无法实时;且无法处理有背景的N3DV场景。4DGCPro解码速度是HPC的6倍以上。
与4DGC比:4DGC是同一团队的前作(CVPR 2025),也做端到端RD优化但仅支持单码率,且刚性建模在大运动场景严重失效(4DGCPro数据集上PSNR仅21.48dB vs 本文29.47dB)。
启发与关联¶
- 与ideas中的全属性时序校正4DGS关联:4DGCPro的运动分解(刚性+残差)思路与全属性校正形成互补——后者关注生成场景的时序一致性,前者关注压缩场景的紧凑性。两者可以结合:用全属性校正提升重建质量,用层级压缩减少传输开销。
- 渐进式表示的通用性:这种"按重要性分层→逐层增强"的模式不限于流媒体,也可用于3D场景的LOD渲染、交互式编辑(先编辑粗层再传播到细层)、甚至3D生成(粗到细的生成策略)。
- 属性分布特性的利用:关键帧分布不规则用KDE、残差分布近似高斯用参数化——这种观察可以推广到其他需要做概率建模的3DGS任务中(如3DGS不确定性估计)。
- H.264做"最后一公里"编码器的策略值得关注:直接利用现有硬件生态,而非自研解码器,是工程上非常聪明的选择,类似的思路可用于其他需要在端侧部署的3D表示。
评分¶
- 新颖性: ⭐⭐⭐⭐ 渐进式层级高斯+自适应分组+属性特定熵建模的组合是新的,但各个组件(层级表示、运动分解、KDE熵估计)单独都不算全新
- 实验充分度: ⭐⭐⭐⭐⭐ 三个数据集+自建数据集、6个对比方法、4组消融、多平台效率测试、稳定性验证,非常完整
- 写作质量: ⭐⭐⭐⭐ 结构清晰、动机明确、图表丰富,不过公式较密集,部分标记不够直观
- 价值: ⭐⭐⭐⭐⭐ 直击体积视频流媒体部署的核心痛点(多码率+移动端实时),工程价值极高