MEGA: Memory-Efficient 4D Gaussian Splatting for Dynamic Scenes¶

会议: ICCV 2025
arXiv: 2410.13613
代码: Xinjie-Q/MEGA
领域: 3d_vision
关键词: 4D高斯溅射, 内存高效, 动态场景, 颜色压缩, 熵约束形变

一句话总结¶

提出 MEGA，一个面向4D Gaussian Splatting的内存高效框架，通过DC-AC颜色分解消除冗余球谐系数（8×压缩），结合熵约束Gaussian形变技术扩大每个Gaussian的作用范围并减少数量，最终在Technicolor和Neural 3D Video数据集上分别实现约190×和125×存储压缩，同时保持可比的渲染质量和实时速度。

研究背景与动机¶

4D Gaussian Splatting (4DGS) 将3DGS扩展到动态场景，用4D时空Gaussian超柱体表示场景运动，通过时间切片获取每帧的3D Gaussian进行实时渲染。然而4DGS面临 严重的存储瓶颈：

球谐系数的巨大冗余：每个4D Gaussian的161个参数中，144个是4D球谐（SH）系数，占比89%。这些SH系数用于编码视点和时间相关的颜色变化，但存在大量冗余。

Gaussian数量爆炸：渲染Birthday场景需要高达1300万个Gaussian，存储开销约7.79GB。这主要源于两个原因： - 4DGS假设每个切片后的Gaussian仅线性运动、协方差不变，复杂非线性运动需要多个Gaussian叠加表示 - 时间衰减不透明度 $\sigma(t) = e^{-\frac{(t-\mu_t)^2}{2\mathbf{W}}}$ 使每个Gaussian仅在其时间中心附近可见，任何给定时间只有约6%的Gaussian参与渲染

现有3DGS压缩方法不适用：3DGS的剪枝、SH蒸馏、矢量量化等技术面向静态场景设计，未考虑4DGS的时间和多视点因素。

核心思路：从两个维度压缩——(1)减少每个Gaussian的参数量（消除SH系数），(2)减少Gaussian总数（扩大每个Gaussian的时空作用范围）。

方法详解¶

整体框架¶

MEGA包含三个核心组件：

内存高效4D Gaussian表示：用DC-AC颜色替代SH系数
熵约束Gaussian形变：形变预测器+不透明度熵损失
存储压缩：FP16精度 + zip delta压缩

渲染流程四步：Per-Gaussian变换 → 时间切片 → 投影 → 可微光栅化。

关键设计一：DC-AC 颜色 (DAC) 表示¶

受电气工程中直流（DC）和交流（AC）概念启发，将颜色属性解耦为：

DC分量：每Gaussian的直流颜色 $\mathbf{c}_{dc} \in \mathbb{R}^3$，仅3个参数，编码场景中固有的稳态颜色信息
AC预测器：共享的轻量MLP $\mathcal{F}_\phi$，根据时间和视点预测颜色变化

最终颜色通过残差连接计算： $$\mathbf{c}_{t,v} = \text{sigmoid}(\mathbf{c}_{dc} + \mathcal{F}_\phi(\text{sg}(\boldsymbol{\mu}_{3D}), \text{sg}(\mathbf{d}_v), t, \mathbf{c}_{dc}))$$

其中 $\text{sg}(\cdot)$ 是停止梯度操作，$\mathbf{d}_v$ 是归一化视线方向。AC预测器使用三层线性层，输入包含3D位置、视线方向、时间和DC颜色。

效果：每个Gaussian只需存储3个颜色参数（vs原始的144个SH系数），实现约 8×参数压缩。关键在于DC分量保留了核心颜色信息，AC预测器补充了缺失的时空变化信息。

关键设计二：熵约束Gaussian形变¶

形变预测器：为每个4D Gaussian预测时间-视点相关的几何形变。将4D中心 $\boldsymbol{\mu}_{4D}$、视线方向 $\mathbf{d}_v$ 和时间 $t$ 通过频率位置编码 $\gamma$ 映射到高维空间，再由轻量MLP $\mathcal{F}_\theta$ 预测形变增量：

\[(m_{\mu_{4D}}^{t,v}, m_{s_{4D}}^{t,v}, m_{q_l}^{t,v}, m_{q_r}^{t,v}) = \mathcal{F}_\theta(\gamma(\text{sg}(\boldsymbol{\mu}_{4D})), \gamma(\text{sg}(\mathbf{d}_v)), \gamma(t))\]

形变通过乘法作用于原始参数（而非加法），使Gaussian可以表示非线性运动和形状变化：

\[\boldsymbol{\mu}_{4D}^{t,v} = \boldsymbol{\mu}_{4D} \times m_{\mu_{4D}}^{t,v}, \quad \mathbf{s}_{4D}^{t,v} = \mathbf{s}_{4D} \times m_{s_{4D}}^{t,v}\]

不透明度熵损失：强制空间不透明度 $o$ 趋向二值（0或1），便于识别和剪枝无用Gaussian：

\[\mathcal{L}_{opa} = \frac{1}{N} \sum_{j=1}^N (-o_j \log(o_j))\]

每 $K$ 迭代剪枝近零不透明度Gaussian。配合形变预测器，Gaussian参与渲染的比例从不到50%提升至约75%。

损失函数¶

\[\mathcal{L} = (1 - \lambda) \mathcal{L}_1 + \lambda \mathcal{L}_{ssim} + \kappa \mathcal{L}_{opa}\]

其中 $\lambda = 0.2$, $\kappa = 0.0005$。

存储压缩¶

训练使用半精度（FP16），存储所有可学习参数为FP16格式后应用zip delta压缩，额外减少约10%存储。

实验¶

主实验一：Technicolor数据集¶

方法	PSNR↑	DSSIM1↓	LPIPS↓	FPS↑	存储↓
DyNeRF	31.80	-	0.1400	0.02	30.00MB
HyperReel	32.70	0.0470	0.1090	4.00	60.00MB
Deformable 3DGS	30.95	0.0696	0.1553	76.09	61.36MB
STG	33.35	0.0404	0.0846	141.73	51.35MB
4DGS	32.07	0.0535	0.1189	55.26	6107.07MB
MEGA	33.57	0.0442	0.1014	83.14	32.45MB

MEGA相比4DGS实现 190×存储压缩（6107→32MB），PSNR提升1.5dB，FPS提升50%。相比SOTA方法STG，PSNR高0.22dB且存储更小。

主实验二：Neural 3D Video数据集¶

方法	PSNR↑	DSSIM2↓	FPS↑	存储↓
MixVoxels-X	31.73	0.0150	4.60	500.00MB
Dynamic 3DGS	30.46	0.0190	460.00	2772.00MB
STG	32.04	0.0145	273.47	175.35MB
4DGS	31.57	0.0164	96.69	3128.00MB
MEGA	31.49	0.0165	77.42	25.05MB

在Neu3DV上实现 125×存储压缩（3128→25MB），视觉质量与4DGS相当。

消融实验：各组件贡献（Birthday / Fabien / Flame Steak / Sear Steak）¶

变体	PSNR (Birthday)	Gaussian数	参数量
4DGS基线	31.00	13.00M	2094M
w/ grid替代SH	30.49	16.33M	293M
w/ DAC	31.60	15.43M	309M
w/ DAC + 形变	31.35	15.75M	315M
w/ DAC + $\mathcal{L}_{opa}$	31.46	9.15M	183M
w/ DAC + 形变 + $\mathcal{L}_{opa}$	32.02	0.91M	18M

grid方法（直接替代SH）导致明显性能下降（-0.51dB），而DAC保持甚至提升质量（+0.60dB）
单独使用形变→Gaussian反而增多；单独使用 $\mathcal{L}_{opa}$ →限制了Gaussian的表达能力
二者结合：Gaussian从13M降至0.91M（14倍减少），PSNR反而提升1.02dB

亮点与洞察¶

DC-AC分解的直觉优美：将颜色类比为电信号——DC保留主体色、AC编码变化——既有效又优雅地替代了144维SH
形变+熵约束的协同效应：形变扩大作用范围使每个Gaussian更有价值，熵损失移除冗余Gaussian，二者结合（而非单独使用）才能同时减少数量和保持质量
惊人的压缩比：190×（Technicolor）和125×（Neu3DV）的存储压缩，且几乎无质量损失
对AR/VR端侧部署有重要实际意义——将GB级模型压缩到几十MB

局限性¶

AC预测器和形变预测器都是共享MLP，对极端复杂场景可能成为容量瓶颈
在Neu3DV上PSNR略低于4DGS（31.49 vs 31.57），压缩存在微小的质量损失
仅在两个数据集上验证，缺少户外动态场景和更多样化的测试
形变使用乘法操作，可能限制了某些形变模式的表达能力

评分¶

维度	分数 (1-5)
创新性	4
技术深度	4
实验充分性	4
写作质量	4
实用价值	5
总评	4.2