4C4D: 4 Camera 4D Gaussian Splatting¶
会议: CVPR 2026
arXiv: 2604.04063
代码: 项目页 (有)
领域: 3D视觉
关键词: 4D高斯溅射, 稀疏视角, 动态场景重建, 神经衰减函数, 几何-外观平衡
一句话总结¶
提出 4C4D 框架,通过神经衰减函数(Neural Decaying Function)自适应控制高斯不透明度衰减,解决稀疏(仅4个相机)4D高斯溅射中几何与外观学习的不平衡问题,在多个数据集上达到SOTA。
研究背景与动机¶
领域现状:4D动态场景的新视角合成需要密集相机阵列(数十到数百台),限制了日常使用。3DGS/4DGS在密集视角下表现出色。
现有痛点:极稀疏视角(如4台相机)下,4DGS严重失败。原因在于优化偏差:拟合外观(颜色)相对容易,但恢复准确几何(深度)在监督不足时极其困难。当前高斯公式无法平衡两者。
核心矛盾:稀疏视角下空间监督不足 → 几何学习不足 → 过拟合训练视点外观 → 新视点严重伪影。
关键观察:4DGS在训练视点上能准确复现外观,但深度几何一塌糊涂(见Fig.3),说明问题不在模型容量而在优化偏差。
核心idea:引入可学习的不透明度衰减函数,将优化梯度重新导向几何学习。
方法详解¶
整体框架¶
4D高斯原语 + 神经衰减函数 \(f_\theta\) + 可见性检测的分离衰减策略 → 通过光度渲染损失联合优化。
关键设计¶
-
神经衰减函数(Neural Decaying Function): 轻量级神经网络,输入高斯属性(位置、不透明度、旋转),预测衰减因子 \(\tau\): \(\tau = f_\theta(x, y, z, o, r)\) 最终不透明度: \(o(\tilde{t}) = \tau \cdot \exp\left(-\frac{1}{2}\frac{(\tilde{t} - \mu_t)^2}{\Sigma_{4,4}}\right) \cdot o\)
- 设计动机:不透明度是4DGS几何学习的关键参数。通过神经网络调制不透明度,引入额外的可学习自由度,使梯度更多地流向几何参数(位置、尺度等),而非简单地最小化外观误差。这重新平衡了几何与外观的优化。
-
基于可见性检测的分离衰减策略:
- 关键问题:梯度仅存在于当前视角/时间步的可见高斯中。对不可见高斯施加同样衰减会扭曲优化。
- 可见性检测:\(G_m = Z_V(\tilde{v}, \sigma, Z_T(\tilde{t}, s_t, G))\)
- \(Z_V\):空间可见性(中心不在当前视角的高斯滤除)
- \(Z_T\):时间可见性(时间跨度不包含当前时间步的高斯滤除)
- 分离策略: \(\tau(g) = \begin{cases} f_\theta(x,y,z,o,r) & \text{if } g \in G_m \\ \beta=0.999 & \text{if } g \in G_m^* \end{cases}\)
- 设计动机:可见高斯需要精确学习衰减;不可见高斯用小常数衰减保持稳定(类似 AbsGS 的观察)
损失函数 / 训练策略¶
- 标准光度渲染损失(L1 + SSIM)
- 神经衰减函数与4D高斯联合优化
- 4D高斯继承4DGS的时间属性(\(\mu_t\), \(s_t\))和4D球谐系数
实验关键数据¶
主实验¶
| 数据集 | 指标 | 4C4D | 4DGS | 4DGaussians | Ex4DGS | 提升(vs最优) |
|---|---|---|---|---|---|---|
| Neural3DV | PSNR↑ | 22.29 | 20.60 | 20.82 | 19.33 | +1.47 |
| Neural3DV | LPIPS↓ | 0.146 | 0.244 | 0.190 | 0.239 | +23.2% |
| ENeRF-Outdoor | PSNR↑ | 24.32 | 23.52 | 18.21 | 21.89 | +0.80 |
| ENeRF-Outdoor | LPIPS↓ | 0.121 | 0.151 | 0.456 | 0.263 | +19.9% |
| Mobile-Stage | PSNR↑ | 22.36 | 22.15 | 20.15 | 17.85 | +0.21 |
| Mobile-Stage | LPIPS↓ | 0.121 | 0.180 | 0.226 | 0.260 | +32.8% |
消融实验¶
| 配置 | PSNR↑ | DSSIM1↓ | LPIPS↓ | 说明 |
|---|---|---|---|---|
| 无神经衰减 | 22.60 | 0.097 | 0.147 | 固定衰减不足 |
| 无可见性检测 | 24.49 | 0.075 | 0.127 | 不区分可见/不可见 |
| 完整模型 | 24.68 | 0.070 | 0.115 | 两者互补 |
| 常数衰减 | 24.31 | 0.075 | 0.125 | 不如可学习衰减 |
| 指数衰减 | 24.32 | 0.077 | 0.135 | 手工函数次优 |
| 幂函数衰减 | 24.35 | 0.074 | 0.124 | 仍不如神经网络 |
| 神经衰减(ours) | 24.68 | 0.070 | 0.115 | 自动学最优策略 |
关键发现¶
- 4个相机即可实现高保真4D重建,对比Dense array方法大幅降低采集门槛
- 神经衰减 vs 常数衰减:PSNR +0.37, LPIPS -0.010,说明自适应衰减优于固定策略
- 可见性分离策略贡献:PSNR +0.19, LPIPS -0.012
- 在室外复杂场景(ENeRF-Outdoor)中改善最为显著
- 自采数据集 Dyn4Cam(4台GoPro,<1500美元)可生成时间一致的4D动态
亮点与洞察¶
- 问题分析深刻:明确指出4DGS稀疏视角失败的根因是几何-外观优化不平衡,而非模型容量
- 解决思路优雅:不改3D表示,仅通过不透明度调制重导梯度方向,显著受益
- 实用价值高:4台GoPro(<1500美元)即可完成4D采集,真正走向消费级
- 可见/不可见高斯的分离处理是一个容易被忽略但非常重要的细节
局限与展望¶
- 4个视角仍有遮挡盲区,严重自遮挡场景难以处理
- 神经衰减函数增加了一些计算开销
- 未探索与深度先验(如MiDaS)结合的可能性
- Dyn4Cam 无法提供定量评估(无GT测试视角)
相关工作与启发¶
- 与 AbsGS 在不可见高斯常数衰减上的观察一致
- MVDream 的视图膨胀注意力思路可能也适用于此场景
- 将"梯度重导向"思路应用于其他不平衡优化问题(如NeRF的稀疏视角问题)
评分¶
- 新颖性: ⭐⭐⭐⭐ 核心思想清晰但不算颠覆性
- 实验充分度: ⭐⭐⭐⭐⭐ 4个数据集、详细消融、自采数据集,非常扎实
- 写作质量: ⭐⭐⭐⭐ 问题分析到位,方法简洁
- 价值: ⭐⭐⭐⭐ 消费级4D采集意义重大
相关论文¶
- [CVPR 2026] GP-4DGS: Probabilistic 4D Gaussian Splatting from Monocular Video via Variational Gaussian Processes
- [CVPR 2026] RetimeGS: Continuous-Time Reconstruction of 4D Gaussian Splatting
- [CVPR 2026] R4Det: 4D Radar-Camera Fusion for High-Performance 3D Object Detection# R4Det: 4D Radar-Camera Fusion for High-Performance 3D Object Detection
- [AAAI 2026] Sparse4DGS: 4D Gaussian Splatting for Sparse-Frame Dynamic Scene Reconstruction
- [CVPR 2026] AvatarPointillist: AutoRegressive 4D Gaussian Avatarization