跳转至

4C4D: 4 Camera 4D Gaussian Splatting

会议: CVPR 2026
arXiv: 2604.04063
代码: 项目页 (有)
领域: 3D视觉
关键词: 4D高斯溅射, 稀疏视角, 动态场景重建, 神经衰减函数, 几何-外观平衡

一句话总结

提出 4C4D 框架,通过神经衰减函数(Neural Decaying Function)自适应控制高斯不透明度衰减,解决稀疏(仅4个相机)4D高斯溅射中几何与外观学习的不平衡问题,在多个数据集上达到SOTA。

研究背景与动机

领域现状:4D动态场景的新视角合成需要密集相机阵列(数十到数百台),限制了日常使用。3DGS/4DGS在密集视角下表现出色。

现有痛点:极稀疏视角(如4台相机)下,4DGS严重失败。原因在于优化偏差:拟合外观(颜色)相对容易,但恢复准确几何(深度)在监督不足时极其困难。当前高斯公式无法平衡两者。

核心矛盾:稀疏视角下空间监督不足 → 几何学习不足 → 过拟合训练视点外观 → 新视点严重伪影。

关键观察:4DGS在训练视点上能准确复现外观,但深度几何一塌糊涂(见Fig.3),说明问题不在模型容量而在优化偏差。

核心idea:引入可学习的不透明度衰减函数,将优化梯度重新导向几何学习。

方法详解

整体框架

4D高斯原语 + 神经衰减函数 \(f_\theta\) + 可见性检测的分离衰减策略 → 通过光度渲染损失联合优化。

关键设计

  1. 神经衰减函数(Neural Decaying Function): 轻量级神经网络,输入高斯属性(位置、不透明度、旋转),预测衰减因子 \(\tau\)\(\tau = f_\theta(x, y, z, o, r)\) 最终不透明度: \(o(\tilde{t}) = \tau \cdot \exp\left(-\frac{1}{2}\frac{(\tilde{t} - \mu_t)^2}{\Sigma_{4,4}}\right) \cdot o\)

    • 设计动机:不透明度是4DGS几何学习的关键参数。通过神经网络调制不透明度,引入额外的可学习自由度,使梯度更多地流向几何参数(位置、尺度等),而非简单地最小化外观误差。这重新平衡了几何与外观的优化。
  2. 基于可见性检测的分离衰减策略

    • 关键问题:梯度仅存在于当前视角/时间步的可见高斯中。对不可见高斯施加同样衰减会扭曲优化。
    • 可见性检测:\(G_m = Z_V(\tilde{v}, \sigma, Z_T(\tilde{t}, s_t, G))\)
      • \(Z_V\):空间可见性(中心不在当前视角的高斯滤除)
      • \(Z_T\):时间可见性(时间跨度不包含当前时间步的高斯滤除)
    • 分离策略: \(\tau(g) = \begin{cases} f_\theta(x,y,z,o,r) & \text{if } g \in G_m \\ \beta=0.999 & \text{if } g \in G_m^* \end{cases}\)
    • 设计动机:可见高斯需要精确学习衰减;不可见高斯用小常数衰减保持稳定(类似 AbsGS 的观察)

损失函数 / 训练策略

  • 标准光度渲染损失(L1 + SSIM)
  • 神经衰减函数与4D高斯联合优化
  • 4D高斯继承4DGS的时间属性(\(\mu_t\), \(s_t\))和4D球谐系数

实验关键数据

主实验

数据集 指标 4C4D 4DGS 4DGaussians Ex4DGS 提升(vs最优)
Neural3DV PSNR↑ 22.29 20.60 20.82 19.33 +1.47
Neural3DV LPIPS↓ 0.146 0.244 0.190 0.239 +23.2%
ENeRF-Outdoor PSNR↑ 24.32 23.52 18.21 21.89 +0.80
ENeRF-Outdoor LPIPS↓ 0.121 0.151 0.456 0.263 +19.9%
Mobile-Stage PSNR↑ 22.36 22.15 20.15 17.85 +0.21
Mobile-Stage LPIPS↓ 0.121 0.180 0.226 0.260 +32.8%

消融实验

配置 PSNR↑ DSSIM1↓ LPIPS↓ 说明
无神经衰减 22.60 0.097 0.147 固定衰减不足
无可见性检测 24.49 0.075 0.127 不区分可见/不可见
完整模型 24.68 0.070 0.115 两者互补
常数衰减 24.31 0.075 0.125 不如可学习衰减
指数衰减 24.32 0.077 0.135 手工函数次优
幂函数衰减 24.35 0.074 0.124 仍不如神经网络
神经衰减(ours) 24.68 0.070 0.115 自动学最优策略

关键发现

  • 4个相机即可实现高保真4D重建,对比Dense array方法大幅降低采集门槛
  • 神经衰减 vs 常数衰减:PSNR +0.37, LPIPS -0.010,说明自适应衰减优于固定策略
  • 可见性分离策略贡献:PSNR +0.19, LPIPS -0.012
  • 在室外复杂场景(ENeRF-Outdoor)中改善最为显著
  • 自采数据集 Dyn4Cam(4台GoPro,<1500美元)可生成时间一致的4D动态

亮点与洞察

  • 问题分析深刻:明确指出4DGS稀疏视角失败的根因是几何-外观优化不平衡,而非模型容量
  • 解决思路优雅:不改3D表示,仅通过不透明度调制重导梯度方向,显著受益
  • 实用价值高:4台GoPro(<1500美元)即可完成4D采集,真正走向消费级
  • 可见/不可见高斯的分离处理是一个容易被忽略但非常重要的细节

局限与展望

  • 4个视角仍有遮挡盲区,严重自遮挡场景难以处理
  • 神经衰减函数增加了一些计算开销
  • 未探索与深度先验(如MiDaS)结合的可能性
  • Dyn4Cam 无法提供定量评估(无GT测试视角)

相关工作与启发

  • 与 AbsGS 在不可见高斯常数衰减上的观察一致
  • MVDream 的视图膨胀注意力思路可能也适用于此场景
  • 将"梯度重导向"思路应用于其他不平衡优化问题(如NeRF的稀疏视角问题)

评分

  • 新颖性: ⭐⭐⭐⭐ 核心思想清晰但不算颠覆性
  • 实验充分度: ⭐⭐⭐⭐⭐ 4个数据集、详细消融、自采数据集,非常扎实
  • 写作质量: ⭐⭐⭐⭐ 问题分析到位,方法简洁
  • 价值: ⭐⭐⭐⭐ 消费级4D采集意义重大

相关论文