CVPR2026 3D视觉 4D Gaussian Splatting 动态场景重建时间插值光流监督 Catmull-Rom 样条时间别名

RetimeGS: Continuous-Time Reconstruction of 4D Gaussian Splatting¶

会议: CVPR2026
arXiv: 2603.13783
代码: 无
领域: 3d_vision
关键词: 4D Gaussian Splatting, 动态场景重建, 时间插值, 光流监督, Catmull-Rom 样条, 时间别名

一句话总结¶

提出 RetimeGS，通过正则化时间不透明度 + Catmull-Rom 样条轨迹 + 双向光流监督 + 三重渲染等策略，解决 4DGS 在离散帧间插值时的鬼影/时间别名问题，实现任意时间戳的无鬼影连续时间 4D 重建。

研究背景与动机¶

动态场景的高保真重建是 CV/CG 的核心问题，关键需求之一是 retime 控制——在任意时间戳渲染动态场景并保持时间一致性，用于慢动作回放、VR 高帧率渲染、子弹时间等 VFX 效果。这本质上要求在离散输入帧之间生成连续的中间帧。

现有方法的两大范式及其短板¶

范式一：形变场方法（Deform-GS, MotionGS 等）在 canonical space 中建模几何和外观，通过 deformation field / control points / 物理约束捕捉动态：

假设动态主要来自几何运动，当物体可见性或纹理外观随时间变化时失效
依赖精确的点对应估计，在大运动或帧间重叠有限时对应不可靠
同一 primitive 因错误对应而累积空间不对齐的信号，导致视觉伪影和错误轨迹

范式二：4D 原语方法（STGS, Ex4DGS 等）用 4D primitive 直接表示动态场景，将 opacity 分解为 base opacity × 空间 3D Gaussian × 时间 1D Gaussian：

核心问题：时间 opacity 仅在离散整数帧上有监督，无任何正则化
学到的 opacity 会过拟合到离散帧（temporal aliasing：时间支撑塌缩到子帧级别）
渲染中间帧时出现典型的鬼影伪影——相邻输入帧的半透明重叠结构静态叠加
对小运动/高帧率数据问题不大，但在大运动场景下严重

直觉上的解法是对时间 opacity 做低通滤波（类似 Mip-Splatting 解空间别名），但拉伸的时间分布需要跨多帧的精确轨迹估计，否则会引入另一种鬼影。

设计原则¶

基于以上分析，RetimeGS 的表示需满足三条原则：

动态出现/消失 — 捕捉外观和可见性变化，克服形变方法局限

正则化防塌缩 — 防止在稀疏时间采样下退化聚集到离散帧

精确一致的轨迹 — 在 primitive 生存期内保持平滑准确的运动，避免不一致导致鬼影

方法详解¶

整体框架¶

输入为多视角视频及对应的双向光流（由 WAFT 预计算），输出为可在任意时间 t 渲染的 4D 场景表示。核心创新在 4D 表示设计 + 四项训练策略。

关键设计 1：4D Primitive 表示¶

在标准 3DGS 参数 \((x, s, h, q, \sigma)\) 基础上，每个 Gaussian primitive 扩展为：

\[(\mu_\tau,\ \tau_l,\ \tau_r,\ \boldsymbol{\mu},\ \boldsymbol{v},\ \boldsymbol{s},\ \boldsymbol{q}(t),\ \boldsymbol{h},\ \sigma)\]

其中新增参数含义：

\(\mu_\tau\)：时间均值；\(\tau_l, \tau_r\)：左右时间边界偏移，用于定义时间 opacity
\(\boldsymbol{\mu}\)：伪空间均值；\(\boldsymbol{v} = (v_1, v_2, v_3)\)：速度分量，与 \(\mu\) 一起定义样条轨迹
旋转 \(q(t)\) 建模为时间的低阶多项式

在任意时间 t，可从这些参数导出标准 3DGS 的 \((\boldsymbol{x}(t), \boldsymbol{s}, \boldsymbol{q}(t), \boldsymbol{h}, \sigma_\tau(t), \sigma)\)，按标准 Gaussian Splatting 流程投影、深度排序、alpha 合成完成渲染。

关键设计 2：正则化时间不透明度（短尾 Sigmoid 核）¶

初始化约束：时间均值和边界偏移初始化时不可优化，设为相邻两帧的中点和半间距：

\[\mu_\tau = \frac{t_i + t_{i+1}}{2}, \quad \tau_l = \tau_r = \frac{\Delta t}{2}\]

短尾时间核：时间 opacity 用两个 sigmoid 函数的乘积定义，在左右边界处平滑衰减：

\[\sigma_\tau(t) = \tilde{\psi}_l\left(\frac{t - (\mu_\tau - \tau_l)}{\gamma}\right) \cdot \tilde{\psi}_r\left(\frac{(\mu_\tau + \tau_r) - t}{\gamma}\right)\]

在全局边界（视频首尾）处，将对应 sigmoid 替换为常数 1，避免边界可见性下降。\(\gamma=0.005\) 保证短尾特性。

设计直觉：每组 primitive 居中覆盖两个相邻输入帧之间的区间，同时被两帧监督。在输入帧附近，两组相邻 primitive 平滑混入/混出，确保无缝过渡。

关键设计 3：Catmull-Rom 样条空间轨迹¶

仅正则化时间 opacity 不够——在稀疏时间输入下，移动物体相邻帧间几乎无内容重叠，RGB 监督无法学到可靠对应。线性速度假设在大运动下导致分段线性伪影。

因此用 Catmull-Rom 样条建模空间均值 \(\boldsymbol{x}(t)\)，参数由双向光流显式监督：

对于时间均值在 \((t_i + t_{i+1})/2\) 的 primitive：
- \(v_2\)：帧 \(t_i\) 到 \(t_{i+1}\) 的线性速度（3D 对应）
- \(v_1\)：帧 \(t_{i-1}\) 到 \(t_i\) 的速度；\(v_3\)：帧 \(t_{i+1}\) 到 \(t_{i+2}\) 的速度
- \(\boldsymbol{\mu}\) 是假设线性运动时在 \(\mu_\tau\) 处的位置

样条的四个控制点由参数直接导出：

内控制点（样条精确通过）= 帧 \(t_i\) 和 \(t_{i+1}\) 处的位置：\(p_1 = \mu - \frac{1}{2}\Delta t \cdot v_2\), \(p_2 = \mu + \frac{1}{2}\Delta t \cdot v_2\)
外控制点决定内点曲率：\(p_0 = p_1 - \Delta t \cdot v_1\), \(p_3 = p_2 + \Delta t \cdot v_3\)

静态 primitive 的速度近似为零，即使时间支撑被拉伸，外推也保持一致的静态位置。实验发现优化伪均值+速度分量比直接优化四个控制点容易得多（虽数学等价）。

训练策略 1：双向光流轨迹监督¶

利用前向和后向光流建立粗对应，监督轨迹参数 \((\mu, v)\)：

在帧 \(t_i\) 处，将相邻两组 primitive 的控制点间 3D 位移投影到 2D，光栅化为前向/后向光流图
光栅化时将时间 opacity 除以 \(\sigma_\tau(t_i)\) 做归一化（因两组 primitive 分别渲染）
与 GT 光流做逐像素 loss
训练后期逐渐将光流学习率衰减到零，完全转为 RGB 精调

训练策略 2：三重渲染（Triple Rendering）¶

问题：直接渲染所有 primitive 能重建输入帧，但两组 primitive 各自只覆盖不同空间区域，单独渲染时欠重建。

解法：对每个内部帧 \(t_i\)，渲染三张图像——(1) 全部 primitive；(2) 前一组单独渲染；(3) 后一组单独渲染，三张图均与 GT 做监督。边界帧只有一组 primitive，渲染一张。

训练策略 3：动态拉伸与周期性重定位¶

动态拉伸：训练稳定后，检查相邻组中最近邻 primitive，若基色相似且速度近零，则拉伸 \(\tau_l, \tau_r\) 使其覆盖更大时间范围，并以概率 \(1 - 1/(k+1)\) 剪枝冗余 primitive
效果：静态区域用更少 primitive 表示，在 MCMC 预算约束下释放更多容量给动态区域
实验中约 9% primitive 为静态长时 primitive，有效 primitive 数减少 2.26x
重定位评分：\(s = \sigma / (\tau_l + \tau_r)\)，按时间持续时长加权 base opacity，鼓励向动态区域重定位

训练策略 4：光流感知初始化¶

使用 VGGT（无 bundle adjustment）粗估每帧点云，将 2D 光流多视角反投影到 3D 并平均，得到初始 3D 速度估计。用该速度初始化所有速度分量 \(v_1, v_2, v_3\)，并通过位移估计初始化伪均值 \(\mu\)。

损失函数与训练细节¶

RGB 重建 loss + 光流 loss（学习率从 0.5 衰减至 \(10^{-6}\)，12K iter 后）+ opacity 正则（0.01）+ scale 正则（0.1）
MCMC 每 100 iter 重定位（最小 opacity 阈值 0.01）；动态拉伸每 3K iter 执行
总训练 20K iter；18K iter 后对所有属性做学习率衰减
单卡 RTX 4090D，数据缩放到 1K 分辨率

实验关键数据¶

数据集与评估设置¶

DNA-Rendering：10 个场景，60 个 4K/2K 相机，15 FPS，17 帧（定性评估）
Stage-Capture（自采）：9 个新场景，32 个同步 4K 相机，22 FPS -> 隔帧采样有效 11 FPS，保留帧做中间帧 GT（定量评估）
指标：前景区域 PSNR/SSIM + 掩码背景 LPIPS

主实验结果¶

方法	PSNR ↑	SSIM ↑	LPIPS ↓
Deform-GS	28.45	0.867	0.0272
STGS	25.34	0.825	0.0357
GaussianFlow	25.91	0.825	0.0339
Ex4DGS	25.95	0.811	0.0379
2D Lifting (FILM+STGS)	28.79	0.886	0.0267
RetimeGS (Ours)	30.08	0.904	0.0225

RetimeGS 在三项指标上全面最优。相比最强基线 2D Lifting，PSNR +1.29 dB；相比同类 4D 原语方法 STGS，PSNR +4.74 dB。

消融实验¶

消融配置	PSNR ↑	SSIM ↑	LPIPS ↓
w/o 光流初始化	29.69	0.899	0.0227
w/o 光流监督	27.24	0.861	0.0282
w/o 三重渲染	27.16	0.849	0.0319
w/o 动态拉伸	28.81	0.886	0.0247
线性轨迹	28.50	0.884	0.0243
完整 RetimeGS	30.08	0.904	0.0225

关键发现¶

三重渲染影响最大（-2.92 dB）——无三重渲染时两组 primitive 各自仅覆盖部分区域，消融图清晰可见前组缺右侧纹理、后组缺左侧纹理
光流监督次之（-2.84 dB）——移除后快速运动物体纹理严重扭曲
样条 vs 线性轨迹（-1.58 dB）——在圆周运动场景中差异误差热图沿边缘显著减少
动态拉伸（-1.27 dB）——88K/1M primitive 为拉伸静态 primitive，释放容量给动态区域
光流初始化贡献最小（-0.39 dB），提供合理起点加速收敛
GaussianFlow 仅有前向光流监督但无时间正则，优化器在满足光流约束的同时仍可缩短时间支撑，鬼影依旧

亮点与洞察¶

问题诊断精准：将 4D 原语方法的鬼影归因为 temporal aliasing，与 Mip-Splatting 的空间别名形成类比框架
伪均值+速度参数化：虽与四控制点数学等价，但优化景观远优于后者——优秀的参数化选择
三重渲染思路简洁高效：通过要求每组 primitive 独立解释输入帧，从根本上解决覆盖不均问题
动态拉伸多重收益：减少冗余 primitive + 释放预算给动态区域 + 静态区域跨帧累积监督减少闪烁
光流使用精巧：初始化+双向监督+训练后期自动衰减，从 coarse-to-fine 充分利用光流但不过拟合噪声

局限与展望¶

极低帧率失效：帧间运动超约 50 像素（@1K）时光流不可靠，中间帧出现伪影；7.5 FPS 快速舞蹈已明显退化
轻微闪烁：相邻 primitive 组的不相交本质在输入帧处仍可能导致微小时间不连续
依赖预计算光流：WAFT 光流质量直接影响结果，增加预处理复杂度
未建模外观变化：SH 系数不随时间变化，光照剧烈变化场景可能受限
可能方向：引入 video diffusion model 作为运动先验处理极大运动；统一 4D 表示消除分组边界不连续

评分¶

维度	分数 (1-10)
创新性	7
技术深度	8
实验充分度	8
写作质量	9
实用价值	7
综合	7.5