Learning Explicit Continuous Motion Representation for Dynamic Gaussian Splatting from Monocular Videos¶

会议: CVPR 2026
arXiv: 2603.25058
代码: https://github.com/hhhddddddd/se3bsplinegs
领域: 3D视觉
关键词: 动态高斯泼溅, 单目视频, SE(3) B样条, 运动表示, 新视角合成

一句话总结¶

本文提出通过自适应 SE(3) B 样条运动基显式建模动态高斯的连续位置和朝向变形轨迹，配合软分段重建策略和多视角扩散模型先验，实现单目视频的高质量动态场景新视角合成，在 iPhone 和 NVIDIA 数据集上超越现有方法。

研究背景与动机¶

从单目视频重建动态场景是计算机视觉中的核心问题，广泛应用于 VR/AR 和电影制作。现有基于 3D 高斯泼溅的方法在处理动态场景时存在明显不足：

隐式方法（如 D3DGS、4DGS）通过 MLP 或 k-plane 学习从规范空间到观测空间的变换，无法保证变形轨迹的连续性
显式方法（如 SplineGS）虽然使用三次 Hermite 样条建模连续的位置变形轨迹，但忽略了高斯朝向的连续变化
基于运动基的方法（如 SoM、MoSca）通过学习仿射变换或运动脚手架来建模变形，但未统一处理位置和朝向的连续性

核心矛盾：当动态高斯的朝向变化不连续时，渲染图像中会出现严重伪影，尤其在复杂运动区域。作者的切入角度是：利用 SE(3) 累积 B 样条函数，能同时保证位置和朝向在数学上的连续性，从而统一解决这一问题。

方法详解¶

整体框架¶

输入单目视频，首先通过深度重投影初始化静态高斯和动态高斯。动态高斯的运动由可学习的 SE(3) B 样条运动基控制。训练过程中，通过自适应控制机制动态调整运动基和控制点数量。使用软分段重建策略融合不同参考时间戳的动态高斯到观测时间戳，并借助多视角扩散模型提供额外视角监督。最终输出可用于新视角渲染的动态高斯场。

关键设计¶

SE(3) B 样条运动基 (SE(3) B-spline Motion Bases):
- 功能：显式建模动态高斯的连续位置和朝向变形轨迹
- 核心思路：利用 SE(3) 累积 B 样条函数，通过少量可学习控制点构建运动轨迹。首先从 3D 追踪点获取姿态状态 \(Q = [R, t]\) 作为控制点初始化，计算相邻追踪点之间的相对姿态变换 \(\Delta Q = Q_i^{-1} Q_{i+1}\)，通过李代数对数变换转到李代数空间 \(\xi = \log(\Delta Q)\)，最终由 B 样条基函数 \(\Omega_i(t)\) 插值得到任意时刻 \(t\) 的连续变换 \(T(t) = (\prod_{i=0}^{N_c-1} \exp(\Omega_i(t)\xi_i)) T_0\)
- 设计动机：SE(3) B 样条在数学上保证了位置平移和旋转朝向的同时连续性，而 Hermite 样条只能处理位置。这从根本上消除了朝向不连续导致的渲染伪影
自适应运动基控制机制 (Adaptive Control Mechanism):
- 功能：动态调整运动基和控制点数量，在表达能力和计算效率间取得平衡
- 核心思路：包含修剪和加密两个操作。修剪：每 \(N_{prune}=500\) 迭代尝试移除一个控制点，选择使轨迹变化最小的控制点，若移除后误差低于阈值 \(\epsilon_{prune}=5.0\) 则执行修剪。加密：每 \(N_{densify}=500\) 迭代，通过渲染误差和动态区域 mask 的交集识别复杂运动区域，将该区域对应的运动基通过复制控制点并添加随机扰动进行加密
- 设计动机：场景不同区域的运动复杂度差异很大。过多控制点增加计算开销且可能过拟合，过少则表达力不够。自适应机制让资源集中在需要的地方
软分段重建策略 (Soft Segment Reconstruction):
- 功能：减轻长时间间隔运动变形对场景重建的干扰
- 核心思路：将所有参考时间戳的动态高斯转换到观测时间戳时，根据时间距离调整高斯不透明度 \(o' = \text{sigmoid}(\text{scale} \cdot (1 - |t_{ref} - t_{obs}|)) \cdot o\)（scale=5.0）。时间距离越远的参考高斯不透明度越低
- 设计动机：对于长帧率视频，远距离参考时间戳到观测时间戳的变换精度下降。通过不透明度衰减让近距离参考高斯主导重建，减少远距离变换不准确带来的不确定性

损失函数 / 训练策略¶

总损失由六项组成：重建损失 \(\mathcal{L}_{rec}\)（L1 + SSIM，\(\beta=0.2\)）、几何深度损失 \(\mathcal{L}_{geo}\)（\(\lambda=0.075\)）、多视角 SDS 损失 \(\mathcal{L}_{sds}\)（\(\lambda=0.01\)，使用多视角扩散模型提供不可见区域先验）、ARAP 刚性约束损失 \(\mathcal{L}_{arap}\)、光流追踪损失 \(\mathcal{L}_{track}\)、以及相机平滑损失 \(\mathcal{L}_{smo}\)（\(\lambda=0.01\)，约束相邻帧相机外参平滑变化）。相机外参作为可学习参数联合优化。训练 8000 迭代。

实验关键数据¶

主实验¶

数据集	指标	本文	MoSca	SplineGS	SoM	提升(vs MoSca)
iPhone	mPSNR↑	20.17	19.33	15.52	17.13	+0.84
iPhone	mSSIM↑	0.729	0.718	0.483	0.674	+0.011
iPhone	mLPIPS↓	0.274	0.274	0.371	0.279	持平
NVIDIA	PSNR↑	27.81	26.76	27.12	24.58	+1.05
NVIDIA	SSIM↑	0.871	0.854	0.872	0.651	+0.017
NVIDIA	LPIPS↓	0.049	0.070	0.052	0.124	-0.021

训练时间仅需 30 分钟（单卡 RTX 4090），FPS 达到 45.124，兼顾了效率和质量。

消融实验¶

配置	iPhone mPSNR	iPhone mLPIPS	NVIDIA PSNR	NVIDIA LPIPS
Full model	20.17	0.274	27.81	0.049
w/o Adaptive Control	18.84	0.350	26.87	0.128
w/o Soft Segment	19.02	0.328	27.06	0.085
w/o \(\mathcal{L}_{sds}\)	19.39	0.288	27.13	0.074
w/o \(\mathcal{L}_{smo}\)	19.18	0.295	27.15	0.076

运动表示替换消融（iPhone mPSNR）：使用 SoM 的 Pose 变换为 18.17，使用 MoSca 的 Motion Scaffold 为 19.26，本文 SE(3) B 样条为 20.17。

关键发现¶

自适应控制机制贡献最大（移除后 iPhone mPSNR 从 20.17 降至 18.84，降幅 1.33），说明运动基的密度应适配场景复杂度
软分段重建策略在 iPhone 数据（帧率长、运动复杂）上效果比 NVIDIA 数据更显著，符合其设计动机
SE(3) B 样条运动表示相比 Pose 变换和 Motion Scaffold 分别提升 2.0 和 0.91 mPSNR，验证了统一建模位置和朝向连续性的重要性
对 2D 追踪先验误差有较好鲁棒性，加入 [-15,15] 随机噪声后性能下降有限（mPSNR 20.17→20.11）

亮点与洞察¶

将 SE(3) 累积 B 样条引入动态高斯泼溅是关键贡献。B 样条本身在机器人学和 SLAM 中广泛使用，但在动态 3DGS 中统一建模位置和朝向的连续变形是首次。这个思路可以迁移到任何需要连续刚体运动建模的场景
自适应修剪+加密的策略非常实用——允许简单运动区域用少量控制点，复杂区域自动加密，既省计算又提升质量
30 分钟训练时间在同类方法中很有竞争力（对比 MarbleGS 的 13 小时），效率优势明显

局限与展望¶

论文图 7 中承认对大幅度非刚体运动（如人体舞蹈中的衣物飘动）效果不佳，因为 SE(3) B 样条本质上是刚体运动模型
SDS 损失引入扩散模型增加了额外依赖和计算，其对不同场景的泛化效果未充分验证
仅在 iPhone (5场景) 和 NVIDIA (7场景) 数据集上评估，场景多样性有限
可以探索将 SE(3) B 样条与非刚体变形（如 blend shapes 或 SMPL）相结合，以处理更复杂的动态运动

评分¶

新颖性: ⭐⭐⭐⭐ 将成熟的 SE(3) B 样条引入动态 3DGS 是有意义的工程创新，但理论上不算全新
实验充分度: ⭐⭐⭐⭐ 消融全面且含运动表示替换对比，追踪鲁棒性分析有特色，但数据集偏少
写作质量: ⭐⭐⭐⭐ 方法描述清晰，公式推导完整，可视化丰富
价值: ⭐⭐⭐⭐ 实用价值高，训练快质量好，代码已开源