MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second¶

会议: CVPR 2026
arXiv: 2507.10065
代码: 有
领域: 3D视觉
关键词: 动态视图合成, 4D重建, 3D高斯泼溅, 点跟踪, 前馈式重建

一句话总结¶

提出 MoVieS，一个前馈式 4D 动态场景重建框架，通过 动态溅射像素 (Dynamic Splatter Pixel) 表示将外观、几何和运动统一建模，从单目视频在约 1 秒内完成 4D 重建，并支持新视角合成、3D 点跟踪、场景流估计和运动物体分割等多种任务。

研究背景与动机¶

现有 3D 视觉方法存在三个核心痛点：

任务割裂：深度估计、3D 重建、新视角合成、点跟踪等任务各自独立，缺乏统一建模。但这些任务共享底层 3D 先验，分离处理浪费了它们之间的互补信息。

静态场景局限：大多数前馈式重建方法（如 pixelSplat、GS-LRM、VGGT）仅处理静态场景，无法建模运动物体。

优化式动态重建效率低下：Shape-of-Motion、MoSca 等方法需要 10-45 分钟的逐场景优化，且依赖外部光流/点跟踪模型提供运动监督，流程复杂且难以泛化。

已有的前馈动态方法也各有缺陷：BTimer 逐帧独立预测缺乏时序一致性，需额外 enhancer 模块；NutWorld 缺少运动显式监督，使用正交相机导致投影失真。MoVieS 的核心动机是：能否用一个统一的前馈模型，同时输出外观、几何和运动，并在 1 秒内完成 4D 重建？ 关键洞察在于新视角合成和运动估计可以相互促进——渲染损失为运动提供密集空间约束，而显式运动监督帮助模型学习时序一致的几何。

方法详解¶

整体框架¶

MoVieS 接收带有相机参数和时间戳的单目视频 $\mathcal{V} = \{\mathbf{I}_i, \mathbf{P}_i, \mathbf{K}_i, t_i\}_{i=1}^{N}$，通过三个阶段处理：

特征提取：预训练图像编码器（DINOv2）提取逐帧特征，融合相机嵌入和时间戳 token
跨帧注意力：VGGT 的几何预训练注意力块实现帧间信息交互，产生富含跨帧上下文的共享特征
三头预测：深度头、溅射头（外观）、运动头并行输出动态溅射像素的全部属性

最终通过可微 3DGS 渲染器将动态溅射像素渲染为目标视角和时间的图像。

关键设计¶

动态溅射像素 (Dynamic Splatter Pixel)：核心表示方法。将动态场景分解为静态高斯基元和时变形变场。每个像素对应一个溅射像素 $\mathbf{g} = \{\mathbf{x}, \mathbf{a}\}$，其中 $\mathbf{x} \in \mathbb{R}^3$ 为规范空间位置，$\mathbf{a} \in \mathbb{R}^{11}$ 包含旋转四元数、尺度、不透明度和颜色。对于动态内容，附加时变形变 $\mathbf{m}(t) = \{\Delta\mathbf{x}(t), \Delta\mathbf{a}(t)\}$，通过简单加法更新： $$\mathbf{x} \leftarrow \mathbf{x} + \Delta\mathbf{x}(t), \quad \mathbf{a} \leftarrow \mathbf{a} + \Delta\mathbf{a}(t)$$ 设计动机：与以往将运动嵌入隐式场不同，显式分离静态几何和动态形变使得运动可被直接监督和可视化，同时在静态场景中运动自然趋近于零。
双重相机条件注入：将相机参数编码为两种互补形式注入特征。(a) Plücker 嵌入：将 $\mathbf{P}_i$ 和 $\mathbf{K}_i$ 转换为像素对齐的 Plücker 射线表示，与图像特征空间相加，提供局部几何约束。(b) Camera Token：将相机参数通过线性层编码为全局 token，拼接到注意力序列中，提供全局视角信息。消融实验证明两者结合效果最佳（PSNR 27.60 vs 单独 Plücker 25.81 或 Camera Token 26.81）。
运动头 (Motion Head)：采用自适应层归一化 (AdaLN) 将查询时间 $t_q$ 的正弦编码注入特征 token，然后通过 DPT 卷积预测每像素 3D 位移 $\Delta\mathbf{x}$ 和属性形变 $\Delta\mathbf{a}$。支持对任意查询时间戳预测运动，在推理时可通过改变 $t_q$ 实现连续时间的 4D 重建。运动图的可视化将 XYZ 坐标归一化到 $[0,1]$ 并映射为 RGB 通道。
解耦深度头与溅射头：不同于以往用单个头预测所有高斯属性，MoVieS 使用独立的深度头（从 VGGT 初始化）负责几何，溅射头（从头训练）负责外观。溅射头还引入 RGB 直连捷径从输入图像到最终卷积层，保留高频细节和色彩保真度。此解耦设计更好地利用了 VGGT 的几何先验。
运动监督设计：结合点级 L1 损失和分布级损失： $$\mathcal{L}_{\text{motion}} = \frac{\lambda_{\text{pt}}}{P}\sum_{i \in \Omega}\|\Delta\hat{\mathbf{x}}_i - \Delta\mathbf{x}_i\|_1 + \frac{\lambda_{\text{dist}}}{P^2}\sum_{(i,j) \in \Omega \times \Omega}\|\Delta\hat{\mathbf{x}}_i \cdot \Delta\hat{\mathbf{x}}_j^\top - \Delta\mathbf{x}_i \cdot \Delta\mathbf{x}_j^\top\|_1$$ 点级损失提供绝对运动约束，分布级损失保持像素间的相对运动结构。消融显示两者互补：点级产生合理运动图，分布级增强运动边界锐利度。

损失函数/训练策略¶

总损失为三部分加权组合：$\mathcal{L} = \lambda_d \mathcal{L}_{\text{depth}} + \lambda_r \mathcal{L}_{\text{rendering}} + \lambda_m \mathcal{L}_{\text{motion}}$

深度损失：预测深度图与 GT 的 MSE + 空间梯度 L1 损失，过滤无效值
渲染损失：像素 MSE + LPIPS 感知损失（$\lambda_{\text{LPIPS}} = 0.5$），对 $M$ 个随机采样目标时间戳渲染图计算
权重设置：$\lambda_d = 1, \lambda_r = 1, \lambda_m = 10, \lambda_{\text{pt}} = 1, \lambda_{\text{dist}} = 10$
课程训练：分三阶段逐步增加复杂度——(1) 静态场景预训练 (2) 动态场景+多视角训练 (3) 高分辨率微调
数据集：8 个异构数据集混合训练（RealEstate10K 70K 场景、TartanAir、MatrixCity、PointOdyssey、DynamicReplica、Spring、VKITTI2、Stereo4D 98K 场景）
工程优化：gsplat 渲染后端、DeepSpeed、梯度检查点、梯度累积、bf16 混合精度，32×H20 GPU 约 5 天

实验关键数据¶

主实验：新视角合成¶

方法	类型	每场景耗时	RE10K PSNR↑	DyCheck mPSNR↑	DyCheck mSSIM↑	NVIDIA PSNR↑
DepthSplat	前馈(静态)	0.60s	26.57	13.83	43.64	17.16
GS-LRM†	前馈(静态)	0.57s	26.94	14.60	45.35	17.83
Ours (static)	前馈(静态)	0.84s	27.60	15.24	47.84	18.73
Splatter-a-Video	优化式	37min	-	13.61	31.31	14.39
Shape-of-Motion	优化式	10min	-	17.96	56.62	15.30
MoSca	优化式	45min	-	18.24	55.14	21.45
MoVieS	前馈(动态)	0.93s	26.98	18.46	58.87	19.16

主实验：3D 点跟踪 (TAPVid-3D)¶

方法	ADT EPE3D↓	ADT δ0.05↑	ADT δ0.10↑	DriveTrack EPE3D↓	Panoptic δ0.05↑
BootsTAPIR†	0.5539	17.73%	32.97%	0.0617	69.28%
CoTracker3†	0.5614	19.88%	35.82%	0.0637	69.27%
SpatialTracker	0.5413	18.08%	38.23%	0.0648	72.91%
MoVieS	0.2153	52.05%	71.63%	0.0472	87.88%

消融实验¶

运动监督策略	ADT EPE3D↓	ADT δ0.05↑	ADT δ0.10↑
无运动监督	0.7938	19.58%	32.86%
+ 逐点 L1	0.2262	48.74%	69.93%
+ 分布损失	0.2496	45.98%	66.87%
两者结合 (Ours)	0.2153	52.05%	71.63%

NVS 与运动的协同效应	DyCheck mPSNR↑	NVIDIA PSNR↑	ADT EPE3D↓	ADT δ0.05↑
NVS 无运动	15.82	18.38	0.7938	19.58%
运动无 NVS	16.26	18.98	0.3801	24.72%
完整模型	18.46	19.16	0.2153	52.05%

关键发现¶

速度优势惊人：MoVieS 仅需 0.93 秒完成 4D 重建，比优化式方法快 600-2900 倍（Shape-of-Motion 10min, MoSca 45min），同时达到可比甚至更优的性能
运动与视图合成强耦合：消融实验清晰证明两个任务互相促进。仅靠 NVS 无法学到有意义的运动（EPE3D 0.79 vs 0.22）；缺少 NVS 的运动预测模糊且低质量。联合训练使两个任务都显著提升
静态-动态无缝衔接：处理静态输入时预测运动自然收敛到零（< 1e-3），模型隐式学会了区分静态和动态区域
3D 点跟踪大幅领先：在 ADT 上 EPE3D 从次优的 0.54 降至 0.22（提升 60%），δ0.05 从 19.88% 提升至 52.05%，因为直接在 3D 空间估计位移，避免了 2D 跟踪+深度反投影的误差累积
零样本泛化能力：运动图可直接用于场景流估计（运动向量从世界坐标转到相机坐标）和运动物体分割（对运动向量范数取阈值），无需任何任务特定微调

亮点与洞察¶

统一表示的优雅性：动态溅射像素将静态 3DGS 自然扩展到 4D，通过简单加法形变实现动态建模，同时保持可微渲染完整性。比隐式形变场或 4D 原语更简洁高效
代理任务思想：新视角合成作为运动学习的代理任务，提供了比稀疏点跟踪标注密集得多的空间约束。「用渲染监督运动」的思路值得广泛借鉴
异构数据大规模训练：灵活的模型设计允许在 8 个标注不同的数据集上混合训练，课程学习策略有效缓解了异构数据带来的不稳定性
预训练+微调在 4D 的成功：基于 VGGT 初始化将训练时间缩短约 3 倍，但从零训练也能达到类似效果

局限性¶

依赖已知相机参数：假设输入视频带有准确位姿和内参，未处理无位姿视频（作者明确留给未来工作）
NVIDIA 数据集上不如 MoSca：在多视角动态场景（NVIDIA PSNR 21.45 vs 19.16），优化式方法在细节拟合上仍有优势
训练不稳定性：三阶段课程训练 + 32 张 H20 GPU 的开销对复现造成门槛，训练中出现 loss 震荡和 None 梯度
运动头时间复杂度：每个查询时间戳需独立推理，密集时间采样时推理开销线性增长

评分¶

维度	评分	理由
新颖性	⭐⭐⭐⭐	动态溅射像素和外观-几何-运动统一建模思想新颖，但基础组件（3DGS、VGGT、DPT）均为已有技术组合
实验	⭐⭐⭐⭐⭐	覆盖静态/动态 NVS、3D 点跟踪、零样本应用，消融设计精到（运动监督、NVS-运动协同、相机条件），公平比较（统一相机参数）
写作	⭐⭐⭐⭐	结构清晰，图表质量高，动机论述充分，消融可视化有效支撑设计选择
价值	⭐⭐⭐⭐⭐	将 4D 动态重建从分钟级压缩到秒级同时保持竞争力，统一框架的实用性和零样本泛化为后续工作奠定强基础