跳转至

C4D: 4D Made from 3D through Dual Correspondences

会议: ICCV 2025
arXiv: 2510.14960
代码: https://littlepure2333.github.io/C4D
领域: 3D视觉 / 4D重建 / 动态场景
关键词: 4D重建, 时序对应, 点跟踪, 运动分割, DUSt3R

一句话总结

提出C4D框架,通过在DUSt3R的3D pointmap预测基础上联合捕获双重时序对应(短时光流+动态感知长时点跟踪DynPT),生成运动掩码分离动静区域,并引入相机运动对齐/相机轨迹平滑/点轨迹平滑三个优化目标,将现有3D重建范式升级为完整4D重建(逐帧点云+相机参数+2D/3D轨迹),在深度/位姿/跟踪多个下游任务上达competitive性能。

背景与动机

DUSt3R等pointmap-based方法在静态场景3D重建上效果出色,但直接应用于动态场景时因运动物体违反多视角几何约束而失败。现有4D方法要么需要微调模型(MonST3R),要么依赖NeRF/3DGS的复杂优化。问题核心在于:如何在不修改预训练权重的情况下,利用时序对应信息将3D重建升级为4D?

核心问题

如何利用时序对应关系(光流+点跟踪)来区分动静区域、改善相机位姿估计、并实现时序平滑的4D重建?

方法详解

整体框架

单目视频 → DUSt3R/MASt3R/MonST3R预测pointmap + DynPT预测长时轨迹+动态性 + 光流估计短时对应 → 对应引导的运动掩码预测(静态点基本矩阵+极线误差) → 多目标优化(GA+CMA+CTS+PTS) → 4D输出(逐帧点云/深度/相机位姿/内参/运动掩码/2D+3D轨迹)

关键设计

  1. DynPT(动态感知点跟踪器): 基于CoTracker架构,增加3D-aware ViT编码器(DUSt3R预训练encoder冻结) + CNN双特征提取。Transformer迭代更新每个跟踪点的位置/置信度/可见性/动态性(mobility)。在Kubric上训练,用位置差分阈值生成mobility GT。
  2. 对应引导运动掩码: 利用DynPT预测的静态点从光流中采样静态对应 → LMedS估计基本矩阵(仅反映相机运动) → Sampson误差检测违反极线约束的动态区域 → 多帧联合取并集。比MonST3R的运动掩码更准确。
  3. 对应辅助优化:
  4. CMA(相机运动对齐): 在静态区域约束ego-motion field与光流一致
  5. CTS(相机轨迹平滑): 惩罚相邻帧旋转/平移的突变
  6. PTS(点轨迹平滑): 稀疏跟踪点自适应加权平滑 → 线性混合位移(LBD)传播到密集点
  7. 即插即用: 不修改DUSt3R/MASt3R/MonST3R权重,仅在优化阶段加入新目标

训练/优化细节

  • DynPT: 50K步训练,batch 32,AdamW+OneCycle lr 5e-4
  • 优化分两阶段: (1) GA+CMA+CTS优化深度/位姿/内参 (2) 固定位姿,PTS仅优化深度
  • 各300迭代,Adam lr 0.01

实验关键数据

相机位姿估计(ATE↓)

方法 Sintel TUM-dyn ScanNet
MonST3R+GA 0.158 0.099 0.075
C4D-M 0.103 0.071 0.061
DROID-SLAM† 0.175 - -
LEAP-VO† 0.089 0.068 0.070
  • 比MonST3R+GA: Sintel ATE降35%, RPE_rot从1.924降到0.705
  • 甚至competitive with需要GT内参的专用VO方法

视频深度估计(AbsRel↓, scale-only)

方法 Sintel Bonn KITTI
MonST3R 0.345 0.065 0.159
C4D-M 0.338 0.063 0.091
DepthCrafter 0.692 0.217 0.141

Scale-only对齐下KITTI AbsRel 0.091(MonST3R 0.159的43%改善)

点跟踪(TAP-Vid DAVIS AJ↑)

方法 AJ δ_avg OA
CoTracker 61.8 76.1 88.3
DynPT 61.6 75.4 87.4

Competitive with SOTA + 额外预测mobility(D-ACC: MOVi-E 87.9%, Pan.MOVi-E 94.1%)

消融实验(Sintel)

变体 ATE↓ RPE_t↓ RPE_r↓
w/o CMA 0.140 0.051 0.905
w/o CTS 0.131 0.058 1.348
w/o PTS 0.103 0.040 0.705
C4D 0.103 0.040 0.705

CTS对RPE_rot影响最大(0.705→1.348)

亮点 / 我学到了什么

  • 即插即用4D升级: 不需要微调3D模型权重,仅通过优化目标和时序对应就能升级3D→4D
  • DynPT的mobility预测: 关键创新——区分点的移动是来自相机运动还是物体运动,使运动掩码预测更准确
  • LMedS+基本矩阵的运动分割: 优雅的方案——仅用静态点估计F矩阵,所有违反极线约束的区域都是动态区域
  • 多帧运动掩码联合: 解决短时静止物体(如站立时的脚)在两帧间不动的问题

局限性 / 可改进方向

  • DynPT在Kubric合成数据训练,domain gap可能影响真实世界动态预测
  • 优化阶段较慢(2×300迭代)
  • PTS目标对深度定量指标影响小,但时序平滑性提升显著(需视觉评估)

与相关工作的对比

  • vs MonST3R: 微调DUSt3R decoder;C4D不修改权重,通过优化升级。C4D运动掩码更准确(Fig.6)
  • vs Shape-of-Motion/GFlow: 需要NeRF/3DGS优化;C4D基于pointmap更轻量
  • vs DROID-SLAM/LEAP-VO: 需GT内参;C4D仅需单目视频

与我的研究方向的关联

  • DUSt3R范式的4D扩展是当前热点方向
  • 运动掩码预测方法(光流+基本矩阵)对动态场景理解有通用价值
  • DynPT的mobility预测可用于自动驾驶等场景的动态物体检测

评分

  • 新颖性: ⭐⭐⭐⭐ DynPT的mobility预测和对应引导的运动掩码是主要创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 3D/4D对比+3个下游任务+6+数据集+消融+motion seg评估
  • 写作质量: ⭐⭐⭐⭐ 架构图清晰,方法描述完整
  • 对我的价值: ⭐⭐⭐⭐ 4D重建方法论 + DUSt3R生态系统的重要扩展