C4D: 4D Made from 3D through Dual Correspondences¶
会议: ICCV 2025
arXiv: 2510.14960
代码: https://littlepure2333.github.io/C4D
领域: 3D视觉 / 4D重建 / 动态场景
关键词: 4D重建, 时序对应, 点跟踪, 运动分割, DUSt3R
一句话总结¶
提出C4D框架,通过在DUSt3R的3D pointmap预测基础上联合捕获双重时序对应(短时光流+动态感知长时点跟踪DynPT),生成运动掩码分离动静区域,并引入相机运动对齐/相机轨迹平滑/点轨迹平滑三个优化目标,将现有3D重建范式升级为完整4D重建(逐帧点云+相机参数+2D/3D轨迹),在深度/位姿/跟踪多个下游任务上达competitive性能。
背景与动机¶
DUSt3R等pointmap-based方法在静态场景3D重建上效果出色,但直接应用于动态场景时因运动物体违反多视角几何约束而失败。现有4D方法要么需要微调模型(MonST3R),要么依赖NeRF/3DGS的复杂优化。问题核心在于:如何在不修改预训练权重的情况下,利用时序对应信息将3D重建升级为4D?
核心问题¶
如何利用时序对应关系(光流+点跟踪)来区分动静区域、改善相机位姿估计、并实现时序平滑的4D重建?
方法详解¶
整体框架¶
单目视频 → DUSt3R/MASt3R/MonST3R预测pointmap + DynPT预测长时轨迹+动态性 + 光流估计短时对应 → 对应引导的运动掩码预测(静态点基本矩阵+极线误差) → 多目标优化(GA+CMA+CTS+PTS) → 4D输出(逐帧点云/深度/相机位姿/内参/运动掩码/2D+3D轨迹)
关键设计¶
- DynPT(动态感知点跟踪器): 基于CoTracker架构,增加3D-aware ViT编码器(DUSt3R预训练encoder冻结) + CNN双特征提取。Transformer迭代更新每个跟踪点的位置/置信度/可见性/动态性(mobility)。在Kubric上训练,用位置差分阈值生成mobility GT。
- 对应引导运动掩码: 利用DynPT预测的静态点从光流中采样静态对应 → LMedS估计基本矩阵(仅反映相机运动) → Sampson误差检测违反极线约束的动态区域 → 多帧联合取并集。比MonST3R的运动掩码更准确。
- 对应辅助优化:
- CMA(相机运动对齐): 在静态区域约束ego-motion field与光流一致
- CTS(相机轨迹平滑): 惩罚相邻帧旋转/平移的突变
- PTS(点轨迹平滑): 稀疏跟踪点自适应加权平滑 → 线性混合位移(LBD)传播到密集点
- 即插即用: 不修改DUSt3R/MASt3R/MonST3R权重,仅在优化阶段加入新目标
训练/优化细节¶
- DynPT: 50K步训练,batch 32,AdamW+OneCycle lr 5e-4
- 优化分两阶段: (1) GA+CMA+CTS优化深度/位姿/内参 (2) 固定位姿,PTS仅优化深度
- 各300迭代,Adam lr 0.01
实验关键数据¶
相机位姿估计(ATE↓)¶
| 方法 | Sintel | TUM-dyn | ScanNet |
|---|---|---|---|
| MonST3R+GA | 0.158 | 0.099 | 0.075 |
| C4D-M | 0.103 | 0.071 | 0.061 |
| DROID-SLAM† | 0.175 | - | - |
| LEAP-VO† | 0.089 | 0.068 | 0.070 |
- 比MonST3R+GA: Sintel ATE降35%, RPE_rot从1.924降到0.705
- 甚至competitive with需要GT内参的专用VO方法
视频深度估计(AbsRel↓, scale-only)¶
| 方法 | Sintel | Bonn | KITTI |
|---|---|---|---|
| MonST3R | 0.345 | 0.065 | 0.159 |
| C4D-M | 0.338 | 0.063 | 0.091 |
| DepthCrafter | 0.692 | 0.217 | 0.141 |
Scale-only对齐下KITTI AbsRel 0.091(MonST3R 0.159的43%改善)
点跟踪(TAP-Vid DAVIS AJ↑)¶
| 方法 | AJ | δ_avg | OA |
|---|---|---|---|
| CoTracker | 61.8 | 76.1 | 88.3 |
| DynPT | 61.6 | 75.4 | 87.4 |
Competitive with SOTA + 额外预测mobility(D-ACC: MOVi-E 87.9%, Pan.MOVi-E 94.1%)
消融实验(Sintel)¶
| 变体 | ATE↓ | RPE_t↓ | RPE_r↓ |
|---|---|---|---|
| w/o CMA | 0.140 | 0.051 | 0.905 |
| w/o CTS | 0.131 | 0.058 | 1.348 |
| w/o PTS | 0.103 | 0.040 | 0.705 |
| C4D | 0.103 | 0.040 | 0.705 |
CTS对RPE_rot影响最大(0.705→1.348)
亮点 / 我学到了什么¶
- 即插即用4D升级: 不需要微调3D模型权重,仅通过优化目标和时序对应就能升级3D→4D
- DynPT的mobility预测: 关键创新——区分点的移动是来自相机运动还是物体运动,使运动掩码预测更准确
- LMedS+基本矩阵的运动分割: 优雅的方案——仅用静态点估计F矩阵,所有违反极线约束的区域都是动态区域
- 多帧运动掩码联合: 解决短时静止物体(如站立时的脚)在两帧间不动的问题
局限性 / 可改进方向¶
- DynPT在Kubric合成数据训练,domain gap可能影响真实世界动态预测
- 优化阶段较慢(2×300迭代)
- PTS目标对深度定量指标影响小,但时序平滑性提升显著(需视觉评估)
与相关工作的对比¶
- vs MonST3R: 微调DUSt3R decoder;C4D不修改权重,通过优化升级。C4D运动掩码更准确(Fig.6)
- vs Shape-of-Motion/GFlow: 需要NeRF/3DGS优化;C4D基于pointmap更轻量
- vs DROID-SLAM/LEAP-VO: 需GT内参;C4D仅需单目视频
与我的研究方向的关联¶
- DUSt3R范式的4D扩展是当前热点方向
- 运动掩码预测方法(光流+基本矩阵)对动态场景理解有通用价值
- DynPT的mobility预测可用于自动驾驶等场景的动态物体检测
评分¶
- 新颖性: ⭐⭐⭐⭐ DynPT的mobility预测和对应引导的运动掩码是主要创新
- 实验充分度: ⭐⭐⭐⭐⭐ 3D/4D对比+3个下游任务+6+数据集+消融+motion seg评估
- 写作质量: ⭐⭐⭐⭐ 架构图清晰,方法描述完整
- 对我的价值: ⭐⭐⭐⭐ 4D重建方法论 + DUSt3R生态系统的重要扩展