C4D: 4D Made from 3D through Dual Correspondences¶

会议: ICCV 2025
arXiv: 2510.14960
代码: https://littlepure2333.github.io/C4D
领域: 3D视觉 / 4D重建 / 动态场景
关键词: 4D重建, 时序对应, 点跟踪, 运动分割, DUSt3R

一句话总结¶

提出C4D框架，通过在DUSt3R的3D pointmap预测基础上联合捕获双重时序对应(短时光流+动态感知长时点跟踪DynPT)，生成运动掩码分离动静区域，并引入相机运动对齐/相机轨迹平滑/点轨迹平滑三个优化目标，将现有3D重建范式升级为完整4D重建(逐帧点云+相机参数+2D/3D轨迹)，在深度/位姿/跟踪多个下游任务上达competitive性能。

背景与动机¶

DUSt3R等pointmap-based方法在静态场景3D重建上效果出色，但直接应用于动态场景时因运动物体违反多视角几何约束而失败。现有4D方法要么需要微调模型(MonST3R)，要么依赖NeRF/3DGS的复杂优化。问题核心在于：如何在不修改预训练权重的情况下，利用时序对应信息将3D重建升级为4D？

核心问题¶

如何利用时序对应关系(光流+点跟踪)来区分动静区域、改善相机位姿估计、并实现时序平滑的4D重建？

方法详解¶

整体框架¶

单目视频 → DUSt3R/MASt3R/MonST3R预测pointmap + DynPT预测长时轨迹+动态性 + 光流估计短时对应 → 对应引导的运动掩码预测(静态点基本矩阵+极线误差) → 多目标优化(GA+CMA+CTS+PTS) → 4D输出(逐帧点云/深度/相机位姿/内参/运动掩码/2D+3D轨迹)

关键设计¶

DynPT(动态感知点跟踪器): 基于CoTracker架构，增加3D-aware ViT编码器(DUSt3R预训练encoder冻结) + CNN双特征提取。Transformer迭代更新每个跟踪点的位置/置信度/可见性/动态性(mobility)。在Kubric上训练，用位置差分阈值生成mobility GT。
对应引导运动掩码: 利用DynPT预测的静态点从光流中采样静态对应 → LMedS估计基本矩阵(仅反映相机运动) → Sampson误差检测违反极线约束的动态区域 → 多帧联合取并集。比MonST3R的运动掩码更准确。
对应辅助优化:
CMA(相机运动对齐): 在静态区域约束ego-motion field与光流一致
CTS(相机轨迹平滑): 惩罚相邻帧旋转/平移的突变
PTS(点轨迹平滑): 稀疏跟踪点自适应加权平滑 → 线性混合位移(LBD)传播到密集点
即插即用: 不修改DUSt3R/MASt3R/MonST3R权重，仅在优化阶段加入新目标

训练/优化细节¶

DynPT: 50K步训练，batch 32，AdamW+OneCycle lr 5e-4
优化分两阶段: (1) GA+CMA+CTS优化深度/位姿/内参 (2) 固定位姿，PTS仅优化深度
各300迭代，Adam lr 0.01

实验关键数据¶

相机位姿估计(ATE↓)¶

方法	Sintel	TUM-dyn	ScanNet
MonST3R+GA	0.158	0.099	0.075
C4D-M	0.103	0.071	0.061
DROID-SLAM†	0.175	-	-
LEAP-VO†	0.089	0.068	0.070

比MonST3R+GA: Sintel ATE降35%, RPE_rot从1.924降到0.705
甚至competitive with需要GT内参的专用VO方法

视频深度估计(AbsRel↓, scale-only)¶

方法	Sintel	Bonn	KITTI
MonST3R	0.345	0.065	0.159
C4D-M	0.338	0.063	0.091
DepthCrafter	0.692	0.217	0.141

Scale-only对齐下KITTI AbsRel 0.091(MonST3R 0.159的43%改善)

点跟踪(TAP-Vid DAVIS AJ↑)¶

方法	AJ	δ_avg	OA
CoTracker	61.8	76.1	88.3
DynPT	61.6	75.4	87.4

Competitive with SOTA + 额外预测mobility(D-ACC: MOVi-E 87.9%, Pan.MOVi-E 94.1%)

消融实验(Sintel)¶

变体	ATE↓	RPE_t↓	RPE_r↓
w/o CMA	0.140	0.051	0.905
w/o CTS	0.131	0.058	1.348
w/o PTS	0.103	0.040	0.705
C4D	0.103	0.040	0.705

CTS对RPE_rot影响最大(0.705→1.348)

亮点 / 我学到了什么¶

即插即用4D升级: 不需要微调3D模型权重，仅通过优化目标和时序对应就能升级3D→4D
DynPT的mobility预测: 关键创新——区分点的移动是来自相机运动还是物体运动，使运动掩码预测更准确
LMedS+基本矩阵的运动分割: 优雅的方案——仅用静态点估计F矩阵，所有违反极线约束的区域都是动态区域
多帧运动掩码联合: 解决短时静止物体(如站立时的脚)在两帧间不动的问题

局限性 / 可改进方向¶

DynPT在Kubric合成数据训练，domain gap可能影响真实世界动态预测
优化阶段较慢(2×300迭代)
PTS目标对深度定量指标影响小，但时序平滑性提升显著(需视觉评估)

与相关工作的对比¶

vs MonST3R: 微调DUSt3R decoder；C4D不修改权重，通过优化升级。C4D运动掩码更准确(Fig.6)
vs Shape-of-Motion/GFlow: 需要NeRF/3DGS优化；C4D基于pointmap更轻量
vs DROID-SLAM/LEAP-VO: 需GT内参；C4D仅需单目视频

与我的研究方向的关联¶

DUSt3R范式的4D扩展是当前热点方向
运动掩码预测方法(光流+基本矩阵)对动态场景理解有通用价值
DynPT的mobility预测可用于自动驾驶等场景的动态物体检测

评分¶

新颖性: ⭐⭐⭐⭐ DynPT的mobility预测和对应引导的运动掩码是主要创新
实验充分度: ⭐⭐⭐⭐⭐ 3D/4D对比+3个下游任务+6+数据集+消融+motion seg评估
写作质量: ⭐⭐⭐⭐ 架构图清晰，方法描述完整
对我的价值: ⭐⭐⭐⭐ 4D重建方法论 + DUSt3R生态系统的重要扩展