RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes¶

会议: NeurIPS 2025
arXiv: 2509.15123
代码: 无
领域: 3D视觉
关键词: camera parameter estimation, dynamic scene, RGB-only supervision, outlier-aware optimization, visual odometry

一句话总结¶

ROS-Cam 提出仅用单个RGB视频作为监督的动态场景相机参数（焦距+位姿）优化方法，通过Patch-wise跟踪过滤器建立稀疏鲁棒对应关系、Cauchy分布异常值感知联合优化自适应降权运动物体、以及基于Softplus/凸极小分析的两阶段优化策略，在5个数据集上以最少监督实现最优精度和最快速度。

研究背景与动机¶

领域现状：COLMAP是静态场景相机参数估计的事实标准，但处理动态场景需要真值运动掩码来排除运动物体。近年来出现了大量改进方法（表1分类），但绝大多数依赖额外先验：GT焦距（CF-3DGS、Nope-NeRF）、GT运动掩码（GFlow、LEAP-VO）、度量深度（DROID-SLAM）、GT 3D点云和位姿（DUSt3R、Monst3R、Cut3R）。这些先验在随手拍摄的视频中通常不可获得。

现有痛点：(a) 仅有的几个RGB-only方法（VGGSfM、FlowMap、casualSAM）要么无法处理动态场景，要么依赖多个预训练稠密预测模型（RAFT/CoTracker/MiDAS）做伪监督——其中任一模型失效就导致整体性能下降；(b) 无法在不依赖GT运动先验的情况下自适应排除运动离群点；(c) 计算延迟高。

核心矛盾：能否仅用RGB视频——最基本的监督形式——在动态场景中准确高效地估计相机焦距和位姿？这需要同时解决三个难题：稀疏鲁棒的跟踪关系、运动物体的自适应排除、高效稳定的优化收敛。

切入角度：建立"最大程度稀疏"的铰链式跟踪关系（仅依赖点跟踪模型而非稠密预测），用Cauchy分布建模不确定性来降权运动离群点（而非分割/检测它们），两阶段优化策略平衡快速收敛和精确收敛。核心 idea：用最少的依赖（仅PT模型）提取最鲁棒的信息（稀疏高梯度跟踪点），用最robust的不确定性模型（Cauchy重尾分布）联合优化相机参数和3D校准点。

方法详解¶

整体框架¶

给定N帧RGB视频，ROS-Cam首先通过Patch-wise Tracking Filters从PT模型的输出中提取H条稀疏鲁棒跟踪轨迹作为伪监督。每条轨迹对应一个可学习的3D校准点P^{cali}。然后联合优化校准点、焦距f、旋转四元数Q、平移t和不确定性参数Γ。最后将估计的相机参数输入4DGS进行4D场景重建。

关键设计¶

Patch-wise Tracking Filters（逐Patch跟踪过滤器）:
- 功能：从预训练点跟踪模型的输出中提取最稀疏、最鲁棒的跟踪轨迹作为优化的伪监督
- 核心思路：四级过滤器级联——(a) Patch-wise Texture Filter：将图像划分为w×w的patch，计算每个patch的强度方差，仅保留纹理丰富的patch（高方差=易跟踪）；(b) Patch-wise Gradient Filter：在每个选中的patch内选择梯度模最大的像素作为跟踪点；(c) Visibility Filter：删除任何时刻变得不可见的轨迹（避免遮挡后重出现的跟踪误差）；(d) Patch-wise Distribution Filter：当多条轨迹落入同一patch时只保留梯度最大的那条，保证空间均匀分布
- 设计动机：PT模型的注意力机制对纹理丰富/高梯度的点跟踪更准确（利用而非对抗PT模型的特性）。"铰链式"最大稀疏——大幅减少可学习参数数量和计算量，同时提高鲁棒性
Outlier-aware Joint Optimization（异常值感知联合优化）:
- 功能：在不依赖任何运动先验/掩码的情况下，自适应降低运动物体对应点对优化的影响
- 核心思路：为每个3D校准点P^{cali}_h关联一个不确定性参数Γ_h（用Softplus保证正值）。提出Average Cumulative Projection (ACP) Error——将每个校准点在所有帧上的投影误差累积取平均。构造Cauchy Loss: L = (1/H)Σlog(Γ + E²_ACP/Γ)，其中运动物体的校准点因三角测量不一致而产生高ACP误差→学出大Γ→被降权。使用四元数表示旋转（避免正交性约束）
- 设计动机：Cauchy分布比高斯分布更能处理重尾（运动离群点产生的大误差），且其对数似然形式产生的Cauchy Loss天然具有对大误差的鲁棒性。不确定性关联在稀疏3D点上（而非2D像素上）大幅减少参数——NeRF-DS场景casualSAM有424×270×480个不确定性参数，ROS-Cam仅440个
Two-stage Optimization Strategy（两阶段优化策略）:
- 功能：加速收敛并避免局部极小
- 核心思路：Stage 1——固定Γ^{raw}=1（不学不确定性），仅优化P^{cali}/f/Q/t，利用Softplus(1)≈ln2的近似快速收敛到粗略解。Stage 2——用Stage 1的ACP误差初始化Γ^{raw}（基于Cauchy Loss内凸项Φ=x+O/x的最优解x*=√O），然后联合优化所有参数，运动物体被正确降权后进一步精化
- 设计动机：如果从头联合优化Γ，Cauchy Loss的非凸性容易导致收敛不稳定。两阶段策略基于对Softplus渐近行为和Cauchy Loss凸子项的解析分析——是带有理论指导的工程设计而非启发式trick

损失函数 / 训练策略¶

总损失: L_total = L_cauchy + R_depth。L_cauchy为Cauchy Loss（主项），R_depth = (1/N)Σ-ReLU(P^{proj-homo}[:,3])为深度正则化（鼓励正深度）。Stage 1做200次迭代，Stage 2做50次迭代。

实验关键数据¶

主实验¶

方法	监督类型	NeRF-DS PSNR↑	DAVIS PSNR↑	TUM ATE↓	TUM RPE_t↓	运行时间
COLMAP(w/ mask)	GT运动掩码	32.17	-	-	-	1.5h
casualSAM	RGB-only	21.23	19.03	0.071	0.010	10.5h
Robust-CVD	RGB-only	-	-	0.153	0.026	-
ROS-Cam	RGB-only	33.55	22.29	0.065	0.010	0.83h

方法	iPhone Avg. PSNR↑	方法类型
Record3D	~25.5	LiDAR传感器
COLMAP(w/o mask)	~21.0	RGB-only(静态)
ROS-Cam	~25.2	RGB-only

消融实验¶

配置	NeRF-DS PSNR↑	说明
Full (ROS-Cam)	33.55	完整方法
w/o two-stage	25.95	去掉两阶段→不稳定收敛
w/o Γ	26.44	去掉不确定性→无法排除运动离群点
w/o E_ACP	23.56	去掉ACP误差→最差
w/o texture filter	25.99	跟踪点质量下降
w/o gradient filter	26.04	跟踪点质量下降
w/o distribution filter	26.02	跟踪点聚集不均匀

关键发现¶

ROS-Cam在NeRF-DS上PSNR 33.55甚至超越使用GT运动掩码的COLMAP(32.17)——纯RGB监督反超GT掩码监督
运行时间线性增长（约1/800小时/帧），而COLMAP近似指数增长——长视频优势更大
在TUM-dynamics上位姿精度(ATE=0.065)优于需要GT焦距+度量深度的DROID-SLAM(0.043)和需要GT 3D点云的Monst3R(0.098)——相当于或超越使用更多监督的方法
消融显示每个组件都有显著贡献，ACP误差和不确定性参数是最关键的两个设计

亮点与洞察¶

"最少监督=最强泛化"的哲学：通过极致减少对预训练模型和外部先验的依赖，反而避免了任何一个先验源出错的级联风险
不确定性参数的稀疏关联（3D点而非2D像素）是一个elegant的工程决策——parameter数量降低几个数量级同时保持效果
Cauchy Loss的选择有理论支撑（重尾鲁棒性）且与ACP误差天然配合——形成了一个自洽的鲁棒估计框架
两阶段优化不是简单的coarse-to-fine，而是基于对Softplus渐近行为和Cauchy Loss凸子项的解析分析得到的理论指导设计

局限与展望¶

假设针孔相机模型和恒定焦距，不适用于鱼眼/变焦镜头
极端动态场景（几乎所有物体都在运动，静态点极少）可能导致三角测量退化
RGB-only方法的精度天花板仍低于LiDAR等直接测量
MPI-Sintel上一些高速运动场景表现不如casualSAM（如ambush_4/5）

评分¶

新颖性: ⭐⭐⭐⭐ 最小监督形式+Cauchy鲁棒估计的组合设计有独特性
实验充分度: ⭐⭐⭐⭐⭐ 5个数据集（3真实+1合成+1iPhone）、NVS+位姿+运行时间多维评估、详尽消融
写作质量: ⭐⭐⭐⭐ 方法动机清晰，理论分析扎实
价值: ⭐⭐⭐⭐ 对casually captured动态视频的3D/4D重建有直接实用价值