MARVO: Marine-Adaptive Radiance-aware Visual Odometry¶

会议: CVPR 2026
arXiv: 2511.22860
代码: 无
领域: 模型压缩
关键词: 水下视觉里程计, 物理感知特征匹配, 因子图优化, 强化学习位姿图优化, 多传感器融合

一句话总结¶

提出 MARVO 水下视觉里程计框架，将物理感知辐射适配器 (PARA) 嵌入 LoFTR 特征匹配器补偿水下波长衰减、结合 GTSAM 多传感器因子图融合和强化学习位姿图优化 (RL-PGO)，在水下场景实现鲁棒定位。

研究背景与动机¶

水下视觉定位面临独特挑战：光散射、波长依赖的衰减和强非高斯噪声导致严重对比度损失、不稳定特征和长期位姿估计不一致。传统 VO/SLAM 在水下失败的两层原因：

感知层面：未校正水下图像形成的物理过程（颜色通道衰减、后向散射），特征描述子在浑浊区域失效。标准 LoFTR 在光谱退化区域匹配质量大幅下降

优化层面：标准最小二乘求解器（Gauss-Newton/LM）在高噪声、视觉退化轨迹上陷入局部最优，尤其回环约束稀疏时

MARVO 核心理念：鲁棒水下 VO 需同时具备 (i) 显式补偿辐射畸变的感知模块和 (ii) 能逃离局部最优的全局优化器。

方法详解¶

整体框架¶

三模块串联： 1. 前端感知：PARA 增强的 LoFTR 特征匹配 → 物理校正的半稠密对应点 2. 后端估计：GTSAM 因子图融合视觉-惯性-气压约束 → 实时 VO 3. 离线优化：RL-PGO 在 SE(2) 上强化学习优化 → 全局一致轨迹

关键设计¶

1. 物理感知辐射适配器 (PARA)¶

功能：在 LoFTR 的 CNN 编码器和 Transformer 层之间插入轻量模块，显式校正水下光学退化
核心思路：基于修正的水下图像形成模型：

\[I_c(x) = J_c(x) e^{-\beta_c(x)z(x)} + B_\infty^c(x)(1 - e^{-\beta_c(x)z(x)})\]

PARA 使用三分支预测头从共享特征估计逐像素衰减系数 \(\hat{\boldsymbol{\beta}} \in \mathbb{R}^{H \times W \times 3}\)、渐近后向散射 \(\hat{\mathbf{B}}_\infty \in \mathbb{R}^{H \times W \times 3}\)、深度代理 \(\hat{\mathbf{z}} \in \mathbb{R}^{H \times W \times 1}\)。反演物理模型得辐射校正估计，生成标量校正掩码：

\[\Gamma(x) = \frac{1}{3}\sum_{c \in \{R,G,B\}} \frac{\hat{J}_c(x)}{I_c(x) + \epsilon}\]

应用于编码器特征：\(\tilde{\mathbf{F}}(x) = \text{LN}(\Gamma(x) \odot \mathbf{F}(x))\)

设计动机：不是图像预处理，而是将物理校正直接嵌入特征管线。PARA 仅增加 <5% 参数但大幅提升描述子一致性。消融表明物理监督（而非简单 CNN 调制）是鲁棒性关键

2. 多传感器因子图融合¶

功能：在 GTSAM 中构建固定滞后平滑器，融合三类约束
核心思路：
- IMU 预积分因子：提供尺度约束和短期运动，标准 GTSAM 预积分
- MARVO 视觉因子：从 PARA-LoFTR 半稠密匹配估计相对位姿，协方差与内点数和空间覆盖度成反比，高可见度帧自动主导优化
- 气压深度先验：一元深度因子消除单目水下 VO 常见的垂直漂移
设计动机：气压传感器成本极低但对垂直漂移效果显著。自适应协方差让系统在退化帧自动降权

3. 强化学习位姿图优化 (RL-PGO)¶

功能：离线用 RL 策略在 SE(2) 上精化位姿图，超越经典最小二乘局部最优
核心思路：
将 SE(3) 投影到 SE(2)（AUV/ROV 横滚俯仰稳定，偏航为主旋转自由度，深度由气压固定）
GNN 编码器聚合边残差生成状态表示
循环 SAC 智能体选择边并输出 SE(2) 回缩动作
精化后重新嵌入 SE(3)，最终 LM 快速微调
关键创新——对数加权方向代价：

\[OC_{\text{log}} = \sqrt{\sum_{(i,j) \in E} w_{ij} \|R_i R_{ij} - R_j\|_F^2}\]

\[w_{ij} = 1 + \beta \log\left(\frac{\|\mathbf{t}_{ij}\|}{\bar{t}} + \epsilon\right)\]

对数亚线性使长距离约束被强调但不被极长噪声边主导。\(\beta=0\) 退化为均匀加权

设计动机：水下视觉退化致使经典 PGO 初始化差、陷入局部最优

损失函数 / 训练策略¶

前端联合损失：\(\mathcal{L} = \lambda_{\text{match}}\mathcal{L}_{\text{match}} + \lambda_{\text{photo}}\mathcal{L}_{\text{photo}} + \lambda_{\text{phys}}\mathcal{L}_{\text{phys}}\)

\(\mathcal{L}_{\text{match}} = \|\hat{\mathbf{P}} - \mathbf{P}^*\|_1\)：匹配点几何一致性
\(\mathcal{L}_{\text{photo}} = 1 - \text{SSIM}(I'_A, I'_B)\)：辐射校正后视图一致性
\(\mathcal{L}_{\text{phys}} = \|\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_{\text{gt}}\|_1 + \|\hat{\mathbf{B}}_\infty - \mathbf{B}_{\infty,\text{gt}}\|_1\)：物理参数 L1 监督

两阶段训练：~12 万合成水下对（ScanNet/TartanAir/Hypersim 经 SyreaNet 渲染）预训练 → ~1.2 万真实帧（10% KITTI + 内部数据）微调。4×A100 混合精度。

实验关键数据¶

主实验¶

真实水下 VO 性能（Scale Aligned）:

方法	ATE (m)↓	RPE (deg/m)↓	Drift (%)↓
ORB-SLAM3	4.12	0.92	3.8
LIBVISO2	3.47	0.85	3.1
MAST3R-SLAM	2.52	0.58	2.2
VGGT-SLAM	2.41	0.56	2.1
MARVO (Ours)	1.73	0.34	1.2

合成水下特征匹配 (Pose AUC):

方法	@5°	@10°	@20°
SP+SuperGlue	25.4	42.2	59.7
LoFTR	42.9	59.5	68.2
MARVO	49.7	62.9	71.3

消融实验¶

配置	AUC @10°↑	ATE (m)↓	Drift (%)↓
Full MARVO	0.92	1.73	1.2
无 PARA 模块	0.81	2.24	1.9
替换为原始 LoFTR	0.76	2.47	2.3
经典 PGO 替代 RL-PGO	0.84	2.05	1.7
无物理辐射归一化	0.73	2.68	2.6

关键发现¶

物理辐射归一化是核心：去掉后 AUC 降至 0.73 (降幅最大)，证明物理监督而非 CNN 调制是关键
相比 ORB-SLAM3 ATE 降低 58%，漂移降低 68%
RL-PGO 将经典 PGO 的 ATE 从 2.05m 降至 1.73m，回环稀疏场景尤为有效
即使对比最新 VGGT-SLAM，ATE 仍降低 28%，Drift 降低 43%

亮点与洞察¶

物理模型直接嵌入深度学习管线：PARA 在特征空间而非图像空间做物理校正，保留了端到端可微性
气压深度先验设计巧妙：成本极低的一元因子即可完全消除垂直漂移
SE(2) 降维 RL-PGO 巧妙利用 AUV/ROV 运动学约束，将 6-DoF 降为 3-DoF
自适应协方差让系统在视觉退化时自动依赖惯性/气压约束

局限与展望¶

缺乏标准水下 VO 数据集：评估依赖合成渲染和 COLMAP 对齐，统计显著性不足
合成到真实域差距仅靠 10% 真实数据微调，鲁棒性保证有限
RL-PGO 仅在 SE(2) 操作，横滚/俯仰耦合假设在某些 AUV 上不成立
未集成 3D 建图（TSDF/MVS），缺少实时性指标（帧率/延迟）
实验规模小，未见大规模多序列长时间评估

评分¶

新颖性: ⭐⭐⭐⭐ — 物理模型与 Transformer 匹配结合是清晰创新，RL-PGO 水下适配有新意
实验: ⭐⭐⭐ — 受限于水下数据集缺乏，实验规模小，缺少误差 bar 和多序列统计
写作: ⭐⭐⭐⭐ — 方法描述详尽，系统设计逻辑清晰，公式推导完整
价值: ⭐⭐⭐⭐ — 对水下机器人有直接应用价值，物理感知思路可推广至雾/雨/夜间定位