MV-RoMa: From Pairwise Matching into Multi-View Track Reconstruction¶

会议: CVPR 2026
arXiv: 2603.27542
代码: 项目主页
领域: 3D视觉 / 特征匹配
关键词: 多视图匹配, 稠密对应, 轨迹重建, SfM, 特征融合

一句话总结¶

提出 MV-RoMa，首个多视图稠密匹配模型，通过 Track-Guided 多视图编码器和像素对齐多视图精炼器从一张源图同时估计到多个目标图的稠密对应关系，产生几何一致的轨迹用于 SfM，在 HPatches/ETH3D/IMC 等基准上全面超越现有方法。

研究背景与动机¶

领域现状：特征匹配是 3D 重建、视觉定位的基础任务。RoMa、DKM 等稠密匹配方法已能产生高质量的逐对匹配结果。
现有痛点：现有方法本质是逐对（pairwise）匹配，在 SfM 等多视图任务中需要将逐对结果串联成多视图轨迹（track），但串联过程容易产生碎片化、几何不一致的轨迹。
核心矛盾：后处理优化（如 PixSfM、DFSfM）只能在初始逐对匹配的基础上修修补补，且需对每条轨迹单独优化，计算量大且受初始匹配质量瓶颈限制。
本文目标 直接在模型层面实现多视图一致的稠密对应，消除串联累积误差。
切入角度：将稀疏几何先验（来自初始逐对匹配）作为"轨迹 token"嵌入到特征编码器中，引导多视图特征交互。
核心 idea：用 track token 引导的多视图编码器 + 像素对齐注意力精炼器，实现首个端到端多视图稠密匹配。

方法详解¶

整体框架¶

输入：一张源图 \(I_0\) + 多张共视目标图 \(\{I_v\}\)。先用现有 matcher（默认 UFM）做初始逐对匹配，通过聚类采样构建稀疏多视图轨迹 token。然后：(1) Track-Guided 多视图编码器在 DINOv2 backbone 中注入多视图信息，产生几何一致的稠密特征；(2) 全局匹配器产生粗对应；(3) 多视图精炼器用像素对齐注意力逐级上采样到全分辨率稠密对应。输出：源图到每个目标图的稠密 warp 场 \(W^{0\to v}\) 和置信度。

关键设计¶

Track Token 构建与聚类采样:
- 功能：从逐对匹配结果中提取紧凑的多视图几何先验
- 核心思路：每个 track token 包含 2D 坐标向量 \(\mathbf{u}_i \in \mathbb{R}^{2V}\)（跨所有视图的位置）和可见性掩码 \(\mathbf{m}_i \in \{0,1\}^V\)。先按可见性模式分组，再在每组内用 k-means 聚类选择代表性轨迹（选距离质心最近的原始轨迹），总共 \(T=512\) 个 token。避免随机采样的空间冗余和噪声敏感
- 设计动机：比随机采样更紧凑均匀，且通过可见性分组保证了部分可见轨迹的合理处理
Track-Guided 多视图编码器:
- 功能：将多视图几何上下文注入 DINOv2 的特征提取过程
- 核心思路：在 DINOv2 后半部分每个 Transformer block 中插入三步操作：(i) Attentional Sampling —— 用轨迹坐标做 query、图像特征做 key/value 的交叉注意力，带空间距离偏置 \(B_v\)，将图像信息采样到轨迹 token 上；(ii) Track Transformer —— 对每条轨迹沿视图轴做自注意力（无视图索引嵌入，保证视图无关性），用可见性掩码屏蔽不可见视图；(iii) Attentional Splatting —— 反向操作，将更新后的多视图感知轨迹特征回写到图像网格
- 设计动机：避免全局多视图交叉注意力的 \(O(V \cdot H \cdot W)^2\) 复杂度，用稀疏轨迹作为信息传导媒介，复杂度仅 \(O(T \cdot HW \cdot V)\)
多视图匹配精炼器:
- 功能：在精细分辨率下注入多视图上下文，产生最终全分辨率稠密对应
- 核心思路：基于 RoMa 的 coarse-to-fine 框架，在 stride 4 和 stride 1 两层加入多视图注意力。先用上一级 warp 将目标视图特征对齐到源视图坐标系，然后做像素对齐注意力——每个像素只关注其对应的跨视图位置。交替做跨视图注意力 + ConvNeXt 空间传播，迭代 \(N\) 次后输出 warp 残差
- 设计动机：全局交叉注意力代价太高，像素对齐方案将复杂度降为 \(O(HW \cdot V)\)，且只在需要的空间位置做精细调整

损失函数 / 训练策略¶

使用 RoMa 的 robust loss，在 MegaDepth + ScanNet 上训练 200K 步
学习率 \(3\times10^{-5}\)，20K 步后衰减 10 倍，batch size 4
默认 1 源 + 4 目标图，512 个 track token

实验关键数据¶

主实验¶

HPatches 单应性估计 (AUC %)：

方法	DLT @1/3/5px	RANSAC @1/3/5px
RoMa	41.0/67.9/76.9	44.7/72.6/81.4
MV-RoMa	46.1/71.9/80.1	47.2/73.2/81.8

ETH3D 3D 三角化：

方法	Accuracy 1/2/5cm	Completeness 1/2/5cm
RoMa	75.58/86.25/94.95	5.64/15.73/38.60
MV-RoMa	85.88/92.99/98.05	3.95/9.94/23.81
RoMa + Dense-SfM	84.79/92.62/97.77	7.38/17.06/36.35

多视图位姿估计 (AUC %)：

方法	Texture-Poor @3/5/10°	IMC @3/5/10°
RoMa + Dense-SfM	49.94/66.23/81.41	48.48/60.79/73.90
MV-RoMa	51.79/66.77/81.74	51.31/62.92/75.92

消融实验¶

配置	ETH3D Acc@2cm	ETH3D Comp@2cm	HPatches AUC@3px
RoMa baseline	86.25	15.73	67.9
+ MV-Encoder	提升	提升	提升
+ MV-Encoder + MV-Refiner	92.99	最优	71.9

关键发现¶

在 HPatches @1px 严格阈值下提升最大（41.0→46.1），说明多视图一致性主要提升精细匹配精度
DLT 和 RANSAC 差距很小（说明 inlier 比例极高），匹配质量本身就很好
在 Texture-Poor 数据集上优势明显，证明多视图信息交互在低纹理场景中特别有效
MV-Encoder 和 MV-Refiner 贡献互补，缺一不可

亮点与洞察¶

用稀疏轨迹 token 做多视图信息传导是核心创新，避免了全局多视图注意力的二次复杂度，同时保留了足够的几何先验。这种"稀疏代理"策略可推广到其他多视图任务
像素对齐注意力的设计很巧妙——先 warp 对齐再做注意力，将空间搜索问题转化为局部对齐问题，大幅降低计算量
从"后处理修补"到"端到端预测"的范式转变：不再依赖逐对匹配的质量上限

局限与展望¶

仍依赖现有 matcher（UFM）做初始逐对匹配来构建 track token，如果初始匹配质量差，先验不可靠
默认只处理 1+4=5 张图，扩展到更多视图时 track token 数量和注意力计算需重新考量
ETH3D 上 completeness 不如一些后处理方法（Dense-SfM），因为 NMS 采样策略偏保守
可探索去掉初始 matcher 的依赖，直接在网络内部学习多视图先验

评分¶

新颖性: ⭐⭐⭐⭐ 首个多视图稠密匹配模型，track token 设计优雅，但整体仍建立在 RoMa 框架上
实验充分度: ⭐⭐⭐⭐⭐ HPatches + ETH3D + IMC + Texture-Poor 四个基准，消融详尽
写作质量: ⭐⭐⭐⭐⭐ 图示清晰、pipeline 描述流畅、符号一致
价值: ⭐⭐⭐⭐ 对 SfM / 3D 重建领域有直接推动作用，填补了多视图稠密匹配的空白