跳转至

ArgMatch: Adaptive Refinement Gathering for Efficient Dense Matching

会议: ICCV 2025
arXiv: 无
代码: GitHub
领域: 3D视觉 / 稠密匹配
关键词: dense matching, coarse-to-fine, correlation volume, adaptive refinement, efficient matching

一句话总结

提出自适应细化聚合(Adaptive Refinement Gathering)管线,通过内容感知偏移估计器、局部一致性匹配校正器和局部一致性上采样器,大幅降低对重型特征提取器和全局匹配器的依赖,以轻量级网络实现与SOTA竞争的稠密匹配性能。

研究背景与动机

稠密对应是多视图任务的基础,但计算代价高昂。虽然粗到细策略降低了成本,但效率仍受限于重型特征提取器(如DINOv2)和复杂全局匹配器(如高斯过程)。作者认为现有方法的冗余不能在不牺牲性能的前提下被消除,根本原因在于细化器设计不够有效:(1) 现有CV基细化器需要高维特征保证CV锐度;(2) 仅能校正局部窗口内的误差;(3) 与其他模块未能有效协同优化。

方法详解

整体框架

ArgMatch采用特征提取→全局匹配→迭代细化的三阶段流程,核心贡献在于自适应细化聚合管线:在1/16→1/8→1/4分辨率上逐级细化初始流。每级包含内容感知偏移估计器(CV解码)、匹配校正器(邻域聚合修正)和上采样器(局部一致性上采样)。

关键设计

  1. 内容感知偏移估计器: 自适应缩放采样窗口并利用窗口内的内容信息。通过潜在编码z调制CV的编码和解码过程,使CV更好地适应局部内容特性。相比追求高维特征实现锐化CV的传统方式,利用内容信息做更可靠的偏移估计。

  2. 局部一致性匹配校正器: 通过语义相关性和匹配置信度自适应聚合邻域信息来修正匹配,即使初始误差超出局部窗口范围也能有效工作。关键在于基于语义而非固定几何距离传播梯度,避免跨深度不连续区域传播。

  3. 自适应门控聚合与局部一致性上采样器: 自适应门控机制聚合偏移估计器的输出,并将大误差匹配的梯度向前传播到更粗的层级。上采样器利用类似的局部一致性机制精确上采样低分辨率匹配,减少深度不连续边缘处的伪影。

损失函数 / 训练策略

端到端训练。自适应门控和局部一致性机制改善了从细到粗的梯度传播,解决了粗阶段模糊监督(一对多问题)的优化困难。

实验关键数据

主实验

方法 参数量/FLOPs 稠密匹配精度 几何估计 视觉定位
DKM 高(O(n³)) SOTA级
RoMa(DINOv2) SOTA 最优 最优
ArgMatch 显著更低 竞争性 竞争性 竞争性

以显著更低的计算成本实现与SOTA竞争的性能。

消融实验

  • 内容感知调制 vs 标准CV解码:调制显著提升精度
  • 匹配校正器:大初始误差下效果尤为显著
  • 局部一致性上采样 vs 双线性插值:深度不连续处改善明显
  • 自适应门控梯度分配 vs 固定分配:更合理的端到端优化

关键发现

  • 轻量级骨干+有效细化器可以替代重型特征+简单细化
  • 局部一致性是跨深度不连续区域的关键——避免错误的梯度传播
  • 自适应门控解决了细到粗的梯度分配难题

亮点与洞察

  • 将"细化器"的重要性提升到与特征提取器同等地位
  • 局部一致性思路统一了校正和上采样两个模块
  • 自适应梯度传播机制有效解决粗细阶段的优化耦合
  • 效率-精度的良好权衡

局限与展望

  • 在最高精度上可能仍略逊于使用DINOv2的RoMa
  • 局部一致性依赖语义相关性估计,可能在纹理稀疏区域不可靠
  • 仅在几何匹配上验证,未扩展到光流估计

相关工作与启发

  • DKM、RoMa是主要SOTA对比基线
  • RAFT系列的迭代细化思路被借鉴
  • SEA-RAFT的低分辨率处理策略提供参考

评分

  • 新颖性: ⭐⭐⭐⭐ — 细化管线的三组件设计新颖实用
  • 技术深度: ⭐⭐⭐⭐ — 梯度传播分析和局部一致性设计有深度
  • 实验充分性: ⭐⭐⭐⭐ — 多任务评估、效率对比、消融完整
  • 写作质量: ⭐⭐⭐⭐ — 问题分析到位,管线描述清晰
  • 实用价值: ⭐⭐⭐⭐ — 轻量高效,适合资源受限场景

相关论文