Learning Affine Correspondences by Integrating Geometric Constraints¶

会议: CVPR 2025
arXiv: 2504.04834
代码: GitHub
领域: human_understanding
关键词: affine correspondence, dense matching, epipolar geometry, Sampson distance, pose estimation

一句话总结¶

提出一种融合稠密匹配与几何约束的仿射对应估计新框架（DenseAffine），采用两阶段解耦训练：先用 Sampson 距离损失训练稠密点匹配器，再冻结匹配器、用仿射 Sampson 距离损失训练局部仿射变换提取器，在 HPatches 匹配和 MegaDepth 位姿估计上均取得 SOTA。

研究背景与动机¶

领域现状: 仿射对应 (Affine Correspondences, ACs) 因包含局部仿射变换（尺度、旋转、形变信息），比纯点对应提供更丰富的几何信息，能显著加速并提升单应性估计、本质矩阵估计等任务的精度。

现有方案的局限: 1. 传统检测器方法 (MSER, Hessian-Affine, AffNet): 依赖稀疏关键点检测，在弱纹理、重复纹理区域表现差 2. 合成视图方法 (ASIFT): 依赖检测器且计算代价高 3. 稠密匹配方法 (DKM, RoMa): 能提供精确点对应，但缺乏局部仿射变换估计 4. 已有方法未充分利用对极几何约束来监督仿射变换学习

核心动机: 将稠密匹配的高精度点对应能力与几何约束（对极约束）的有效监督结合，构建从点匹配到完整仿射对应的统一框架。

方法详解¶

整体框架¶

两阶段级联: 1. 第一子网络 (Feature Matching Module): 稠密匹配提取精确点对应 2. 第二子网络 (Local Affine Transformation Estimation Module): 估计每对匹配点的局部仿射变换

训练采用解耦策略 (Decoupled Training): 先训练匹配子网络至收敛 → 冻结 → 再训练仿射子网络。

关键设计¶

1. 稠密特征匹配模块¶

基于 DKM 的稠密匹配范式： - ResNet-50 编码器提取多尺度特征（粗-细两级） - 全局 Gaussian 过程回归生成粗匹配 → 细化器迭代精化 - 创新点：加入基于 Sampson 距离的对极约束损失 \(L_{pc}\)，使网络学习更多几何信息 - 最终从稠密 warp + certainty 中采样点对应和 32×32 patches

2. 局部仿射变换估计模块¶

仿射矩阵分解为三个组件（参照 AffNet）： - 尺度 & 方向: 两个独立全连接网络 \(E_{o,s}\) 分别预测每个 patch 的方向 \(O\) 和尺度 \(S\)，采用概率协变损失（离散化角度/尺度后转分类） - 残差形变: 独立网络 \(E_{aff}\) 回归残差仿射形状矩阵 \(\bm{A}''\)（det=1 约束） - 最终仿射对应 = 合成 \((P_i^A, P_i^B, O_i^{A\to B}, S_i^{A\to B}, A_i'')\)

3. 仿射 Sampson 距离约束损失¶

核心创新 — 基于对极约束的仿射损失函数： - 利用仿射对应与基础矩阵 \(\bm{F}\) 的几何关系：\((\bm{F}^T\bm{p}_1)_{(1:2)} + (\bm{A}^T\bm{F}\bm{p}_2)_{(1:2)} = 0\) - 构造仿射 Sampson 距离 \(SD_A(E_{AC})\) 衡量预测仿射变换与对极几何的一致性 - 训练目标：\(L_{aff} = -\frac{1}{N}\sum_i SD_A(E_{AC}^i)\)

此损失无需仿射变换的 GT 标注，仅需基础矩阵（可从深度/位姿计算）。

损失函数¶

匹配子网络: \(L_m = \sum_l L_{warp} + \lambda L_{conf} + \gamma L_{pc}\) - \(L_{warp}\): 预测 warp 与 GT 的 L2 距离 - \(L_{conf}\): 置信度的二元交叉熵 - \(L_{pc}\): Sampson 距离对极约束损失

仿射子网络: \(L_{ext} = L_{aff} + L_{ori} + L_{sca}\) - \(L_{aff}\): 仿射 Sampson 距离损失 - \(L_{ori}, L_{sca}\): 方向和尺度的概率协变损失

实验关键数据¶

主实验表¶

HPatches 图像匹配 (MMAscore):

方法	Overall	Illumination	Viewpoint
SuperPoint	0.658	0.715	0.606
DISK	0.763	0.813	0.716
PoSFeat	0.775	0.826	0.728
DKM	0.819	0.869	0.772
RoMa	0.843	0.901	0.789
Ours	0.851	0.908	0.798

MegaDepth 相对位姿估计 (AUC):

方法	@5°	@10°	@20°
LoFTR	52.8	69.2	81.2
ASpanFormer	55.3	71.5	83.1
DKM	62.1	76.7	86.4
RoMa	63.4	77.8	87.2
Ours (AC+GC-RANSAC)	64.7	78.3	87.6

消融实验表¶

仿射帧精度 (HPatches):

方法	Euclidean Distance ↓	Cosine Similarity ↑
VLFeat	0.202	0.988
AffNet	0.264	0.973
ASIFT	0.329	0.894
Ours	0.123	0.994

仿射矩阵精度相比最优基线 VLFeat 降低了 39% 的欧氏距离。

关键发现¶

稠密匹配 + 几何约束的组合显著优于传统稀疏检测器方案
仿射 Sampson 距离损失是关键创新，它让网络在无需仿射 GT 的条件下学习几何一致的仿射变换
解耦训练比联合训练收敛更快、内存占用更低、最终性能更好
利用仿射对应进行 GC-RANSAC 位姿估计，比纯点对应 + RANSAC 更准确

亮点与洞察¶

巧妙的无标注监督: 仿射 Sampson 距离损失仅需基础矩阵而非仿射变换 GT，极大降低了标注需求
稠密匹配的新应用: 首次将稠密 warp 扩展到完整仿射对应估计，突破了稀疏检测器的瓶颈
解耦训练策略: 避免了弱监督导致的损失歧义，实际效果优于端到端训练
实际应用价值: 仿射对应可以用 2AC 求解单应性（而非 4PC）、1AC 求解本质矩阵（而非 5PC），大幅提升 RANSAC 效率

局限与展望¶

分类领域标注为 human_understanding 似乎有误，更适合归类为 image_matching / geometric estimation
Patch 大小固定为 32×32，自适应 patch 尺寸可能提升大变形场景表现
当前仅测试了刚性场景（平面/一般场景），对非刚性变形的处理能力未知
尺度/方向估计依赖离散化分类，连续回归方案可能更精确

评分¶

⭐⭐⭐⭐ — 方法设计合理、几何约束损失新颖实用、在匹配和位姿任务上均 SOTA；解耦训练策略简单有效。