CMHANet: A Cross-Modal Hybrid Attention Network for Point Cloud Registration¶

日期: 2026-03-13
arXiv: 2603.12721
代码: CMHANet
领域: 3D视觉 / 点云配准
关键词: point cloud registration, cross-modal fusion, hybrid attention, 2D-3D, contrastive learning

一句话总结¶

提出 CMHANet，通过三种跨模态混合注意力机制（自注意力 + 聚合注意力 + 交叉注意力）融合 2D 图像纹理和 3D 点云几何特征，结合跨模态对比损失，在 3DMatch 上达到 92.4% Registration Recall，3DLoMatch 上达到 75.5% RR，均为 SOTA。

研究背景与动机¶

基础任务: 点云配准是大规模 3D 重建、AR 和场景理解的基石，需估计刚性变换 \(T=(R,t)\)
现有瓶颈: 真实场景中不完整数据、传感器噪声和低重叠区域导致现有学习方法退化
单模态局限: 多数深度学习方法仅用几何信息，忽略 RGB 图像中丰富的纹理和语义
跨模态机遇: RGB-D 传感器日益普及，天然提供互补 2D+3D 数据流，但现有融合方法多依赖简单拼接

方法详解¶

整体框架¶

平行编码器（KPConv-FPN 提取超点特征 \(F_s^p \in \mathbb{R}^{N_P \times d}\) + ResUNet-50 提取图像特征）→ 三种注意力 \(N\) 次迭代交替 → Sinkhorn 超点匹配 + dustbin → 密集对应精化 → Weighted SVD + Local-to-Global 变换估计

关键设计¶

Geometric Self-Attention: 同云内超点交互，Key 融合距离嵌入 \(E_{ij}^D\)（sinusoidal + MLP）和角度嵌入 \(E_{ij}^A\)（三点角度 sinusoidal），空间感知
Geometric Aggregation-Attention: 3D 超点作 Query 在 2D 图像平面检索视觉上下文，\(e_{ij} = (F_i^P W_q + E_i^P W_g)(F_j^I W_k + E_j^I W_f)^\top / \sqrt{d_k}\)，注入空间位置嵌入解决纹理歧义
Geometric Cross-Attention: 源-目标点云间注意力，搜索匹配并建模几何一致性，结构与 Self-Attention 对称
三部分损失: 粗匹配 overlap-aware circle loss \(\mathcal{L}_c\)（重叠比加权正样本）+ 精匹配 \(\mathcal{L}_f\) + 跨模态对比 \(\mathcal{L}_{cmc}\)
Local-to-Global 验证: Weighted SVD 生成局部变换 → 统计全局 inlier 数选最优，避免 RANSAC 不可微性

实验关键数据¶

方法	3DMatch RR(%)	3DLoMatch RR(%)	3DLoMatch FMR(%)
Predator	89.0	61.2	78.6
YOHO	90.8	67.5	79.4
CoFiNet	89.3	67.5	83.1
OIF-PCR	—	—	84.6
CMHANet	92.4	75.5	87.7

指标 (5000 samples)	3DMatch	3DLoMatch
Feature Matching Recall	98.6%	87.7%
Inlier Ratio	71.4%	43.7%
Registration Recall	92.4%	75.5%

关键发现¶

3DLoMatch 上 RR 比 CoFiNet 高 8.0%（75.5 vs 67.5），比 Predator 高 14.3%
Inlier Ratio 在低重叠场景大幅领先（43.7% vs Predator 26.7%），跨模态融合显著提升匹配质量
随着采样点数减少（5000→250），CMHANet 的 FMR 从 98.6% 仅降至 98.4%（3DMatch），鲁棒性极强
3DLoMatch 上 Inlier Ratio 在 250 采样点下仍达 58.3%，远超 OIF-PCR 的 33.1%
TUM RGB-D 零样本迁移验证泛化能力——无需重新训练即可适配新域

亮点与洞察¶

三种注意力各司其职：自注意力建模内部结构、聚合注意力引入视觉上下文、交叉注意力搜索匹配
Local-to-Global 验证策略替代 RANSAC 的不可微性，保持端到端可训练
跨模态对比损失 \(\mathcal{L}_{cmc}\) 在 batch size=1 时仍有效（超点级别正负样本构建），训练友好
聚合注意力中 Query/Key 都注入空间嵌入的设计对解决重复纹理歧义尤为关键

局限性 / 可改进方向¶

需要像素-点云外参标定建立 2D-3D 对应，限制适用场景（如纯 LiDAR 或非校准设备）
图像编码器（ResUNet-50）vs 最新视觉 backbone（DINOv2/SAM）的差距可能限制性能上限
极低重叠（<10%）场景表现未展示，这在实际扫描中常见
三种注意力 \(N\) 次迭代的计算开销未详细分析
室外大规模场景（如 KITTI）的适用性未验证

评分¶

新颖性: ⭐⭐⭐ 跨模态融合非新方向，但三种注意力+对比损失组合有效
实验充分度: ⭐⭐⭐⭐ 3DMatch/3DLoMatch 全面指标 + 零样本迁移
价值: ⭐⭐⭐⭐ 利用 RGB-D 数据的实用方案，工业可落地
写作质量: ⭐⭐⭐⭐ 方法描述清晰，公式规范

补充说明¶

发表于 Neurocomputing，属于工程应用导向的工作
代码已开源（GitHub），便于复现和对比
核心思路：2D 纹理补充 3D 几何的不足，在纹理丰富但几何重复的场景中尤其有效
Sinkhorn 算法迭代 50 次用于超点匹配的双随机归一化
三种注意力交替 \(N\) 次迭代，逐步精化特征表示
总损失 \(\mathcal{L} = \mathcal{L}_c + \mathcal{L}_f + \lambda \mathcal{L}_{cmc}\)，\(\lambda\) 控制跨模态对比损失权重
Dustbin 机制处理非重叠区域点的匹配——learnable scalar \(z\) 作为拒绝阈值
采样点数从 5000 降到 250 时，CMHANet 在 3DLoMatch 上 Inlier Ratio 从 43.7% 提升到 58.3%，说明少采样反而有利于高质量匹配