C3PO: Cross-View Cross-Modality Correspondence by Pointmap Prediction¶

会议: NeurIPS 2025
arXiv: 2511.18559
代码: 待确认
领域: 遥感 / 跨视角跨模态匹配
关键词: cross-view correspondence, cross-modality, floor plan, pointmap, DUSt3R, structure-from-motion

一句话总结¶

构建了包含 90K 地面照片-平面图对（597 个场景、153M 像素级对应和 85K 相机位姿）的 C3 数据集，揭示现有对应模型在跨视角跨模态（如地面照片 vs. 平面图）场景下的局限性，通过在该数据上训练可将最佳方法的 RMSE 降低 34%。

研究背景与动机¶

领域现状：DUSt3R 等几何模型在从图像对估计三维几何方面取得了显著进展，通过逐像素点图（pointmap）预测实现稠密对应。然而这些模型依赖训练数据中的视角和模态分布。
现有痛点：当输入图像对来自完全不同的视角（如航拍 vs. 地面）或不同模态（如真实照片 vs. 抽象平面图）时，现有几何模型严重退化。这类跨视角跨模态对应在建筑导航、室内定位、AR 等场景中至关重要。
核心矛盾：现有跨视角数据集的局限——VIGOR 缺乏模态多样性（都是真实图像），WAFFLE 缺乏像素级对应关系。没有大规模、高质量的地面照片-平面图对应数据集来训练和评估模型。
本文要解决什么：(1) 构建一个大规模、高质量的跨视角跨模态对应数据集；(2) 基准测试现有方法在该任务上的表现；(3) 展示基于该数据训练可以显著提升性能。
切入角度：利用 SfM（Structure-from-Motion）从互联网照片集合中重建 3D 场景，再手动将重建结果与互联网收集的平面图配准，从而推导出照片与平面图之间的像素级对应。
核心 idea 一句话：通过 SfM 重建→手动配准→自动推导对应的 pipeline，构建首个大规模照片-平面图像素级对应数据集 C3。

方法详解¶

整体框架¶

输入是互联网照片集合和对应的平面图，输出是像素级对应关系和相机位姿。整个 pipeline 分三步：(1) 从互联网照片集合用 SfM 重建场景 3D 结构；(2) 手动将 3D 重建与平面图进行配准，建立 3D-2D 的映射关系；(3) 利用已知的相机位姿和 3D-平面图映射，自动推导每张照片与平面图之间的像素级对应。

关键设计¶

SfM 3D 重建：
做什么：从互联网收集的多视角照片重建场景的三维点云和相机位姿
核心思路：使用标准 SfM 流程处理互联网照片集合，恢复场景几何和各照片的相机内外参
设计动机：互联网照片易获取且覆盖面广，SfM 提供稳健的 3D 重建，为后续配准奠定基础
手动 3D-平面图配准：
做什么：将 SfM 重建的 3D 点云与从互联网获取的平面图对齐
核心思路：人工标注 3D 点云中的关键结构点（如墙角、门框）与平面图上对应位置的匹配，求解刚体变换或仿射变换
设计动机：照片与平面图之间的外观差异过大，自动配准目前不可靠，手动配准保证高质量的真值对应
像素级对应推导：
做什么：从 3D 配准结果自动生成照片-平面图的稠密像素对应
核心思路：已知相机位姿可将 3D 点投影到照片像素，3D-平面图配准可将 3D 点映射到平面图坐标，组合两个映射即得照片像素→平面图像素的对应
设计动机：自动化推导保证大规模生产对应数据，避免逐像素手动标注

训练策略¶

在 C3 数据集上训练基于 DUSt3R 架构的 pointmap 预测模型，输入为照片-平面图对，预测每个像素对应的 3D 点图。用预测的点图通过最近邻匹配建立照片-平面图对应关系。

训练数据分为训练集和测试集，测试场景与训练场景无重叠以确保泛化性评估。损失函数基于预测 pointmap 与 GT pointmap 之间的 L2 距离，结合置信度加权处理遮挡和边界区域。预测的对应关系不仅用于匹配评估（RMSE），还用于估计相机位姿并用 recall 指标评估定位精度。

实验关键数据¶

数据集 C3 统计¶

指标	数值
场景数	597
照片-平面图对	90K
像素级对应	153M
相机位姿	85K

主实验¶

方法	RMSE 对应误差	说明
现有最佳方法（DUSt3R等）	baseline	在跨模态对应上表现不佳
在 C3 上训练后	-34% RMSE	显著提升

关键发现¶

现有 SOTA 对应模型（如 DUSt3R）在跨视角跨模态场景下严重退化，大幅落后于同模态场景的表现
C3 数据集上训练后，最佳方法的 RMSE 降低 34%，表明该任务的主要瓶颈是训练数据
预测的对应关系可用于估计相机位姿，但 recall 指标显示仍有很大提升空间

亮点与洞察¶

数据集构建 pipeline 的巧妙设计：利用 SfM 重建作为桥梁连接照片和平面图，将极难的跨模态标注问题转化为相对简单的 3D-平面图配准问题
暴露了重要研究缺口：DUSt3R 等模型在跨模态场景下的脆弱性此前被忽视，C3 数据集将推动这一方向的研究
实用价值：照片-平面图对应在室内导航、AR 叠加、建筑检测等场景有广泛应用

局限性 / 可改进方向¶

手动配准是瓶颈：每个场景需人工配准 3D-平面图，限制了数据集规模的进一步扩展。大规模数据集需要自动化配准Pipeline
仅限室内场景：C3 聚焦于建筑室内的照片-平面图对应，对室外跨视角（如航拍-地面、卫星-街景）尚未覆盖
平面图多样性：互联网平面图的风格差异大（手绘/CAD/渲染），精度不一，标准化处理可能丢失关键信息
SfM重建质量依赖：互联网照片的密度和覆盖度不均，部分场景重建可能不完整，影响对应关系的密度和准确性
缺少语义标注：像素级对应是几何对应，缺少房间功能（如厨房、卧室）等语义级标注
改进方向：(1) 开发自动/半自动 3D-平面图配准方法减少人工成本；(2) 扩展到更多跨模态对（如卫星图-地面图、CAD 模型-照片）；(3) 利用 LLM/VLM 辅助理解平面图语义和房间结构

评分¶

新颖性: ⭐⭐⭐⭐ 首个大规模照片-平面图像素级对应数据集，揭示重要研究缺口
实验充分度: ⭐⭐⭐ 基准测试较完整，但受限于 abs-only 信息，消融细节不充分
写作质量: ⭐⭐⭐⭐ 问题动机清晰，pipeline 描述直观
价值: ⭐⭐⭐⭐ 数据集本身具有高价值，将推动跨模态几何匹配研究