Towards In-the-Wild 3D Plane Reconstruction from a Single Image¶
会议: CVPR 2025
arXiv: 2506.02493
代码: https://github.com/jcliu0428/ZeroPlane
领域: 自动驾驶 / 3D视觉
关键词: 平面重建, 零样本泛化, 单图3D重建, 跨域学习, Transformer
一句话总结¶
ZeroPlane 提出了首个跨域零样本3D平面重建框架,通过构建包含14个数据集/56万标注的大规模平面基准数据集,并设计法向量-偏移解耦的分类-回归范式和像素几何增强嵌入模块,实现了在室内外多样场景中显著优于现有方法的泛化性能。
研究背景与动机¶
领域现状:单图3D平面重建是3D视觉的基础任务,应用于AR、定位建图和机器人领域。现有方法(PlaneNet、PlaneRCNN、PlaneTR、PlaneRecTR)主要在单一数据集上训练和测试,集中于室内场景(ScanNet)或户外场景(Synthia),各自在对应域内表现优异。
现有痛点:(1) 没有方法尝试过跨域泛化的平面重建——室内外场景的几何尺度、平面分布差异巨大;(2) 高质量的户外平面标注数据稀缺,现有户外数据集缺少密集平面掩码标注;(3) 现有方法在低分辨率(256×192)上训练和测试,限制了重建质量。
核心矛盾:室内和户外场景中平面的几何参数分布差异极大(室内偏移通常<5m,户外可达数十甚至上百米),现有方法将法向量和偏移耦合为一个缩放向量 \(\mathbf{n}/d\) 进行回归,在混合训练时无法适应如此大的几何范围变化。
本文目标:构建统一的跨域3D平面重建系统,能够在室内外多样场景(甚至 in-the-wild 数据)中实现零样本泛化。
切入角度:受零样本深度估计(MiDaS、Depth Anything)启发——在混合大规模数据上训练统一模型可显著提升泛化能力。作者将此思路拓展到更具挑战性的平面重建任务。
核心 idea:解耦法向量和偏移的表示,对两者分别采用"分类-回归"范式(先分类到最近的聚类中心/exemplar,再回归残差),降低跨域几何参数学习的难度。
方法详解¶
整体框架¶
ZeroPlane 基于 Mask2Former 和 PlaneRecTR 的检测-分割框架。输入单张图像,通过 DINOv2-Base 编码器提取多尺度特征,经 DPT 像素解码器得到多分辨率特征图。可学习的平面查询(query)在 Transformer 解码器中与图像特征交互,输出实例级预测:分割掩码、分类分数、法向量和偏移。额外的像素级深度/法线预测作为辅助任务,其特征通过几何增强模块注入平面查询。
关键设计¶
-
法向量-偏移解耦 + 分类-回归范式:
- 功能:解决跨域混合训练中几何参数回归困难的核心问题
- 核心思路:将平面参数 \(\mathbf{n}/d\) 解耦为法向量 \(\mathbf{n}\) 和偏移 \(d\) 分别学习。对每个参数采用分类-回归策略:先用 K-Means 从混合训练数据中聚类得到 \(K_n=7\) 个法向量 exemplar 和 \(K_d=20\) 个偏移 exemplar(偏移按20m阈值分成室内/户外两组各聚10个)。MLP 分类头预测属于哪个 exemplar,回归头预测相对残差。最终预测:\(\mathbf{n} = \hat{\mathbf{n}}^{(i)} + \mathbf{r_n}^{(i)}\), \(d = \hat{d}^{(j)} + r_d^{(j)}\)
- 设计动机:直接回归需要网络同时处理差异巨大的几何尺度(室内<5m vs 户外>50m),非常困难。分类先将问题粗定位到合适范围,回归只需精调残差,大幅降低学习难度
-
像素几何增强平面嵌入模块:
- 功能:将底层像素级几何线索(深度、法线)注入平面查询,增强实例级预测
- 核心思路:编码器后附加两个 CNN 模块分别预测像素深度图 \(\mathbf{D}\) 和法线图 \(\mathbf{N}\)(作为辅助任务)。将它们投影到嵌入空间 \(\mathbf{F_D}\), \(\mathbf{F_N}\),然后平面查询通过交叉注意力与几何特征交互:\(\mathbf{X_D} = \text{Attn}(\mathbf{Q}, \mathbf{F_D})\), \(\mathbf{X_N} = \text{Attn}(\mathbf{Q}, \mathbf{F_N})\)。最终嵌入 \(\mathbf{X} = \mathbf{X_F} + \mathbf{X_D} + \mathbf{X_N}\)
- 设计动机:仅将像素深度/法线作为辅助任务训练时提升有限,因为平面查询无法直接利用这些底层几何信息。注意力机制让查询能从像素级几何预测中发现细粒度上下文线索(如平面边界)
-
大规模跨域平面基准数据集:
- 功能:提供覆盖多样室内外环境的高分辨率密集平面标注
- 核心思路:整合14个数据集(7室内+4户外),共56万高分辨率(640×480)标注。对缺少语义标注的数据集,使用 Mask2Former 获取全景分割结果作为伪真值,然后在每个物体/区域的反投影点云上拟合平面。对户外场景借助合成数据集(精确深度图)或立体相机数据生成平面标注
- 设计动机:现有平面数据集仅覆盖室内且低分辨率,无法支撑跨域训练。高分辨率标注是高质量平面重建的前提
损失函数 / 训练策略¶
- 总损失:\(L = \lambda_c L_c + \lambda_m L_m + \lambda_{n_c} L_{n_c} + \lambda_{n_r} L_{n_r} + \lambda_{d_c} L_{d_c} + \lambda_{d_r} L_{d_r} + \lambda_{p_d} L_{p_d} + \lambda_{p_n} L_{p_n}\)
- 分类用交叉熵损失,回归用 L1 损失,掩码用交叉熵+Dice 联合损失
- 使用二部图匹配策略(Hungarian matching)匹配预测和真值
- 训练:AdamW 优化器,lr=1e-4,batch size=16,50K步,在40K/47K步各衰减10倍
实验关键数据¶
主实验 — 零样本评测¶
| 方法 | NYUv2 Recall@0.1m | NYUv2 Recall@5° | 7-Scenes Recall@0.1m |
|---|---|---|---|
| PlaneRecTR (S) | 10.13 | 16.42 | - |
| PlaneRecTR (M) | 14.29 | 24.97 | 10.97 |
| ZeroPlane-DINO-B (M) | 17.86 | 37.29 | 17.19 |
| ZeroPlane-Dust3R (M) | 21.20 | 38.32 | 19.14 |
消融实验¶
| 设计 | NYUv2 Recall@0.1m |
|---|---|
| 耦合表示(n/d 直接回归) | ~12 |
| 解耦 + 直接回归 | ~14 |
| 解耦 + 分类-回归 | 17.86 |
| 无几何增强模块 | 降低约1-2% |
| 辅助任务但无注意力注入 | 提升有限 |
关键发现¶
- 混合训练(M)显著优于单数据集训练(S),证实了跨域数据的互补价值
- 解耦法向量/偏移 + 分类-回归相比直接回归提升巨大,特别在深度重建精度上
- 几何增强嵌入模块通过注意力机制注入有效,仅作辅助任务则帮助有限
- 更强的编码器(DINOv2-L、Dust3R)进一步提升性能,但基础版已大幅领先
- 在户外零样本数据上优势更加明显,体现了跨域泛化能力
亮点与洞察¶
- 首次将零样本泛化思想引入3D平面重建领域,开辟了新的研究方向
- "分类-回归"范式巧妙解决了跨域几何参数分布差异大的难题,具有通用性
- 构建的大规模跨域基准数据集本身就是重要贡献,可支撑后续研究
- DINOv2 编码器的引入显著提升了特征的跨域鲁棒性
局限与展望¶
- 户外数据主要来自合成数据集或立体相机,真实户外场景的标注仍然困难
- 偏移 exemplar 的室内/户外分割阈值(20m)是人工设定的,可能不够灵活
- 未处理非平面区域的重建(如曲面),仅关注平面
- 可考虑结合深度基础模型(如 Depth Anything)进一步提升几何估计精度
相关工作与启发¶
- PlaneRecTR:之前的 SOTA Transformer 平面检测器,ZeroPlane 在此基础上引入跨域训练策略
- MiDaS/Depth Anything:零样本深度估计的成功直接启发了本文
- Mask2Former:提供了整体架构和二部图匹配策略
- Dust3R:作为替代编码器进一步提升了几何感知能力
评分¶
- 新颖性: 8/10 — 首次提出跨域零样本平面重建,分类-回归范式设计精巧
- 实验充分度: 9/10 — 14个数据集、多种编码器、全面消融,零样本评测覆盖室内外
- 写作质量: 8/10 — 问题分析透彻,方法动机清晰
- 价值: 8/10 — 数据集+方法双贡献,开辟3D平面重建的新研究方向
相关论文¶
- [ICCV 2025] Detect Anything 3D in the Wild
- [CVPR 2025] Single Pixel Image Classification using an Ultrafast Digital Light Projector
- [CVPR 2025] PlanarSplatting: Accurate Planar Surface Reconstruction in 3 Minutes
- [CVPR 2025] MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction
- [NeurIPS 2025] LabelAny3D: Label Any Object 3D in the Wild