Towards In-the-Wild 3D Plane Reconstruction from a Single Image¶

会议: CVPR 2025
arXiv: 2506.02493
代码: https://github.com/jcliu0428/ZeroPlane
领域: 自动驾驶 / 3D视觉
关键词: 平面重建, 零样本泛化, 单图3D重建, 跨域学习, Transformer

一句话总结¶

ZeroPlane 提出了首个跨域零样本3D平面重建框架，通过构建包含14个数据集/56万标注的大规模平面基准数据集，并设计法向量-偏移解耦的分类-回归范式和像素几何增强嵌入模块，实现了在室内外多样场景中显著优于现有方法的泛化性能。

研究背景与动机¶

领域现状：单图3D平面重建是3D视觉的基础任务，应用于AR、定位建图和机器人领域。现有方法（PlaneNet、PlaneRCNN、PlaneTR、PlaneRecTR）主要在单一数据集上训练和测试，集中于室内场景（ScanNet）或户外场景（Synthia），各自在对应域内表现优异。

现有痛点：(1) 没有方法尝试过跨域泛化的平面重建——室内外场景的几何尺度、平面分布差异巨大；(2) 高质量的户外平面标注数据稀缺，现有户外数据集缺少密集平面掩码标注；(3) 现有方法在低分辨率（256×192）上训练和测试，限制了重建质量。

核心矛盾：室内和户外场景中平面的几何参数分布差异极大（室内偏移通常<5m，户外可达数十甚至上百米），现有方法将法向量和偏移耦合为一个缩放向量 \(\mathbf{n}/d\) 进行回归，在混合训练时无法适应如此大的几何范围变化。

本文目标：构建统一的跨域3D平面重建系统，能够在室内外多样场景（甚至 in-the-wild 数据）中实现零样本泛化。

切入角度：受零样本深度估计（MiDaS、Depth Anything）启发——在混合大规模数据上训练统一模型可显著提升泛化能力。作者将此思路拓展到更具挑战性的平面重建任务。

核心 idea：解耦法向量和偏移的表示，对两者分别采用"分类-回归"范式（先分类到最近的聚类中心/exemplar，再回归残差），降低跨域几何参数学习的难度。

方法详解¶

整体框架¶

ZeroPlane 基于 Mask2Former 和 PlaneRecTR 的检测-分割框架。输入单张图像，通过 DINOv2-Base 编码器提取多尺度特征，经 DPT 像素解码器得到多分辨率特征图。可学习的平面查询（query）在 Transformer 解码器中与图像特征交互，输出实例级预测：分割掩码、分类分数、法向量和偏移。额外的像素级深度/法线预测作为辅助任务，其特征通过几何增强模块注入平面查询。

关键设计¶

法向量-偏移解耦 + 分类-回归范式:
- 功能：解决跨域混合训练中几何参数回归困难的核心问题
- 核心思路：将平面参数 \(\mathbf{n}/d\) 解耦为法向量 \(\mathbf{n}\) 和偏移 \(d\) 分别学习。对每个参数采用分类-回归策略：先用 K-Means 从混合训练数据中聚类得到 \(K_n=7\) 个法向量 exemplar 和 \(K_d=20\) 个偏移 exemplar（偏移按20m阈值分成室内/户外两组各聚10个）。MLP 分类头预测属于哪个 exemplar，回归头预测相对残差。最终预测：\(\mathbf{n} = \hat{\mathbf{n}}^{(i)} + \mathbf{r_n}^{(i)}\), \(d = \hat{d}^{(j)} + r_d^{(j)}\)
- 设计动机：直接回归需要网络同时处理差异巨大的几何尺度（室内<5m vs 户外>50m），非常困难。分类先将问题粗定位到合适范围，回归只需精调残差，大幅降低学习难度
像素几何增强平面嵌入模块:
- 功能：将底层像素级几何线索（深度、法线）注入平面查询，增强实例级预测
- 核心思路：编码器后附加两个 CNN 模块分别预测像素深度图 \(\mathbf{D}\) 和法线图 \(\mathbf{N}\)（作为辅助任务）。将它们投影到嵌入空间 \(\mathbf{F_D}\), \(\mathbf{F_N}\)，然后平面查询通过交叉注意力与几何特征交互：\(\mathbf{X_D} = \text{Attn}(\mathbf{Q}, \mathbf{F_D})\), \(\mathbf{X_N} = \text{Attn}(\mathbf{Q}, \mathbf{F_N})\)。最终嵌入 \(\mathbf{X} = \mathbf{X_F} + \mathbf{X_D} + \mathbf{X_N}\)
- 设计动机：仅将像素深度/法线作为辅助任务训练时提升有限，因为平面查询无法直接利用这些底层几何信息。注意力机制让查询能从像素级几何预测中发现细粒度上下文线索（如平面边界）
大规模跨域平面基准数据集:
- 功能：提供覆盖多样室内外环境的高分辨率密集平面标注
- 核心思路：整合14个数据集（7室内+4户外），共56万高分辨率（640×480）标注。对缺少语义标注的数据集，使用 Mask2Former 获取全景分割结果作为伪真值，然后在每个物体/区域的反投影点云上拟合平面。对户外场景借助合成数据集（精确深度图）或立体相机数据生成平面标注
- 设计动机：现有平面数据集仅覆盖室内且低分辨率，无法支撑跨域训练。高分辨率标注是高质量平面重建的前提

损失函数 / 训练策略¶

总损失：\(L = \lambda_c L_c + \lambda_m L_m + \lambda_{n_c} L_{n_c} + \lambda_{n_r} L_{n_r} + \lambda_{d_c} L_{d_c} + \lambda_{d_r} L_{d_r} + \lambda_{p_d} L_{p_d} + \lambda_{p_n} L_{p_n}\)
分类用交叉熵损失，回归用 L1 损失，掩码用交叉熵+Dice 联合损失
使用二部图匹配策略（Hungarian matching）匹配预测和真值
训练：AdamW 优化器，lr=1e-4，batch size=16，50K步，在40K/47K步各衰减10倍

实验关键数据¶

主实验 — 零样本评测¶

方法	NYUv2 Recall@0.1m	NYUv2 Recall@5°	7-Scenes Recall@0.1m
PlaneRecTR (S)	10.13	16.42	-
PlaneRecTR (M)	14.29	24.97	10.97
ZeroPlane-DINO-B (M)	17.86	37.29	17.19
ZeroPlane-Dust3R (M)	21.20	38.32	19.14

消融实验¶

设计	NYUv2 Recall@0.1m
耦合表示（n/d 直接回归）	~12
解耦 + 直接回归	~14
解耦 + 分类-回归	17.86
无几何增强模块	降低约1-2%
辅助任务但无注意力注入	提升有限

关键发现¶

混合训练（M）显著优于单数据集训练（S），证实了跨域数据的互补价值
解耦法向量/偏移 + 分类-回归相比直接回归提升巨大，特别在深度重建精度上
几何增强嵌入模块通过注意力机制注入有效，仅作辅助任务则帮助有限
更强的编码器（DINOv2-L、Dust3R）进一步提升性能，但基础版已大幅领先
在户外零样本数据上优势更加明显，体现了跨域泛化能力

亮点与洞察¶

首次将零样本泛化思想引入3D平面重建领域，开辟了新的研究方向
"分类-回归"范式巧妙解决了跨域几何参数分布差异大的难题，具有通用性
构建的大规模跨域基准数据集本身就是重要贡献，可支撑后续研究
DINOv2 编码器的引入显著提升了特征的跨域鲁棒性

局限与展望¶

户外数据主要来自合成数据集或立体相机，真实户外场景的标注仍然困难
偏移 exemplar 的室内/户外分割阈值（20m）是人工设定的，可能不够灵活
未处理非平面区域的重建（如曲面），仅关注平面
可考虑结合深度基础模型（如 Depth Anything）进一步提升几何估计精度

评分¶

新颖性: 8/10 — 首次提出跨域零样本平面重建，分类-回归范式设计精巧
实验充分度: 9/10 — 14个数据集、多种编码器、全面消融，零样本评测覆盖室内外
写作质量: 8/10 — 问题分析透彻，方法动机清晰
价值: 8/10 — 数据集+方法双贡献，开辟3D平面重建的新研究方向