Floating No More: Object-Ground Reconstruction from a Single Image¶

会议: CVPR 2025
arXiv: 2407.18914
代码: 无
领域: 3D视觉
关键词: 单图3D重建, 物体-地面关系, 像素高度, 透视场, 阴影生成

一句话总结¶

提出 ORG 框架，首次从单张图像联合建模物体3D几何、相机参数和物体-地面关系，通过预测像素高度图和透视场两个紧凑的密集表示，解决了重建物体"悬浮/倾斜"的问题，显著提升阴影生成和姿态操控的真实感。

研究背景与动机¶

领域现状：单图3D重建近年取得显著进展，主流方法包括单目深度估计（MiDaS、LeReS）、基于隐式表示的类别特定重建（PIFu）、以及基于扩散的新视角合成（Zero-123）。
现有痛点：这些方法聚焦于物体形状精度，却忽略了物体、地面和相机三者之间的关系。深度估计方法需要额外的相机参数才能投影为3D点云，且存在未知的 scale/shift，导致重建畸变；类别特定方法和新视角合成方法通常假设简单的正交相机或已知相机参数，限制了在无约束场景下的应用。
核心矛盾：缺乏对物体-地面关系的显式建模，使得重建出的物体放在平面上时经常出现"悬浮"或"倾斜"，严重影响阴影渲染、反射生成等3D编辑应用的真实感。
本文目标 (1) 如何从单图同时估计物体3D形状、相机参数和地面关系？(2) 如何用紧凑的像素级表示编码这三者的关系？(3) 如何将这些表示高效转换为深度图和点云？
切入角度：作者观察到像素高度（pixel height）这种表示天然与相机模型解耦，能直观度量物体到地面的距离；而透视场（perspective field）能以密集方式编码相机内外参。两者结合可同时捕捉物体-地面-相机的三元关系。
核心 idea：用像素高度图+透视场两个紧凑的密集表示联合建模物体-地面-相机关系，实现首个从单图"接地"重建的框架。

方法详解¶

整体框架¶

输入为单张以物体为中心的图像，输出为物体前后表面的像素高度图、纬度场和上方向场。模型使用 PVTv2-b3 作为编码器，SegFormer 作为解码器，通过回归方式预测这些密集场。预测完成后，通过"透视场引导的像素高度重投影"模块将两种表示转换为深度图和3D点云。

关键设计¶

双表面像素高度表示:
- 功能：编码物体前后表面到地面的像素距离
- 核心思路：对每个像素，从相机出发的射线穿过物体时有入射点（前表面 \(\mathbf{p}_f\)）和出射点（后表面 \(\mathbf{p}_b\)），分别预测它们到地面投影点的像素距离，并用图像高度归一化。与深度不同，像素高度与相机模型解耦，可直接从图像上下文推断而无需额外相机信息。
- 设计动机：原始像素高度仅考虑前表面且有严格的相机视角约束，本文扩展到双表面并联合建模相机参数来放宽这些限制，使其不仅能生成阴影，还能用于完整的3D重建。
透视场表示:
- 功能：以像素级密集方式编码相机内外参数
- 核心思路：透视场包含纬度场（编码每个像素相对于地平面的仰角）和上方向场（编码每个像素的滚转角方向）。纬度场归一化到 \([0,1]\)，上方向场的角度 \(\theta\) 用 \((\sin\theta, \cos\theta)\) 表示以避免 \(0/2\pi\) 歧义。通过对预测的透视场进行网格搜索优化，可恢复相机的视场角 \(\alpha\) 和旋转矩阵 \(\mathbf{R}\)。
- 设计动机：像素高度和透视场都对图像裁剪/旋转/平移具有不变性或等变性，天然适合密集预测任务的神经网络建模，且两者联合预测可实现自包含的3D重建管线。
透视场引导的像素高度重投影模块:
- 功能：将预测的像素高度和透视场高效转换为深度图和3D点云
- 核心思路：首先从透视场恢复相机焦距 \(f = H/(2\tan(\alpha/2))\) 和内外参矩阵。然后利用两个约束——(1) 地面上所有点的z坐标相同、(2) 物体点与其地面投影有相同的XY坐标——消去未知深度 \(d\)，得到归一化的3D坐标 \(\mathbf{P}_n^{world} = (X_n Y_n)/(XY) \cdot (X, Y, Z)\)。
- 设计动机：证明了像素高度+透视场编码了足够的信息来进行完整的3D重建，使得模型输出可以与现有基于深度的方法公平比较。

损失函数 / 训练策略¶

所有回归任务均使用 \(\ell_2\) 损失。训练使用 AdamW 优化器，学习率 0.0005，权重衰减 1e-2，总共 60K 步，batch size 8，4×A100 训练。在 30K、40K、50K 步分别将学习率降低10倍。数据增强包括水平翻转、随机裁剪和颜色抖动。

实验关键数据¶

主实验¶

方法	相机参数	AbsRel↓	δ₁↑	LSIV↓	CD↓
MiDaS + Ctrl-C	Off-the-shelf	22.7	77.9	1.22	1.39
LeReS + Ctrl-C	Off-the-shelf	30.0	63.1	1.05	1.31
ORG (本文)	本文	19.1	81.2	0.93	1.26

消融实验¶

物体几何	相机参数	LSIV↓	改进
depth	OFS estimator	1.25	基线
depth	perspective field	1.01	-0.24
pixel height	OFS estimator	0.98	-0.27
pixel height	perspective field	0.81	-0.44

关键发现¶

像素高度表示优于深度表示：在相同数据和训练设置下，像素高度的点云重建优于深度估计，因为它更聚焦于物体-地面几何而非物体-相机几何，更容易从图像推断。
联合训练贡献最大：像素高度+透视场联合估计相比任意单一替换基线提升最显著（LSIV从1.25降到0.81）。
视角多样性越大优势越明显：大视角变化时ORG相比基线提升最多（LSIV改进-0.27 vs 小视角-0.02），因为传统相机估计在极端俯仰角下表现差。

亮点与洞察¶

像素高度替代深度的洞察：像素高度天然解耦于相机模型且编码物体-地面关系，比深度更"自然"也更易推断。这种换表示来降低问题难度的思路可迁移到任何需要物体-场景关系建模的任务。
密集表示编码稀疏参数：用像素级密集场编码全局相机参数（透视场），既保留了精确的空间变化信息，又利用了密集预测网络的归纳偏置，非常巧妙。
轻量级管线：整个方法只需一次前向推理即可得到深度图、点云、阴影，无需多视角输入或昂贵的扩散生成。

局限与展望¶

假设物体在平坦地面上：对悬挂物体、水中物体等非"接地"场景不适用。
仅建模前后两个表面：对拓扑复杂的物体（如环形、镂空结构）可能不足。
依赖 Objaverse 合成数据训练：虽然泛化性不错，但真实世界数据的微调可能进一步提升性能。
可改进：将pixel height扩展为多层表示以处理更复杂形状；引入语义先验增强地面检测鲁棒性。

评分¶

新颖性: ⭐⭐⭐⭐ 首次联合建模物体-地面-相机三元关系，像素高度替代深度的洞察有启发性
实验充分度: ⭐⭐⭐⭐ 多维度评估（深度、点云、阴影、反射），消融详尽，但缺乏大规模真实世界定量评估
写作质量: ⭐⭐⭐⭐ 逻辑清晰，推导严谨，图表质量高
价值: ⭐⭐⭐⭐ 对3D编辑应用（阴影/反射/姿态操控）有直接实用价值