PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction¶
会议: CVPR 2026
arXiv: 2603.05888
代码: 项目主页
领域: 3D视觉
关键词: 单视图场景重建, 自回归mesh生成, 原生mesh, artist-ready, 组合式3D
一句话总结¶
提出 PixARMesh,首个在原生 mesh 空间(而非 SDF)中进行单视图场景重建的自回归框架,通过像素对齐图像特征和全局场景上下文增强点云编码器,在统一的 token 序列中同时预测物体位姿和mesh,在 3D-FRONT 上达到场景级 SOTA 且输出紧凑、可编辑的 artist-ready mesh。
研究背景与动机¶
领域现状:单视图3D场景重建是一个长期存在的病态问题。组合式生成范式近年因大规模物体级重建模型(TRELLIS、CLAY等)的进步而受到关注。
现有痛点: - 整体式方法(Panoptic3D、Uni-3D)受限于体素分辨率和前馈解码器表达力有限 - 组合式方法(Gen3DSR、DeepPriorAssembly)需要先修复遮挡再生成,然后用优化方法估计布局——容易陷入局部最优 - MIDI 避免了布局优化但在归一化场景坐标中直接生成,仍用 SDF - 所有现有方法都基于 SDF 表示,需要 Marching Cubes 提取表面,产生过度三角化、过于光滑的高面数 mesh,不适合编辑
核心矛盾:mesh 生成模型(MeshGPT、EdgeRunner、BPT)只能做单物体级别输出,尚未有方法将它们扩展到场景级重建
切入角度:利用预训练的物体级自回归 mesh 生成器(EdgeRunner/BPT),增强其点云编码器以融入外观和全局上下文,用统一 token 序列实现位姿+mesh 联合预测
核心 idea:在单个自回归序列中联合预测物体位姿(tokenized 为包围盒角点)和原生mesh(tokenized 为顶点/面),避免 SDF 提取和后处理布局优化
方法详解¶
整体框架¶
输入 RGB 图像 → 深度估计+实例分割+图像特征提取(均用现成模型)→ 深度反投影得全局+逐物体点云 → 像素对齐点云编码器融合几何与外观 → 场景上下文聚合 → Transformer 解码器自回归生成 [位姿 tokens | mesh tokens]
关键设计¶
-
像素对齐点云编码器(Pixel-Aligned PC-Encoder)
- 功能:在点云编码器中融入图像外观特征
- 核心思路:对实例点云 \(P_i\) 中的每个3D点 \(p\),通过相机内参投影到图像平面 \((u,v) = \text{Proj}(K, p)\),提取对应像素的 DINOv2 特征 \(\mathbf{f}_p^{\text{img}}\),与几何特征 \(\mathbf{f}_p^{\text{pc}}\) 拼接后送入 Transformer 融合块。可学习查询向量聚合融合特征为紧凑潜码 \(\mathbf{z}_i\)
- 设计动机:原始 EdgeRunner/BPT 的点云编码器仅处理坐标,没有利用图像中丰富的外观线索。在单视图场景中物体被大量遮挡,外观特征对推断完整几何至关重要
-
场景上下文聚合
- 功能:为每个物体注入全局场景上下文
- 核心思路:先在统一场景坐标系中归一化所有点云(而非独立归一化每个物体),保持空间一致性。编码全局场景点云得 \(\mathbf{z}_{\text{scene}}\),每个物体潜码通过交叉注意力聚合场景信息:\(\mathbf{z}_i^{\text{agg}} = \text{CrossAttn}(q=\mathbf{z}_i, k=\mathbf{z}_{\text{scene}}, v=\mathbf{z}_{\text{scene}})\)
- 设计动机:单个物体的局部点云信息不足以推断其完整几何和精确位姿。附近相似物体的上下文能提供补充线索,特别是在严重遮挡下
-
统一位姿-mesh token化
- 功能:用相同的词汇表将物体位姿和mesh统一编码为 token 序列
- 核心思路:位姿用重力对齐的7-DoF包围盒表示,编码为8个角点的3D坐标。复用mesh生成器的坐标词汇表(EdgeRunner: 每点3个token
,共24 tokens;BPT: 每点2个token ,共16 tokens)。推理时从8个角点反推局部-全局仿射变换 \(\mathbf{T}^\star\),将规范空间mesh映射回场景坐标 - 最终序列格式:
<bos> [pose_seq] <sep> [mesh_seq] <eos> - 设计动机:避免引入新的词汇表类型,实现完全的词汇共享。位姿序列只有16-24个token,相比mesh序列微乎其微
损失函数 / 训练策略¶
- 单一的 next-token 预测交叉熵损失:\(\mathcal{L}_{\text{ce}} = -\sum_t \log p_\theta(s_t | s_{<t}, \mathbf{z}_{\text{agg}})\)
- 训练时对深度值加 jitter(±0.02)模拟单目深度不准确性
- 8×H100 GPU,EdgeRunner 约2天,BPT 约18小时
实验关键数据¶
主实验(3D-FRONT 数据集)¶
| 方法 | 场景CD↓(×10⁻³) | 场景CD-S↓ | 场景F-Score↑ | 物体CD↓ | 物体F-Score↑ |
|---|---|---|---|---|---|
| InstPIFu | 213.4 | 124.9 | 13.72% | 44.74 | 29.63% |
| MIDI | 156.3 | 79.3 | 24.83% | 6.71 | 72.69% |
| DepR | 153.2 | 56.4 | 25.00% | 2.57 | 89.66% |
| PixARMesh-ER | 98.8 | 49.1 | 33.55% | 4.04 | 82.27% |
| PixARMesh-BPT | 98.4 | 47.6 | 32.26% | 4.57 | 80.30% |
消融实验(联合位姿-mesh建模的必要性)¶
| 配置 | 场景CD↓ | 场景F-Score↑ | 物体CD↓ | 物体F-Score↑ |
|---|---|---|---|---|
| EdgeRunner-FT (无布局) | 119.8 | 27.81% | 4.75 | 80.57% |
| Two-stage (分离模型) | 99.8 | 33.32% | 4.75 | 80.85% |
| PixARMesh (联合) | 98.8 | 33.55% | 4.04 | 82.27% |
消融实验(模块贡献,使用GT输入)¶
| 图像特征 | 场景上下文 | 场景CD↓ | 场景F-Score↑ | 物体CD↓ |
|---|---|---|---|---|
| ✗ | ✗ | 57.78 | 41.02% | 5.29 |
| ✓ | ✗ | 55.44 | 42.84% | 5.56 |
| ✗ | ✓ | 39.30 | 44.67% | 3.64 |
| ✓ | ✓ | 39.88 | 46.15% | 4.04 |
关键发现¶
- 场景级指标上 PixARMesh 全面 SOTA,场景 CD 从 DepR 的 153.2 降至 98.4(-36%),F-Score 从 25% 提升至 33.6%
- 物体级 DepR 仍然更好(CD 2.57 vs 4.04),因为扩散模型生成的 SDF 几何精度更高。但 PixARMesh 输出的是紧凑 artist-ready mesh(每个物体仅数千面),而 SDF 方法输出的是密集三角化的高面数 mesh
- 场景上下文聚合是最关键模块:加入后场景 CD 从 57.78 降至 39.30,贡献远大于图像特征
- 联合建模优于两阶段:物体 CD 从 4.75 降至 4.04,证明几何生成从位姿推理中受益
- EdgeRunner 变体强于 BPT 变体(因为更高的量化分辨率保留了更多几何细节)
亮点与洞察¶
- 首次将自回归 mesh 生成扩展到场景级别:打破了"mesh 生成模型只能做单物体"的局限。通过简洁的 token 序列设计实现位姿和 mesh 的统一解码,无需后处理布局优化
- 词汇共享的位姿 token 化非常巧妙:用包围盒角点坐标复用 mesh 词汇表,零额外词汇开销,仅增加16-24个 token。推理时通过最小二乘拟合仿射变换恢复布局
- 联合建模的涌现效应:位姿预测和 mesh 生成互相促进——几何信息帮助定位,位姿上下文帮助补全几何。这在两阶段方案中无法实现
- 输出的 mesh 可以直接用于图形应用(编辑、渲染、模拟),而 SDF 方法的 Marching Cubes 输出需要大量后处理
局限与展望¶
- 物体级几何精度不如 DepR 等扩散式 SDF 方法,自回归 mesh 在精细曲面细节上有天然劣势
- 目前仅在 3D-FRONT 室内家具场景上训练,物体种类有限
- 依赖 Grounded-SAM 分割和 Depth Pro 深度估计,上游模型的错误会级联传播
- 自回归解码在物体较多时速度会变慢(序列长度线性增长)
相关工作与启发¶
- vs DepR:DepR 用深度引导扩散在 SDF 空间生成,物体几何更精细(CD 2.57 vs 4.04),但场景布局不如 PixARMesh(场景 CD 153.2 vs 98.8),且输出需要 Marching Cubes 后处理
- vs MIDI:MIDI 在归一化场景空间直接生成 SDF 避免了布局优化,但仍需表面提取且场景精度不如 PixARMesh
- vs EdgeRunner / BPT 原始模型:它们只能做单物体生成,PixARMesh 通过注入像素对齐特征和场景上下文将它们扩展到场景级
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个 mesh-native 场景重建,位姿和 mesh 的统一 token 化设计优雅
- 实验充分度: ⭐⭐⭐⭐ 合成+真实数据,消融充分,但缺少与更多 mesh 生成基线的对比
- 写作质量: ⭐⭐⭐⭐⭐ 写作清晰,方法动机-设计-实验的逻辑链非常完整
- 价值: ⭐⭐⭐⭐⭐ 开辟了 mesh-native 场景重建的新范式,对后续工作有重要启发
相关论文¶
- [ICLR 2026] QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models
- [CVPR 2026] Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass
- [CVPR 2026] DirectFisheye-GS: Enabling Native Fisheye Input in Gaussian Splatting with Cross-View Joint Optimization
- [CVPR 2026] tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction
- [CVPR 2026] AvatarPointillist: AutoRegressive 4D Gaussian Avatarization