PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction¶

会议: CVPR 2026
arXiv: 2603.05888
代码: 项目主页
领域: 3D视觉
关键词: 单视图场景重建, 自回归mesh生成, 原生mesh, artist-ready, 组合式3D

一句话总结¶

提出 PixARMesh，首个在原生 mesh 空间（而非 SDF）中进行单视图场景重建的自回归框架，通过像素对齐图像特征和全局场景上下文增强点云编码器，在统一的 token 序列中同时预测物体位姿和mesh，在 3D-FRONT 上达到场景级 SOTA 且输出紧凑、可编辑的 artist-ready mesh。

研究背景与动机¶

领域现状：单视图3D场景重建是一个长期存在的病态问题。组合式生成范式近年因大规模物体级重建模型（TRELLIS、CLAY等）的进步而受到关注。

现有痛点： - 整体式方法（Panoptic3D、Uni-3D）受限于体素分辨率和前馈解码器表达力有限 - 组合式方法（Gen3DSR、DeepPriorAssembly）需要先修复遮挡再生成，然后用优化方法估计布局——容易陷入局部最优 - MIDI 避免了布局优化但在归一化场景坐标中直接生成，仍用 SDF - 所有现有方法都基于 SDF 表示，需要 Marching Cubes 提取表面，产生过度三角化、过于光滑的高面数 mesh，不适合编辑

核心矛盾：mesh 生成模型（MeshGPT、EdgeRunner、BPT）只能做单物体级别输出，尚未有方法将它们扩展到场景级重建

切入角度：利用预训练的物体级自回归 mesh 生成器（EdgeRunner/BPT），增强其点云编码器以融入外观和全局上下文，用统一 token 序列实现位姿+mesh 联合预测

核心 idea：在单个自回归序列中联合预测物体位姿（tokenized 为包围盒角点）和原生mesh（tokenized 为顶点/面），避免 SDF 提取和后处理布局优化

方法详解¶

整体框架¶

输入 RGB 图像 → 深度估计+实例分割+图像特征提取（均用现成模型）→ 深度反投影得全局+逐物体点云 → 像素对齐点云编码器融合几何与外观 → 场景上下文聚合 → Transformer 解码器自回归生成 [位姿 tokens | mesh tokens]

关键设计¶

像素对齐点云编码器（Pixel-Aligned PC-Encoder）
- 功能：在点云编码器中融入图像外观特征
- 核心思路：对实例点云 \(P_i\) 中的每个3D点 \(p\)，通过相机内参投影到图像平面 \((u,v) = \text{Proj}(K, p)\)，提取对应像素的 DINOv2 特征 \(\mathbf{f}_p^{\text{img}}\)，与几何特征 \(\mathbf{f}_p^{\text{pc}}\) 拼接后送入 Transformer 融合块。可学习查询向量聚合融合特征为紧凑潜码 \(\mathbf{z}_i\)
- 设计动机：原始 EdgeRunner/BPT 的点云编码器仅处理坐标，没有利用图像中丰富的外观线索。在单视图场景中物体被大量遮挡，外观特征对推断完整几何至关重要
场景上下文聚合
- 功能：为每个物体注入全局场景上下文
- 核心思路：先在统一场景坐标系中归一化所有点云（而非独立归一化每个物体），保持空间一致性。编码全局场景点云得 \(\mathbf{z}_{\text{scene}}\)，每个物体潜码通过交叉注意力聚合场景信息：\(\mathbf{z}_i^{\text{agg}} = \text{CrossAttn}(q=\mathbf{z}_i, k=\mathbf{z}_{\text{scene}}, v=\mathbf{z}_{\text{scene}})\)
- 设计动机：单个物体的局部点云信息不足以推断其完整几何和精确位姿。附近相似物体的上下文能提供补充线索，特别是在严重遮挡下
统一位姿-mesh token化
- 功能：用相同的词汇表将物体位姿和mesh统一编码为 token 序列
- 核心思路：位姿用重力对齐的7-DoF包围盒表示，编码为8个角点的3D坐标。复用mesh生成器的坐标词汇表（EdgeRunner: 每点3个token ，共24 tokens；BPT: 每点2个token ，共16 tokens）。推理时从8个角点反推局部-全局仿射变换 \(\mathbf{T}^\star\)，将规范空间mesh映射回场景坐标
- 最终序列格式：<bos> [pose_seq] <sep> [mesh_seq] <eos>
- 设计动机：避免引入新的词汇表类型，实现完全的词汇共享。位姿序列只有16-24个token，相比mesh序列微乎其微

损失函数 / 训练策略¶

单一的 next-token 预测交叉熵损失：\(\mathcal{L}_{\text{ce}} = -\sum_t \log p_\theta(s_t | s_{<t}, \mathbf{z}_{\text{agg}})\)
训练时对深度值加 jitter（±0.02）模拟单目深度不准确性
8×H100 GPU，EdgeRunner 约2天，BPT 约18小时

实验关键数据¶

主实验（3D-FRONT 数据集）¶

方法	场景CD↓(×10⁻³)	场景CD-S↓	场景F-Score↑	物体CD↓	物体F-Score↑
InstPIFu	213.4	124.9	13.72%	44.74	29.63%
MIDI	156.3	79.3	24.83%	6.71	72.69%
DepR	153.2	56.4	25.00%	2.57	89.66%
PixARMesh-ER	98.8	49.1	33.55%	4.04	82.27%
PixARMesh-BPT	98.4	47.6	32.26%	4.57	80.30%

消融实验（联合位姿-mesh建模的必要性）¶

配置	场景CD↓	场景F-Score↑	物体CD↓	物体F-Score↑
EdgeRunner-FT (无布局)	119.8	27.81%	4.75	80.57%
Two-stage (分离模型)	99.8	33.32%	4.75	80.85%
PixARMesh (联合)	98.8	33.55%	4.04	82.27%

消融实验（模块贡献，使用GT输入）¶

图像特征	场景上下文	场景CD↓	场景F-Score↑	物体CD↓
✗	✗	57.78	41.02%	5.29
✓	✗	55.44	42.84%	5.56
✗	✓	39.30	44.67%	3.64
✓	✓	39.88	46.15%	4.04

关键发现¶

场景级指标上 PixARMesh 全面 SOTA，场景 CD 从 DepR 的 153.2 降至 98.4（-36%），F-Score 从 25% 提升至 33.6%
物体级 DepR 仍然更好（CD 2.57 vs 4.04），因为扩散模型生成的 SDF 几何精度更高。但 PixARMesh 输出的是紧凑 artist-ready mesh（每个物体仅数千面），而 SDF 方法输出的是密集三角化的高面数 mesh
场景上下文聚合是最关键模块：加入后场景 CD 从 57.78 降至 39.30，贡献远大于图像特征
联合建模优于两阶段：物体 CD 从 4.75 降至 4.04，证明几何生成从位姿推理中受益
EdgeRunner 变体强于 BPT 变体（因为更高的量化分辨率保留了更多几何细节）

亮点与洞察¶

首次将自回归 mesh 生成扩展到场景级别：打破了"mesh 生成模型只能做单物体"的局限。通过简洁的 token 序列设计实现位姿和 mesh 的统一解码，无需后处理布局优化
词汇共享的位姿 token 化非常巧妙：用包围盒角点坐标复用 mesh 词汇表，零额外词汇开销，仅增加16-24个 token。推理时通过最小二乘拟合仿射变换恢复布局
联合建模的涌现效应：位姿预测和 mesh 生成互相促进——几何信息帮助定位，位姿上下文帮助补全几何。这在两阶段方案中无法实现
输出的 mesh 可以直接用于图形应用（编辑、渲染、模拟），而 SDF 方法的 Marching Cubes 输出需要大量后处理

局限与展望¶

物体级几何精度不如 DepR 等扩散式 SDF 方法，自回归 mesh 在精细曲面细节上有天然劣势
目前仅在 3D-FRONT 室内家具场景上训练，物体种类有限
依赖 Grounded-SAM 分割和 Depth Pro 深度估计，上游模型的错误会级联传播
自回归解码在物体较多时速度会变慢（序列长度线性增长）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个 mesh-native 场景重建，位姿和 mesh 的统一 token 化设计优雅
实验充分度: ⭐⭐⭐⭐ 合成+真实数据，消融充分，但缺少与更多 mesh 生成基线的对比
写作质量: ⭐⭐⭐⭐⭐ 写作清晰，方法动机-设计-实验的逻辑链非常完整
价值: ⭐⭐⭐⭐⭐ 开辟了 mesh-native 场景重建的新范式，对后续工作有重要启发