跳转至

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

会议: CVPR 2026
arXiv: 2603.05888
代码: 项目主页
领域: 3D视觉
关键词: 单视图场景重建, 自回归mesh生成, 原生mesh, artist-ready, 组合式3D

一句话总结

提出 PixARMesh,首个在原生 mesh 空间(而非 SDF)中进行单视图场景重建的自回归框架,通过像素对齐图像特征和全局场景上下文增强点云编码器,在统一的 token 序列中同时预测物体位姿和mesh,在 3D-FRONT 上达到场景级 SOTA 且输出紧凑、可编辑的 artist-ready mesh。

研究背景与动机

领域现状:单视图3D场景重建是一个长期存在的病态问题。组合式生成范式近年因大规模物体级重建模型(TRELLIS、CLAY等)的进步而受到关注。

现有痛点: - 整体式方法(Panoptic3D、Uni-3D)受限于体素分辨率和前馈解码器表达力有限 - 组合式方法(Gen3DSR、DeepPriorAssembly)需要先修复遮挡再生成,然后用优化方法估计布局——容易陷入局部最优 - MIDI 避免了布局优化但在归一化场景坐标中直接生成,仍用 SDF - 所有现有方法都基于 SDF 表示,需要 Marching Cubes 提取表面,产生过度三角化、过于光滑的高面数 mesh,不适合编辑

核心矛盾:mesh 生成模型(MeshGPT、EdgeRunner、BPT)只能做单物体级别输出,尚未有方法将它们扩展到场景级重建

切入角度:利用预训练的物体级自回归 mesh 生成器(EdgeRunner/BPT),增强其点云编码器以融入外观和全局上下文,用统一 token 序列实现位姿+mesh 联合预测

核心 idea:在单个自回归序列中联合预测物体位姿(tokenized 为包围盒角点)和原生mesh(tokenized 为顶点/面),避免 SDF 提取和后处理布局优化

方法详解

整体框架

输入 RGB 图像 → 深度估计+实例分割+图像特征提取(均用现成模型)→ 深度反投影得全局+逐物体点云 → 像素对齐点云编码器融合几何与外观 → 场景上下文聚合 → Transformer 解码器自回归生成 [位姿 tokens | mesh tokens]

关键设计

  1. 像素对齐点云编码器(Pixel-Aligned PC-Encoder)

    • 功能:在点云编码器中融入图像外观特征
    • 核心思路:对实例点云 \(P_i\) 中的每个3D点 \(p\),通过相机内参投影到图像平面 \((u,v) = \text{Proj}(K, p)\),提取对应像素的 DINOv2 特征 \(\mathbf{f}_p^{\text{img}}\),与几何特征 \(\mathbf{f}_p^{\text{pc}}\) 拼接后送入 Transformer 融合块。可学习查询向量聚合融合特征为紧凑潜码 \(\mathbf{z}_i\)
    • 设计动机:原始 EdgeRunner/BPT 的点云编码器仅处理坐标,没有利用图像中丰富的外观线索。在单视图场景中物体被大量遮挡,外观特征对推断完整几何至关重要
  2. 场景上下文聚合

    • 功能:为每个物体注入全局场景上下文
    • 核心思路:先在统一场景坐标系中归一化所有点云(而非独立归一化每个物体),保持空间一致性。编码全局场景点云得 \(\mathbf{z}_{\text{scene}}\),每个物体潜码通过交叉注意力聚合场景信息:\(\mathbf{z}_i^{\text{agg}} = \text{CrossAttn}(q=\mathbf{z}_i, k=\mathbf{z}_{\text{scene}}, v=\mathbf{z}_{\text{scene}})\)
    • 设计动机:单个物体的局部点云信息不足以推断其完整几何和精确位姿。附近相似物体的上下文能提供补充线索,特别是在严重遮挡下
  3. 统一位姿-mesh token化

    • 功能:用相同的词汇表将物体位姿和mesh统一编码为 token 序列
    • 核心思路:位姿用重力对齐的7-DoF包围盒表示,编码为8个角点的3D坐标。复用mesh生成器的坐标词汇表(EdgeRunner: 每点3个token ,共24 tokens;BPT: 每点2个token ,共16 tokens)。推理时从8个角点反推局部-全局仿射变换 \(\mathbf{T}^\star\),将规范空间mesh映射回场景坐标
    • 最终序列格式:<bos> [pose_seq] <sep> [mesh_seq] <eos>
    • 设计动机:避免引入新的词汇表类型,实现完全的词汇共享。位姿序列只有16-24个token,相比mesh序列微乎其微

损失函数 / 训练策略

  • 单一的 next-token 预测交叉熵损失:\(\mathcal{L}_{\text{ce}} = -\sum_t \log p_\theta(s_t | s_{<t}, \mathbf{z}_{\text{agg}})\)
  • 训练时对深度值加 jitter(±0.02)模拟单目深度不准确性
  • 8×H100 GPU,EdgeRunner 约2天,BPT 约18小时

实验关键数据

主实验(3D-FRONT 数据集)

方法 场景CD↓(×10⁻³) 场景CD-S↓ 场景F-Score↑ 物体CD↓ 物体F-Score↑
InstPIFu 213.4 124.9 13.72% 44.74 29.63%
MIDI 156.3 79.3 24.83% 6.71 72.69%
DepR 153.2 56.4 25.00% 2.57 89.66%
PixARMesh-ER 98.8 49.1 33.55% 4.04 82.27%
PixARMesh-BPT 98.4 47.6 32.26% 4.57 80.30%

消融实验(联合位姿-mesh建模的必要性)

配置 场景CD↓ 场景F-Score↑ 物体CD↓ 物体F-Score↑
EdgeRunner-FT (无布局) 119.8 27.81% 4.75 80.57%
Two-stage (分离模型) 99.8 33.32% 4.75 80.85%
PixARMesh (联合) 98.8 33.55% 4.04 82.27%

消融实验(模块贡献,使用GT输入)

图像特征 场景上下文 场景CD↓ 场景F-Score↑ 物体CD↓
57.78 41.02% 5.29
55.44 42.84% 5.56
39.30 44.67% 3.64
39.88 46.15% 4.04

关键发现

  • 场景级指标上 PixARMesh 全面 SOTA,场景 CD 从 DepR 的 153.2 降至 98.4(-36%),F-Score 从 25% 提升至 33.6%
  • 物体级 DepR 仍然更好(CD 2.57 vs 4.04),因为扩散模型生成的 SDF 几何精度更高。但 PixARMesh 输出的是紧凑 artist-ready mesh(每个物体仅数千面),而 SDF 方法输出的是密集三角化的高面数 mesh
  • 场景上下文聚合是最关键模块:加入后场景 CD 从 57.78 降至 39.30,贡献远大于图像特征
  • 联合建模优于两阶段:物体 CD 从 4.75 降至 4.04,证明几何生成从位姿推理中受益
  • EdgeRunner 变体强于 BPT 变体(因为更高的量化分辨率保留了更多几何细节)

亮点与洞察

  • 首次将自回归 mesh 生成扩展到场景级别:打破了"mesh 生成模型只能做单物体"的局限。通过简洁的 token 序列设计实现位姿和 mesh 的统一解码,无需后处理布局优化
  • 词汇共享的位姿 token 化非常巧妙:用包围盒角点坐标复用 mesh 词汇表,零额外词汇开销,仅增加16-24个 token。推理时通过最小二乘拟合仿射变换恢复布局
  • 联合建模的涌现效应:位姿预测和 mesh 生成互相促进——几何信息帮助定位,位姿上下文帮助补全几何。这在两阶段方案中无法实现
  • 输出的 mesh 可以直接用于图形应用(编辑、渲染、模拟),而 SDF 方法的 Marching Cubes 输出需要大量后处理

局限与展望

  • 物体级几何精度不如 DepR 等扩散式 SDF 方法,自回归 mesh 在精细曲面细节上有天然劣势
  • 目前仅在 3D-FRONT 室内家具场景上训练,物体种类有限
  • 依赖 Grounded-SAM 分割和 Depth Pro 深度估计,上游模型的错误会级联传播
  • 自回归解码在物体较多时速度会变慢(序列长度线性增长)

相关工作与启发

  • vs DepR:DepR 用深度引导扩散在 SDF 空间生成,物体几何更精细(CD 2.57 vs 4.04),但场景布局不如 PixARMesh(场景 CD 153.2 vs 98.8),且输出需要 Marching Cubes 后处理
  • vs MIDI:MIDI 在归一化场景空间直接生成 SDF 避免了布局优化,但仍需表面提取且场景精度不如 PixARMesh
  • vs EdgeRunner / BPT 原始模型:它们只能做单物体生成,PixARMesh 通过注入像素对齐特征和场景上下文将它们扩展到场景级

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个 mesh-native 场景重建,位姿和 mesh 的统一 token 化设计优雅
  • 实验充分度: ⭐⭐⭐⭐ 合成+真实数据,消融充分,但缺少与更多 mesh 生成基线的对比
  • 写作质量: ⭐⭐⭐⭐⭐ 写作清晰,方法动机-设计-实验的逻辑链非常完整
  • 价值: ⭐⭐⭐⭐⭐ 开辟了 mesh-native 场景重建的新范式,对后续工作有重要启发

相关论文