跳转至

3D Mesh Editing using Masked LRMs

会议: ICCV 2025
arXiv: 2412.08641
代码: https://chocolatebiscuit.github.io/MaskedLRM/
领域: 3D视觉 / 形状编辑 / 大规模重建模型
关键词: LRM, Masked Reconstruction, 3D Editing, Conditional Inpainting, Multi-view Consistency

一句话总结

提出MaskedLRM,将3D形状编辑重构为条件重建问题——训练时随机生成3D遮挡物遮盖多视角输入,用一张干净条件视图引导被遮挡区域的补全;推理时用户定义编辑区域并提供单张编辑图像,模型在<3秒单次前传中完成3D网格编辑,比优化方法快2-10倍,能执行拓扑变化编辑(加孔/加把手),重建质量与SOTA持平。

背景与动机

3D形状编辑远不如2D图像编辑成熟。现有方法分两类:(1) 优化方法(TextDeformer、MagicClay):用SDS损失优化网格,梯度噪声大、不可控、慢(20分钟~1小时),且无法做拓扑变化(如加洞);(2) 生成方法(InstantMesh):先用多视角扩散模型生成编辑后的多视角图像,再用LRM重建,但多视角扩散常产生不一致伪影。核心矛盾:2D编辑容易但3D一致性难保证。

核心问题

如何用单张编辑图像驱动3D网格编辑,同时保证:(1) 编辑区域忠实于2D编辑内容;(2) 未编辑区域精确保留原始几何;(3) 多视角一致;(4) 支持任意拓扑变化;(5) 快速(前传式)?

方法详解

整体框架

训练:原始形状的多视角渲染 → 随机3D遮挡物遮盖 → 被遮挡patch替换为可学习mask token → 条件分支接收1张干净视图 → Transformer(self-attn + cross-attn)输出triplane → 体积渲染重建所有视角(包括被遮挡区域)

推理:用户定义编辑区域 → 2D修补获得编辑图 → 编辑图作为条件 + 遮挡的原始多视角render作为主输入 → 单次前传输出编辑后的SDF → Marching Cubes提取网格

关键设计

  1. 3D一致性遮挡训练策略:不用随机patch掩码(MAE风格),而是渲染一个随机生成的3D长方体遮挡物,产生多视角一致的遮挡区域。这消除了训练-推理的掩码分布差距——推理时用户定义的编辑区域也是连续的3D区域。消融实验证明随机patch掩码导致模糊和不真实的编辑。

  2. 条件分支设计:主分支处理被遮盖的多视角图像(6-8张),条件分支处理1张干净编辑图。条件通过cross-attention融入主分支。Plücker射线坐标作为位姿编码,在掩码后加入以保留空间信息。

  3. SDF + 体积渲染:输出是triplane表示,解码为SDF和RGB值。用体积渲染与GT图像对比计算损失。法线图监督确保高质量表面。

  4. 分阶段训练:Stage 1用256×256输出+128采样/射线(无法线损失);Stage 2用384×384输出+512采样/射线+法线损失。逐步提高精度。

损失函数 / 训练策略

$\(\mathcal{L} = w_I\|I - \hat{I}\|_2^2 + w_N\|N - \hat{N}\|_2^2 + w_M\|M - \hat{M}\|_2^2 + w_P\mathcal{L}_{LPIPS}\)$ - 64×H100 GPU,Stage 1训练30 epochs,Stage 2训练20 epochs - Objaverse数据集,每个形状40张512×512渲染 - 每步随机128×128 crop做监督

实验关键数据

重建质量(尽管不是主要目标)

方法 ABO PSNR↑ ABO LPIPS↓ GSO PSNR↑ GSO LPIPS↓
InstantMesh (Mesh) - - 22.79 0.120
MeshLRM 26.09 0.102 27.93 0.081
MaskedLRM (8 views) 28.65 0.078 27.58 0.085

ABO上超过MeshLRM 2.56 dB PSNR!GSO上与SOTA持平。

编辑速度

方法 类型 运行时间
TextDeformer 优化 20分钟
MagicClay 优化 1小时
InstantMesh LRM 30秒
PrEditor3D LRM 80秒
Instant3Dit LRM 6秒
MaskedLRM LRM <3秒

编辑质量(CLIP相似度)

方法 ViT-L-14 ViT-BigG-14
MagicClay 0.285 0.286
Instant3Dit 0.303 0.309
MaskedLRM 0.323 0.337

消融实验要点

  • 3D遮挡 vs 随机patch掩码:随机patch产生模糊伪影(训练-推理gap),3D遮挡生成清晰几何
  • 法线监督:无法线→表面有洞和凸起;深度监督效果弱;法线监督→平滑精确的表面
  • 拓扑变化:能给花瓶加把手/加洞(genus变化),优化方法因拓扑固定做不到

亮点

  • 形状编辑=条件重建:极其优雅的问题重构——将编辑转化为"重建原始形状+根据条件补全缺失区域"
  • 3D一致性掩码策略:用3D遮挡物生成多视角一致掩码是核心创新,消除了训练-推理gap
  • 拓扑变化能力:因为输出是从SDF重建的全新网格(不是变形原始网格),天然支持genus变化
  • 速度极快:<3秒前传式,比优化方法快100-1000倍
  • 身份保持:未编辑区域的重建质量与SOTA重建方法持平

局限性 / 可改进方向

  • 编辑质量受条件图像质量限制,需迭代生成满意的2D编辑
  • Marching Cubes三角化均匀性限制了细节精度
  • 极精细细节(如人脸)可能产生模糊
  • 未编辑区域不能直接冻结(不像MagicClay),只能靠重建质量保证
  • 需要64×H100训练,资源需求高

与相关工作的对比

  • TextDeformer:文本引导的网格变形。SDS梯度噪声大,全局扭曲,20分钟。MaskedLRM用图像条件更精确,<3秒
  • MagicClay:局部SDS优化。有时成功但不可预测(fedora/top hat失败),1小时。MaskedLRM输出高度可预测
  • InstantMesh:单视图→多视角扩散→LRM。多视角扩散产生不一致伪影。MaskedLRM用真实Ground Truth render作为多视角输入,绕过一致性问题
  • PrEditor3D / Instant3Dit:多视角扩散编辑。语义正确但细节缺乏。MaskedLRM的条件分支+masked训练产生更真实的编辑

启发与关联

  • "条件重建=编辑"的范式可推广到其他3D编辑任务(纹理编辑、场景编辑)
  • 3D一致性掩码训练策略可用于其他需要跨视角一致修复的任务

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将编辑重构为条件重建+3D一致性掩码策略,思路优雅且有效
  • 实验充分度: ⭐⭐⭐⭐⭐ 与5种方法对比+重建指标+编辑指标+消融+CLIP+速度+拓扑变化
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、方法描述系统、对比公平详尽
  • 价值: ⭐⭐⭐⭐⭐ <3秒前传式3D编辑的实用价值极高,支持拓扑变化是关键突破