3D Mesh Editing using Masked LRMs¶
会议: ICCV 2025
arXiv: 2412.08641
代码: https://chocolatebiscuit.github.io/MaskedLRM/
领域: 3D视觉 / 形状编辑 / 大规模重建模型
关键词: LRM, Masked Reconstruction, 3D Editing, Conditional Inpainting, Multi-view Consistency
一句话总结¶
提出MaskedLRM,将3D形状编辑重构为条件重建问题——训练时随机生成3D遮挡物遮盖多视角输入,用一张干净条件视图引导被遮挡区域的补全;推理时用户定义编辑区域并提供单张编辑图像,模型在<3秒单次前传中完成3D网格编辑,比优化方法快2-10倍,能执行拓扑变化编辑(加孔/加把手),重建质量与SOTA持平。
背景与动机¶
3D形状编辑远不如2D图像编辑成熟。现有方法分两类:(1) 优化方法(TextDeformer、MagicClay):用SDS损失优化网格,梯度噪声大、不可控、慢(20分钟~1小时),且无法做拓扑变化(如加洞);(2) 生成方法(InstantMesh):先用多视角扩散模型生成编辑后的多视角图像,再用LRM重建,但多视角扩散常产生不一致伪影。核心矛盾:2D编辑容易但3D一致性难保证。
核心问题¶
如何用单张编辑图像驱动3D网格编辑,同时保证:(1) 编辑区域忠实于2D编辑内容;(2) 未编辑区域精确保留原始几何;(3) 多视角一致;(4) 支持任意拓扑变化;(5) 快速(前传式)?
方法详解¶
整体框架¶
训练:原始形状的多视角渲染 → 随机3D遮挡物遮盖 → 被遮挡patch替换为可学习mask token → 条件分支接收1张干净视图 → Transformer(self-attn + cross-attn)输出triplane → 体积渲染重建所有视角(包括被遮挡区域)
推理:用户定义编辑区域 → 2D修补获得编辑图 → 编辑图作为条件 + 遮挡的原始多视角render作为主输入 → 单次前传输出编辑后的SDF → Marching Cubes提取网格
关键设计¶
-
3D一致性遮挡训练策略:不用随机patch掩码(MAE风格),而是渲染一个随机生成的3D长方体遮挡物,产生多视角一致的遮挡区域。这消除了训练-推理的掩码分布差距——推理时用户定义的编辑区域也是连续的3D区域。消融实验证明随机patch掩码导致模糊和不真实的编辑。
-
条件分支设计:主分支处理被遮盖的多视角图像(6-8张),条件分支处理1张干净编辑图。条件通过cross-attention融入主分支。Plücker射线坐标作为位姿编码,在掩码后加入以保留空间信息。
-
SDF + 体积渲染:输出是triplane表示,解码为SDF和RGB值。用体积渲染与GT图像对比计算损失。法线图监督确保高质量表面。
-
分阶段训练:Stage 1用256×256输出+128采样/射线(无法线损失);Stage 2用384×384输出+512采样/射线+法线损失。逐步提高精度。
损失函数 / 训练策略¶
$\(\mathcal{L} = w_I\|I - \hat{I}\|_2^2 + w_N\|N - \hat{N}\|_2^2 + w_M\|M - \hat{M}\|_2^2 + w_P\mathcal{L}_{LPIPS}\)$ - 64×H100 GPU,Stage 1训练30 epochs,Stage 2训练20 epochs - Objaverse数据集,每个形状40张512×512渲染 - 每步随机128×128 crop做监督
实验关键数据¶
重建质量(尽管不是主要目标)¶
| 方法 | ABO PSNR↑ | ABO LPIPS↓ | GSO PSNR↑ | GSO LPIPS↓ |
|---|---|---|---|---|
| InstantMesh (Mesh) | - | - | 22.79 | 0.120 |
| MeshLRM | 26.09 | 0.102 | 27.93 | 0.081 |
| MaskedLRM (8 views) | 28.65 | 0.078 | 27.58 | 0.085 |
ABO上超过MeshLRM 2.56 dB PSNR!GSO上与SOTA持平。
编辑速度¶
| 方法 | 类型 | 运行时间 |
|---|---|---|
| TextDeformer | 优化 | 20分钟 |
| MagicClay | 优化 | 1小时 |
| InstantMesh | LRM | 30秒 |
| PrEditor3D | LRM | 80秒 |
| Instant3Dit | LRM | 6秒 |
| MaskedLRM | LRM | <3秒 |
编辑质量(CLIP相似度)¶
| 方法 | ViT-L-14 | ViT-BigG-14 |
|---|---|---|
| MagicClay | 0.285 | 0.286 |
| Instant3Dit | 0.303 | 0.309 |
| MaskedLRM | 0.323 | 0.337 |
消融实验要点¶
- 3D遮挡 vs 随机patch掩码:随机patch产生模糊伪影(训练-推理gap),3D遮挡生成清晰几何
- 法线监督:无法线→表面有洞和凸起;深度监督效果弱;法线监督→平滑精确的表面
- 拓扑变化:能给花瓶加把手/加洞(genus变化),优化方法因拓扑固定做不到
亮点¶
- 形状编辑=条件重建:极其优雅的问题重构——将编辑转化为"重建原始形状+根据条件补全缺失区域"
- 3D一致性掩码策略:用3D遮挡物生成多视角一致掩码是核心创新,消除了训练-推理gap
- 拓扑变化能力:因为输出是从SDF重建的全新网格(不是变形原始网格),天然支持genus变化
- 速度极快:<3秒前传式,比优化方法快100-1000倍
- 身份保持:未编辑区域的重建质量与SOTA重建方法持平
局限性 / 可改进方向¶
- 编辑质量受条件图像质量限制,需迭代生成满意的2D编辑
- Marching Cubes三角化均匀性限制了细节精度
- 极精细细节(如人脸)可能产生模糊
- 未编辑区域不能直接冻结(不像MagicClay),只能靠重建质量保证
- 需要64×H100训练,资源需求高
与相关工作的对比¶
- TextDeformer:文本引导的网格变形。SDS梯度噪声大,全局扭曲,20分钟。MaskedLRM用图像条件更精确,<3秒
- MagicClay:局部SDS优化。有时成功但不可预测(fedora/top hat失败),1小时。MaskedLRM输出高度可预测
- InstantMesh:单视图→多视角扩散→LRM。多视角扩散产生不一致伪影。MaskedLRM用真实Ground Truth render作为多视角输入,绕过一致性问题
- PrEditor3D / Instant3Dit:多视角扩散编辑。语义正确但细节缺乏。MaskedLRM的条件分支+masked训练产生更真实的编辑
启发与关联¶
- "条件重建=编辑"的范式可推广到其他3D编辑任务(纹理编辑、场景编辑)
- 3D一致性掩码训练策略可用于其他需要跨视角一致修复的任务
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将编辑重构为条件重建+3D一致性掩码策略,思路优雅且有效
- 实验充分度: ⭐⭐⭐⭐⭐ 与5种方法对比+重建指标+编辑指标+消融+CLIP+速度+拓扑变化
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、方法描述系统、对比公平详尽
- 价值: ⭐⭐⭐⭐⭐ <3秒前传式3D编辑的实用价值极高,支持拓扑变化是关键突破