Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images¶
会议: ICCV 2025
arXiv: 2503.13439
代码: 项目页面 (有)
领域: 3D视觉 / 3D重建 / 遮挡补全
关键词: Amodal 3D Reconstruction, Occlusion-aware, Diffusion Model, Cross-Attention, TRELLIS
一句话总结¶
提出Amodal3R,一个端到端的遮挡感知3D重建模型,通过在TRELLIS基础上引入mask加权交叉注意力和遮挡感知注意力层,直接在3D潜空间中从部分遮挡的2D图像重建完整的3D物体形状和外观,大幅超越先前"2D补全→3D重建"的两阶段方法。
背景与动机¶
现有的图像到3D重建模型(如TRELLIS、Real3D、GaussianAnything等)假设输入图像中的物体是完全可见的,但现实场景中物体之间的遮挡是常态。先前处理遮挡3D重建的方法采用两阶段策略:先用2D amodal补全模型(如pix2gestalt)将遮挡物体补全为完整的2D图像,再送入3D重建模型。这种方法有两个致命缺陷: 1. 2D补全缺乏3D几何理解:2D模型依赖外观先验而非3D结构线索,可能生成几何上不合理的补全结果 2. 多视角不一致:对多视角输入独立做2D补全时,各视角结果可能不一致,反而会混淆下游3D重建模型(实验证明用4个不一致的补全视角比用1个视角效果更差)
核心问题¶
如何从部分被遮挡的2D图像中直接重建完整的3D物体(几何+外观),而不依赖中间的2D补全步骤?核心挑战在于:(1) 从部分观测中生成合理的完整3D形状和外观;(2) 保证可见区域和补全区域之间的几何和光度一致性。
方法详解¶
整体框架¶
Amodal3R基于TRELLIS(一个在稀疏3D潜空间中进行去噪的条件3D扩散模型)构建。输入包含:部分遮挡的物体图像 \(x\)、可见区域mask \(M_{vis}\)、遮挡区域mask \(M_{occ}\)(可由SAM获取)。模型通过DINOv2提取图像特征 \(\mathbf{c}_{dino}\),在每个transformer块中加入两个新模块来注入遮挡先验,最终在3D潜空间中直接完成重建和补全。TRELLIS本身分两阶段:stage 1预测活跃体素中心位置(压缩占用体),stage 2恢复对应的潜变量(SLAT表示)。
关键设计¶
-
Mask加权交叉注意力(Mask-weighted Cross-Attention): 在原有的图像条件交叉注意力层中,将可见性mask \(M_{vis}\) 转换为与DINOv2特征对齐的patch级权重 \(\mathbf{c}_{vis}\),对注意力矩阵进行加权调制:\(A_{ij} = \frac{c_{vis,j} \exp(S_{ij})}{\sum_k c_{vis,k} \exp(S_{ik})}\)。这样可见区域的token获得更高注意力权重,完全遮挡区域(\(c_{vis,j}=0\))的token被跳过。关键优势是不改变预训练模型的参数结构,只调制注意力分布。
-
遮挡感知注意力层(Occlusion-aware Attention Layer): 在mask加权交叉注意力层之后,新增一个交叉注意力层,专门处理遮挡mask \(M_{occ}\)。该层让模型区分三种区域:可见区域、被遮挡区域(前方有遮挡物,需要补全)和背景区域(不属于物体),从而显式指导模型在哪些区域需要进行补全推理。
-
合成遮挡数据生成: 训练数据通过两种方式生成遮挡:(a) 随机2D遮挡——在渲染的2D图像上随机放置线条、椭圆、矩形模拟遮挡,适用于单视角训练;(b) 3D一致遮挡——在3D mesh上从随机三角面开始做随机游走选择相邻三角面,形成连续遮挡区域,保证多视角一致性,用于评估接触遮挡场景。
-
多视角输入支持: 在多步去噪过程中,不同步骤使用不同视角的图像作为条件。按可见度 \(|M_{vis}|\) 排序,可见度最高的图像用于早期去噪步骤(决定粗几何),可见度较低的用于后期步骤(细节精修)。
损失函数 / 训练策略¶
- 基于flow matching框架训练,目标函数为 \(\min_\theta \mathbb{E} \|\upsilon_\theta(\ell^{(t)}, x, t) - (\epsilon - \ell^{(0)})\|^2\)
- 在TRELLIS预训练权重基础上微调,仅训练sparse structure flow transformer和SLAT flow transformer(DINOv2编码器和VAE decoder冻结)
- 使用CFG(classifier-free guidance),drop rate=0.1
- AdamW优化器,学习率1e-4
- 4×A100 (40G),batch size 16,20K步,约1天训练
实验关键数据¶
GSO数据集(单视角)¶
| 方法 | FID↓ | KID↓ | COV↑ | P-FID↓ | CLIP↑ | MMD↓ |
|---|---|---|---|---|---|---|
| GaussianAnything + pix2gestalt | 92.26 | 1.30 | 0.74 | 34.69 | 35.92 | 5.03 |
| Real3D + pix2gestalt | 91.21 | 2.02 | 0.75 | 23.92 | 19.61 | 9.21 |
| TRELLIS + pix2gestalt | 58.82 | 5.87 | 0.76 | 26.43 | 31.65 | 4.17 |
| Amodal3R (Ours) | 30.64 | 0.35 | 0.81 | 7.69 | 39.61 | 3.62 |
Toys4K数据集(单视角)¶
| 方法 | FID↓ | KID↓ | COV↑ | P-FID↓ | CLIP↑ | MMD↓ |
|---|---|---|---|---|---|---|
| TRELLIS + pix2gestalt | 43.05 | 6.83 | 0.80 | 26.04 | 26.28 | 6.87 |
| Amodal3R (Ours) | 23.45 | 0.42 | 0.83 | 5.00 | 37.09 | 5.89 |
GSO数据集(4视角)¶
| 方法 | FID↓ | KID↓ | COV↑ | P-FID↓ | CLIP↑ | MMD↓ |
|---|---|---|---|---|---|---|
| TRELLIS + pix2gestalt+MV | 60.37 | 1.85 | 0.83 | 19.68 | 31.75 | 4.21 |
| Amodal3R (Ours) | 26.27 | 0.22 | 0.84 | 5.03 | 38.74 | 3.61 |
消融实验要点¶
- Naive拼接(直接将mask token拼到DINOv2 token):模型可以做基本补全,但遮挡区域纹理与可见区域不一致,几何不准确(FID=31.96)
- 仅mask加权注意力:渲染质量改善,纹理一致性提高,但几何存在缺陷(如鞋子有洞,怪物背部断裂)(FID=30.53)
- 仅遮挡感知层:几何改善,但外观质量不够好(FID=31.77, CLIP=40.19最高但KID=0.57)
- 完整模型(两者结合):兼具最优几何和一致纹理(FID=30.64, KID=0.35)
- 关键发现:多视角不一致的2D补全比单视角更差——4视角pix2gestalt独立补全后送入TRELLIS/LaRa,效果反而不如单视角
亮点¶
- 端到端单阶段设计:避免了2D补全引入的误差积累和多视角不一致问题,直接在3D潜空间中推理
- 优雅的预训练模型适配:mask加权注意力不改变模型结构,只调制注意力分布;遮挡感知层作为独立模块插入,对预训练权重扰动小
- 仅合成数据训练,泛化到真实场景:在Replica室内场景和wild图像上都能生成合理的3D资产
- 推理速度快:每个物体生成和渲染<10秒,与baseline相当
- 支持多样化生成:作为生成模型可以对同一遮挡输入采样多个不同但合理的3D结果
局限性 / 可改进方向¶
- 训练数据有限:仅约2万个合成3D对象,主要是家具类别,对复杂或分布外物体补全能力受限。扩展到Objaverse-XL等大规模数据集可改善
- 仅用合成数据训练:无法利用环境上下文线索(如遮挡物的类型暗示被遮挡物的形状),创建真实世界amodal 3D数据集将是重要方向
- 补全不可控:当前补全结果完全由模型决定,未来可引入文本条件让用户控制补全风格
- 依赖外部分割模型:需要SAM提供可见性mask和遮挡mask,分割质量影响后续重建
与相关工作的对比¶
- vs pix2gestalt + TRELLIS(两阶段方法):Amodal3R在所有指标上大幅领先(GSO单视角FID: 30.64 vs 58.82),且两阶段方法在多视角场景下因补全不一致反而退化,Amodal3R则随视角增多持续改善
- vs 3D Shape Completion方法(如DiffComplete, SDFusion):这些方法从部分3D输入(点云/体素)出发补全形状,但不恢复纹理/外观,且需要先从遮挡图像中恢复部分3D几何。Amodal3R端到端从2D图像直接到完整3D(几何+外观)
- vs LaRa(ECCV 2024多视角重建):LaRa在多视角遮挡场景下表现较差(GSO 4V FID=97.53/172.84),因为它对输入图像的完整性敏感
启发与关联¶
- 与
ideas/3d_vision/20260317_diffusion_view_augment_3dgs.md中"扩散模型幻想视角增强3DGS"的思路相关——都涉及如何处理稀疏/不完整观测下的3D重建。Amodal3R的mask加权注意力机制可以启发该idea中对幻想视角vs真实视角的不确定性加权策略 - 与
ideas/3d_vision/20260317_physics_guided_transparent_scene_completion.md中透明物体场景补全的idea互补——透明物体的遮挡补全也面临类似的"可见区域vs遮挡区域"区分问题,Amodal3R的遮挡感知注意力层设计可以迁移 - 潜在延伸方向:将Amodal3R的遮挡感知机制与场景级3D理解结合,实现整个遮挡场景的分解式3D重建(论文中已展示初步的3D场景分解结果)
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次提出端到端的amodal 3D重建范式,mask加权注意力和遮挡感知层设计简洁有效,但整体框架基于TRELLIS微调,技术创新度有限
- 实验充分度: ⭐⭐⭐⭐ 两个合成数据集+Replica+野外图像评估,多指标全面对比,消融实验完整;但缺少与3D shape completion方法的直接定量对比
- 写作质量: ⭐⭐⭐⭐ 论文结构清晰,动机和方法阐述逻辑通顺,两个关键模块的设计动机解释得很好;公式推导简洁
- 价值: ⭐⭐⭐⭐ 开辟了遮挡感知3D重建的新方向,对真实场景中的3D资产重建和场景理解有实际应用价值,但训练数据规模限制了当前的实用性