Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images¶

会议: ICCV 2025
arXiv: 2503.13439
代码: 项目页面 (有)
领域: 3D视觉 / 3D重建 / 遮挡补全
关键词: Amodal 3D Reconstruction, Occlusion-aware, Diffusion Model, Cross-Attention, TRELLIS

一句话总结¶

提出Amodal3R，一个端到端的遮挡感知3D重建模型，通过在TRELLIS基础上引入mask加权交叉注意力和遮挡感知注意力层，直接在3D潜空间中从部分遮挡的2D图像重建完整的3D物体形状和外观，大幅超越先前"2D补全→3D重建"的两阶段方法。

背景与动机¶

现有的图像到3D重建模型（如TRELLIS、Real3D、GaussianAnything等）假设输入图像中的物体是完全可见的，但现实场景中物体之间的遮挡是常态。先前处理遮挡3D重建的方法采用两阶段策略：先用2D amodal补全模型（如pix2gestalt）将遮挡物体补全为完整的2D图像，再送入3D重建模型。这种方法有两个致命缺陷： 1. 2D补全缺乏3D几何理解：2D模型依赖外观先验而非3D结构线索，可能生成几何上不合理的补全结果 2. 多视角不一致：对多视角输入独立做2D补全时，各视角结果可能不一致，反而会混淆下游3D重建模型（实验证明用4个不一致的补全视角比用1个视角效果更差）

核心问题¶

如何从部分被遮挡的2D图像中直接重建完整的3D物体（几何+外观），而不依赖中间的2D补全步骤？核心挑战在于：(1) 从部分观测中生成合理的完整3D形状和外观；(2) 保证可见区域和补全区域之间的几何和光度一致性。

方法详解¶

整体框架¶

Amodal3R基于TRELLIS（一个在稀疏3D潜空间中进行去噪的条件3D扩散模型）构建。输入包含：部分遮挡的物体图像 \(x\)、可见区域mask \(M_{vis}\)、遮挡区域mask \(M_{occ}\)（可由SAM获取）。模型通过DINOv2提取图像特征 \(\mathbf{c}_{dino}\)，在每个transformer块中加入两个新模块来注入遮挡先验，最终在3D潜空间中直接完成重建和补全。TRELLIS本身分两阶段：stage 1预测活跃体素中心位置（压缩占用体），stage 2恢复对应的潜变量（SLAT表示）。

关键设计¶

Mask加权交叉注意力（Mask-weighted Cross-Attention）: 在原有的图像条件交叉注意力层中，将可见性mask \(M_{vis}\) 转换为与DINOv2特征对齐的patch级权重 \(\mathbf{c}_{vis}\)，对注意力矩阵进行加权调制：\(A_{ij} = \frac{c_{vis,j} \exp(S_{ij})}{\sum_k c_{vis,k} \exp(S_{ik})}\)。这样可见区域的token获得更高注意力权重，完全遮挡区域（\(c_{vis,j}=0\)）的token被跳过。关键优势是不改变预训练模型的参数结构，只调制注意力分布。
遮挡感知注意力层（Occlusion-aware Attention Layer）: 在mask加权交叉注意力层之后，新增一个交叉注意力层，专门处理遮挡mask \(M_{occ}\)。该层让模型区分三种区域：可见区域、被遮挡区域（前方有遮挡物，需要补全）和背景区域（不属于物体），从而显式指导模型在哪些区域需要进行补全推理。
合成遮挡数据生成: 训练数据通过两种方式生成遮挡：(a) 随机2D遮挡——在渲染的2D图像上随机放置线条、椭圆、矩形模拟遮挡，适用于单视角训练；(b) 3D一致遮挡——在3D mesh上从随机三角面开始做随机游走选择相邻三角面，形成连续遮挡区域，保证多视角一致性，用于评估接触遮挡场景。
多视角输入支持: 在多步去噪过程中，不同步骤使用不同视角的图像作为条件。按可见度 \(|M_{vis}|\) 排序，可见度最高的图像用于早期去噪步骤（决定粗几何），可见度较低的用于后期步骤（细节精修）。

损失函数 / 训练策略¶

基于flow matching框架训练，目标函数为 \(\min_\theta \mathbb{E} \|\upsilon_\theta(\ell^{(t)}, x, t) - (\epsilon - \ell^{(0)})\|^2\)
在TRELLIS预训练权重基础上微调，仅训练sparse structure flow transformer和SLAT flow transformer（DINOv2编码器和VAE decoder冻结）
使用CFG（classifier-free guidance），drop rate=0.1
AdamW优化器，学习率1e-4
4×A100 (40G)，batch size 16，20K步，约1天训练

实验关键数据¶

GSO数据集（单视角）¶

方法	FID↓	KID↓	COV↑	P-FID↓	CLIP↑	MMD↓
GaussianAnything + pix2gestalt	92.26	1.30	0.74	34.69	35.92	5.03
Real3D + pix2gestalt	91.21	2.02	0.75	23.92	19.61	9.21
TRELLIS + pix2gestalt	58.82	5.87	0.76	26.43	31.65	4.17
Amodal3R (Ours)	30.64	0.35	0.81	7.69	39.61	3.62

Toys4K数据集（单视角）¶

方法	FID↓	KID↓	COV↑	P-FID↓	CLIP↑	MMD↓
TRELLIS + pix2gestalt	43.05	6.83	0.80	26.04	26.28	6.87
Amodal3R (Ours)	23.45	0.42	0.83	5.00	37.09	5.89

GSO数据集（4视角）¶

方法	FID↓	KID↓	COV↑	P-FID↓	CLIP↑	MMD↓
TRELLIS + pix2gestalt+MV	60.37	1.85	0.83	19.68	31.75	4.21
Amodal3R (Ours)	26.27	0.22	0.84	5.03	38.74	3.61

消融实验要点¶

Naive拼接（直接将mask token拼到DINOv2 token）：模型可以做基本补全，但遮挡区域纹理与可见区域不一致，几何不准确（FID=31.96）
仅mask加权注意力：渲染质量改善，纹理一致性提高，但几何存在缺陷（如鞋子有洞，怪物背部断裂）（FID=30.53）
仅遮挡感知层：几何改善，但外观质量不够好（FID=31.77, CLIP=40.19最高但KID=0.57）
完整模型（两者结合）：兼具最优几何和一致纹理（FID=30.64, KID=0.35）
关键发现：多视角不一致的2D补全比单视角更差——4视角pix2gestalt独立补全后送入TRELLIS/LaRa，效果反而不如单视角

亮点¶

端到端单阶段设计：避免了2D补全引入的误差积累和多视角不一致问题，直接在3D潜空间中推理
优雅的预训练模型适配：mask加权注意力不改变模型结构，只调制注意力分布；遮挡感知层作为独立模块插入，对预训练权重扰动小
仅合成数据训练，泛化到真实场景：在Replica室内场景和wild图像上都能生成合理的3D资产
推理速度快：每个物体生成和渲染<10秒，与baseline相当
支持多样化生成：作为生成模型可以对同一遮挡输入采样多个不同但合理的3D结果

局限性 / 可改进方向¶

训练数据有限：仅约2万个合成3D对象，主要是家具类别，对复杂或分布外物体补全能力受限。扩展到Objaverse-XL等大规模数据集可改善
仅用合成数据训练：无法利用环境上下文线索（如遮挡物的类型暗示被遮挡物的形状），创建真实世界amodal 3D数据集将是重要方向
补全不可控：当前补全结果完全由模型决定，未来可引入文本条件让用户控制补全风格
依赖外部分割模型：需要SAM提供可见性mask和遮挡mask，分割质量影响后续重建

与相关工作的对比¶

vs pix2gestalt + TRELLIS（两阶段方法）：Amodal3R在所有指标上大幅领先（GSO单视角FID: 30.64 vs 58.82），且两阶段方法在多视角场景下因补全不一致反而退化，Amodal3R则随视角增多持续改善
vs 3D Shape Completion方法（如DiffComplete, SDFusion）：这些方法从部分3D输入（点云/体素）出发补全形状，但不恢复纹理/外观，且需要先从遮挡图像中恢复部分3D几何。Amodal3R端到端从2D图像直接到完整3D（几何+外观）
vs LaRa（ECCV 2024多视角重建）：LaRa在多视角遮挡场景下表现较差（GSO 4V FID=97.53/172.84），因为它对输入图像的完整性敏感

启发与关联¶

与 ideas/3d_vision/20260317_diffusion_view_augment_3dgs.md 中"扩散模型幻想视角增强3DGS"的思路相关——都涉及如何处理稀疏/不完整观测下的3D重建。Amodal3R的mask加权注意力机制可以启发该idea中对幻想视角vs真实视角的不确定性加权策略
与 ideas/3d_vision/20260317_physics_guided_transparent_scene_completion.md 中透明物体场景补全的idea互补——透明物体的遮挡补全也面临类似的"可见区域vs遮挡区域"区分问题，Amodal3R的遮挡感知注意力层设计可以迁移
潜在延伸方向：将Amodal3R的遮挡感知机制与场景级3D理解结合，实现整个遮挡场景的分解式3D重建（论文中已展示初步的3D场景分解结果）

评分¶

新颖性: ⭐⭐⭐⭐ 首次提出端到端的amodal 3D重建范式，mask加权注意力和遮挡感知层设计简洁有效，但整体框架基于TRELLIS微调，技术创新度有限
实验充分度: ⭐⭐⭐⭐ 两个合成数据集+Replica+野外图像评估，多指标全面对比，消融实验完整；但缺少与3D shape completion方法的直接定量对比
写作质量: ⭐⭐⭐⭐ 论文结构清晰，动机和方法阐述逻辑通顺，两个关键模块的设计动机解释得很好；公式推导简洁
价值: ⭐⭐⭐⭐ 开辟了遮挡感知3D重建的新方向，对真实场景中的3D资产重建和场景理解有实际应用价值，但训练数据规模限制了当前的实用性