Open-World Amodal Appearance Completion¶

会议: CVPR 2025
arXiv: 2411.13019
代码: 无
领域: 3D Vision / Amodal Completion
关键词: 开放世界物体补全, 遮挡推理, 免训练框架, 语言引导, RGBA输出

一句话总结¶

提出一种免训练的开放世界 amodal 外观补全框架，接受灵活的自然语言查询（包括直接名称和抽象描述），通过统一分割、遮挡分析和迭代 inpainting 重建被遮挡物体的完整外观，输出 RGBA 格式支持 3D 重建和图像编辑等下游应用。

研究背景与动机¶

Amodal completion（非模态补全）旨在推断并重建物体被遮挡的部分，在 AR、3D 重建和内容创作中至关重要。然而现有方法存在严重局限：(1) 封闭类别——PD-MC 等方法依赖预定义物体类别，遇到未见类别时失效；(2) 需要训练数据——Pix2gestalt 依赖大量监督数据训练；(3) 不支持语言交互——用户无法通过自然语言指定目标物体。

开放世界场景中，物体类别多样且不可预测，遮挡关系复杂（包括模糊背景遮挡）。需要一种免训练、支持自然语言指定任意物体、能处理复杂遮挡的通用框架。

本文引入"推理式 amodal completion"概念：系统根据图像和语言查询推断并重建被查询物体的完整外观，支持具体词汇（如"polar bear"）和抽象查询（如"What is the mammal in this image"）。

方法详解¶

整体框架¶

Pipeline 分四步：(1) 文本查询解析与分割：用 VLM（LISA）根据文本查询生成可见区域 mask \(M_{\text{visible}}\)，同时用自动标注系统分割所有物体和背景；(2) 遮挡分析：用 InstaOrderNet 判断哪些 segment 遮挡目标，生成遮挡 mask \(M_{\text{occ}}\)；(3) 提示词生成：通过 CLIP 匹配选择最佳 inpainting 提示；(4) 迭代 inpainting：使用预训练 inpainting 模型逐步重建遮挡区域，输出 RGBA。

关键设计¶

1. 开放世界分割与背景处理

功能: 识别场景中所有可能的遮挡物，包括难以识别的背景区域
核心思路: 先用开集标签模型 + 开集检测器 + SAM 分割所有可命名物体得到集合 \(S\)，再对未分割区域 \(B = I - \bigcup S_i\) 通过形态学操作（腐蚀+膨胀）分割成独立的背景段 \(\{B_1, \ldots, B_k\}\)，其中 \(B_j = \text{Morph}(I - \bigcup_{i=1}^{m} S_i)\)
设计动机: 传统分割忽略无法用类别标签描述的背景区域（灌木、地面等），但这些区域可能遮挡目标物体。背景分割确保所有潜在遮挡物都被考虑

2. 遮挡分析与边界感知

功能: 确定哪些 segment 遮挡了目标物体，生成遮挡 mask 引导 inpainting
核心思路: 使用 InstaOrderNet 对每个 segment（包括背景段）与目标物体做成对遮挡顺序判断，合并所有遮挡 segment 为 \(M_{\text{occ}} = \bigcup_{occ_i=1} S_i \cup \bigcup_{occ_j=1} B_j\)。对触及图像边界的情况，通过膨胀操作扩展遮挡 mask：\(M_{\text{occ}} \leftarrow M_{\text{occ}} \cup (d(M_{\text{visible}}) \cap \bigcup_{e \in E} \text{edge}_e)\)
设计动机: 遮挡关系不能简单由空间位置判断，需要专门的遮挡顺序推理模型。边界感知处理目标物体超出图像范围的情况

3. CLIP 引导提示选择与迭代 Inpainting

功能: 自动生成最佳 inpainting 提示词，迭代重建遮挡区域
核心思路: 将目标可见区域与所有候选标签 \(T \cup Q\) 通过 CLIP 匹配选最佳提示 \(P = \arg\max_{t_i} \text{CLIP}(I_{\text{target}}, t_i)\)。Inpainting 迭代执行：\(I_{\text{inpaint}}^{(t+1)} = \phi(I_{\text{inpaint}}^{(t)}, M_{\text{occ}}^{(t)}, P)\)，每步更新遮挡 mask 和 amodal mask，当 \(\Delta M_{\text{occ}}^{(t)} < \epsilon\) 或达最大迭代时终止。最终通过 alpha blending 融合原始可见区域和重建区域
设计动机: 用户查询可能是抽象描述，CLIP 匹配确保提示词与目标物体视觉属性对齐。迭代 inpainting 逐步扩展重建区域，处理复杂遮挡

损失函数 / 训练策略¶

免训练框架：不需要额外训练，利用预训练模型（LISA、SAM、InstaOrderNet、CLIP、inpainting 模型）的组合
迭代终止条件：遮挡 mask 变化低于阈值 \(\epsilon\) 或达最大迭代 \(T\)
Alpha blending 确保原始可见区域像素不被修改

实验关键数据¶

主实验¶

在 2565 个实例、553 个类别的评估数据集上的对比：

方法	CLIP↑	LPIPS↓	Feature Sim.↑	SSIM↑
PD w/o MC	24.553	0.614	0.404	0.395
PD-MC	27.984	0.628	0.364	0.413
Pix2gestalt	27.417	0.442	0.548	0.714
Ours	28.181	0.320	0.646	0.731

消融实验¶

提示词变体和背景分割的影响：

配置	CLIP↑	LPIPS↓	Feature Sim.↑	SSIM↑
Q only	28.563	0.327	0.633	0.724
T only	28.043	0.324	0.636	0.725
T∪Q w/o bg seg.	28.071	0.333	0.620	0.713
T∪Q w/ bg seg.	28.181	0.320	0.646	0.731

关键发现¶

背景分割对复杂遮挡至关重要：添加背景段后 SSIM 从 0.713→0.731，LPIPS 从 0.333→0.320
在开放世界中显著优于封闭类别方法：PD-MC 遇到未见类别时完全失效，Pix2gestalt 有时仅对输入做最小改动
组合提示 \(T \cup Q\) 在实际场景中最有效：虽然 Q-only 的 CLIP 分数最高（因直接匹配标签），但对抽象查询不适用
人类偏好研究显示本方法在重建质量上获得最高偏好率

亮点与洞察¶

"推理式 amodal completion"概念具有前瞻性：允许抽象查询（如"图中的哺乳动物是什么"）进行物体补全，人机交互更自然
免训练 pipeline 的模块化设计优秀：各模块可独立升级（更好的分割/inpainting 模型），框架保持不变
RGBA 输出格式对下游应用友好：可直接用于图像编辑、3D 重建、AR 场景

局限与展望¶

依赖预训练图像生成模型，可能引入伪影（如动物姿态不匹配）
对于严重遮挡或模糊查询，分割准确性可能不足
缺少 ground-truth amodal 数据的场景下评估指标有限
可探索将遮挡推理与生成过程端到端联合优化

评分¶

新颖性: ⭐⭐⭐⭐ — 首次将 amodal completion 扩展到开放世界+语言引导设置
实验充分度: ⭐⭐⭐ — 有量化对比和人类评估，但评估数据集较小，缺少 ground truth
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，pipeline 描述详尽
价值: ⭐⭐⭐⭐ — 对 AR/3D 重建有实用价值，模块化免训练设计易于部署