PICS: Pairwise Image Compositing with Spatial Interactions¶
会议: ICLR 2026 arXiv: 2603.06873 代码: github.com/RyanHangZhou/PICS 领域: 自监督学习 / 图像合成 关键词: image compositing, diffusion model, Mixture-of-Experts, spatial interaction, α-blending
一句话总结¶
提出 PICS——一种并行成对图像合成方法,通过 Interaction Transformer 中的掩码引导 MoE 和自适应 α-blending 策略,在单次推理中同时合成两个对象并显式建模遮挡、接触等空间交互关系,全面超越现有序列合成方法。
研究背景与动机¶
- 扩散模型推动图像合成进展:近年 diffusion-based 方法在单对象合成上表现优异,支持将对象作为视觉提示条件融入多样化背景。
- 多轮合成的核心痛点:现有方法本质是单轮的——每次只插入一个对象。当需要序列化插入多个对象时,后续操作会覆盖先前内容,破坏遮挡顺序和物理一致性。
- 画家算法的缺陷:按深度排序序列合成(先远后近)时,第一个插入的对象容易被误认为背景的一部分,导致部分删除、扭曲或过度融合。
- 缺乏显式对象间交互建模:现实场景中对象间存在支撑(support)、包含(containment)、遮挡(occlusion)、变形(deformation)等基本空间关系,但训练数据构建方式(前景-背景二分)忽略了这些关系。
- 成对关系是组合推理的基本单元:任何多对象场景的空间合理性都可以分解为成对对象间的关系,因此建模成对交互是解决多对象合成的关键一步。
- 核心 idea:将图像区域分为背景、两个对象各自的独占区域、以及重叠区域,用专用路由专家分别处理,并用注意力门控的 α-blending 解决重叠区域的融合问题。
方法详解¶
整体框架¶
基于潜在扩散模型 + ControlNet conditioning。输入为遮蔽背景 \(\mathbf{x}_{bg}\)、两个对象 \(\{\mathbf{x}_a, \mathbf{x}_b\}\) 及其二值掩码 \(\{\mathbf{m}_a, \mathbf{m}_b\}\)。模型在单次前向过程中并行生成包含两个对象的完整合成图像。
数据构建(自监督 composition-by-decomposition): - 从目标图像中分解出背景(擦除对象区域)和两个对象 - 计算并集掩码 \(\mathbf{m}_u\)、交集掩码 \(\mathbf{m}_{ab}\)、各对象独占掩码 \(\mathbf{m}_a^{ex}\)、\(\mathbf{m}_b^{ex}\) - 训练目标:从分解后的各部分重构原始图像
关键设计¶
1. Interaction Transformer Block
每个 block 包含: - 自注意力:捕获全局依赖 - 掩码引导 MoE:根据空间区域将 token 路由到不同专家 - 残差聚合 + FFN:门控输出合并后经 FFN 精炼
2. 空间感知 MoE 的四类专家:
| 专家类型 | 处理区域 | 操作 |
|---|---|---|
| 背景专家 | \(\bar{\mathbf{m}}_{bg}\) | 恒等映射(保持背景不变) |
| 对象 a 独占专家 | \(\bar{\mathbf{m}}_a^{ex}\) | 交叉注意力:背景 query → 对象 a code |
| 对象 b 独占专家 | \(\bar{\mathbf{m}}_b^{ex}\) | 交叉注意力:背景 query → 对象 b code |
| 重叠专家 | \(\bar{\mathbf{m}}_{ab}\) | 注意力门控 α-blending(见下) |
3. 自适应 α-blending 机制:
重叠区域的融合是本文最关键的设计: - 从背景深层表示 \(\mathbf{z}^{l-1}\) 生成 gating query \(\mathbf{q}_g\) - \(\mathbf{q}_g\) 分别与两个对象 code 做交叉注意力得到聚合表示 \(\tilde{\mathbf{c}}_a\), \(\tilde{\mathbf{c}}_b\) - 计算兼容性得分:\(s_p = \langle \mathbf{q}_g, \tilde{\mathbf{c}}_p \rangle / \sqrt{d}\) - Softmax + 温度 \(\tau\) 得到混合权重 \(\alpha\) - 融合:\(\mathbf{c}_{ab} = \alpha \tilde{\mathbf{c}}_a + (1-\alpha) \tilde{\mathbf{c}}_b\)
核心特性:gating query 携带的是学到的遮挡语义而非外观线索,使得 \(\alpha\) 能自适应反映哪个对象在每个空间位置应该占主导。实验验证了 \(\alpha\) 与实际可见性关系一致且与对象编号顺序无关。
几何感知数据增强¶
- 多视角 shape prior:用单视图 3D 重建模型渲染 K 个辅助视角,编码后用 MLP 融合为紧凑的多视角描述子
- 面内旋转增强:对对象图像随机旋转 \(\theta \sim \mathcal{U}(-\pi/6, \pi/6)\)
损失函数/训练策略¶
- 自监督重组损失:重构原始图像
- 潜在扩散标准去噪损失
- 无需额外标注数据
实验关键数据¶
主实验¶
对象重组(LVIS 验证集):
| 方法 | mPSNR ↑ | mSSIM ↑ | mLPIPS ↓ | PSNR ↑ | FID ↓ | LPIPS ↓ |
|---|---|---|---|---|---|---|
| PbE (CVPR'23) | 10.24 | 0.4241 | 0.4535 | 15.29 | 34.93 | 0.4138 |
| AnyDoor (CVPR'24) | 11.62 | 0.5283 | 0.4185 | 17.12 | 27.17 | 0.3302 |
| OmniPaint (ICCV'25) | 12.20 | 0.3096 | 0.4618 | 16.09 | 26.25 | 0.3542 |
| PICS (ours) | 13.88 | 0.5823 | 0.3221 | 18.27 | 24.99 | 0.2530 |
在交叉区域指标(mPSNR/mSSIM/mLPIPS)上提升尤为显著,体现了显式建模重叠区域的优势。
对象合成(DreamBooth 测试集):
| 方法 | FID ↓ | CLIP-score ↑ | DINOv2-score ↑ | DreamSim ↓ |
|---|---|---|---|---|
| ObjectStitch | 260.4 | 51.35 | 0.3203 | 0.3374 |
| AnyDoor | 274.1 | 51.24 | 0.3401 | 0.2733 |
| InsertAnything (AAAI'26) | 266.0 | 50.54 | 0.3612 | 0.2934 |
| PICS (ours) | 255.5 | 54.02 | 0.3631 | 0.3054 |
消融实验¶
| 设置 | 关键变化 | FID ↓ | CLIP-score ↑ |
|---|---|---|---|
| #1 MLP + 单视图 | 基线 | 173.1 | 74.6 |
| #2 ITB + 单视图 | MLP→ITB | 165.2 | 76.3 |
| #3 ITB + 旋转增强 | +面内旋转 | 162.5 | 74.9 |
| #4 ITB + 多视角 | +多视角prior | 158.2 | 77.3 |
| #5 ITB + 组合数据 | +1M训练集 | 151.3 | 79.1 |
每个组件都带来一致的改进,其中训练数据规模扩展(LVIS→1M 组合数据集)收益最大。
关键发现¶
- 并行合成 vs 序列合成:并行方式有效避免了序列合成的误差累积,特别是在遮挡边界处
- α-blending 学到了真实可见性:\(\Delta s = s_a - s_b\) 的符号与对象实际可见性一致,且与输入顺序无关
- 去噪过程中 α 的演化:早期粗糙→中期决定性→晚期精细化,符合扩散模型的精炼动力学
- 可扩展至3/4对象:追加训练的 3/4 对象模型仍保持一致的遮挡顺序和接触关系
- 用户研究:在真实性(17.7%)和一致性(22.5%)上排名第一
亮点与洞察¶
- MoE + 空间掩码路由的设计直觉优雅:不同区域天然需要不同处理策略——背景保持不变、独占区域注入单一对象、重叠区域需要调解——这种先验知识通过架构设计硬编码
- 自适应 α-blending 比硬遮挡掩码更优:允许模型自主学习遮挡语义,而非人为指定前后关系
- 自监督训练避免了标注成本:composition-by-decomposition 从现有图像自动构造训练对
- 输入顺序不变性:α-blending 机制确保交换对象 a/b 编号不影响结果,这是理想的对称性质
局限性 / 可改进方向¶
- shape encoder 容量有限:在极度杂乱环境中偶尔出现几何和纹理退化(论文 Figure 10 failure cases)
- 仅限成对合成:虽然展示了 3/4 对象扩展,但 MoE 专家数量随对象数指数增长,更多对象的场景需重新设计路由
- backbone 限制:基于标准扩散模型,未采用更强 FLUX 等 flow-matching backbone(OmniPaint 在部分指标上因此有优势)
- 数据集多样性:训练主要在 LVIS 上,虽然加入了组合数据,但对极端领域(如医学影像合成)的泛化性未验证
- 文本条件缺失:纯 image-prompted,不支持文本描述指导合成位置或样式
相关工作与启发¶
- AnyDoor (CVPR'24):使用额外边缘图保持语义,但缺乏对象间交互建模,在遮挡处产生伪影
- FreeCompose (ECCV'24):零样本合成,但不显式处理空间交互
- InsertAnything (AAAI'26):最新对比方法之一,PICS 在 FID 和 CLIP-score 上均超越
- 多轮编辑 (Zhou et al., 2025; Avrahami et al., 2025):与本文互补——多轮编辑面临类似的跨轮次一致性问题
- 启发:MoE 的掩码引导路由思路可推广到其他需要区域特化处理的视觉生成任务(如视频编辑中前景/背景分离处理、3D 场景编辑中不同物体区域的独立操控)
评分¶
- ⭐ 新颖性: 4/5 — 并行合成 + 掩码引导 MoE + α-blending 的组合设计新颖,但各单独组件非首创
- ⭐ 实验充分度: 4.5/5 — 多数据集、多指标、用户研究、消融实验、多对象扩展均覆盖
- ⭐ 写作质量: 4/5 — 结构清晰,图示丰富,公式推导完整
- ⭐ 实用价值: 4/5 — 对虚拟试衣、场景编辑等应用有直接价值,代码已开源
- 遮挡顺序需要预先确定
评分¶
- 新颖性: ⭐⭐⭐⭐ MoE+空间掩码的并行合成是新颖方案
- 实验充分度: ⭐⭐⭐⭐ 多场景覆盖
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰
- 价值: ⭐⭐⭐⭐ 解决多轮合成的实际痛点