From Inpainting to Layer Decomposition: Repurposing Generative Inpainting Models for Image Layer Decomposition¶
会议: CVPR 2026
arXiv: 2511.20996
代码: https://inpaintinglayerdecomp.github.io/
领域: 扩散模型 / 图像编辑
关键词: 图层分解, 图像修复, 扩散模型, 前景提取, 参数高效微调
一句话总结¶
本文观察到图像图层分解(layer decomposition)与图像修复/外绘(inpainting/outpainting)任务之间的内在联系,提出 Outpaint-and-Remove 方法,通过轻量级 LoRA 微调将预训练的 inpainting DiT 模型(FLUX.1-Fill-dev)高效适配为图层分解模型,同时引入多模态上下文融合模块保留细节,仅用 10 万合成训练数据即达到 SOTA 性能。
研究背景与动机¶
-
领域现状:图像可以看作前景+背景的分层组合。图层分解任务要求从单张图像同时提取前景(含被遮挡部分的恢复)和完成背景(物体移除)。现有方法如 LAYERDECOMP 需要对闭源的大模型进行全量微调,计算和数据成本极高。
-
现有痛点:(1)高质量图层标注数据极其稀缺,开源社区只有 MULAN 一个标准数据集;(2)从头训练或全量微调生成模型需要大量计算资源和商业数据集,普通研究者难以复现;(3)现有 inpainting 模型只做背景填充,无法同时提取前景。
-
核心矛盾:图层分解在概念上与 inpainting 高度相似(背景层=填充被 mask 的区域,前景层=在 mask 区域外绘),但现有 inpainting 模型缺乏前景提取能力,而专门的图层分解方法又需要从零开始训练。
-
本文目标 能否用已有的强大 inpainting 模型,通过最少的改动和数据,实现高质量的图层分解?
-
切入角度:将图层分解统一为 inpainting(背景)+ outpainting(前景)的组合任务,利用 inpainting 模型已有的区域填充能力。
-
核心 idea:图层分解就是双向 inpainting——背景做区域填充,前景做区域外扩,一个 inpainting 模型加轻量适配即可同时搞定。
方法详解¶
整体框架¶
Outpaint-and-Remove 基于预训练的 FLUX.1-Fill-dev(一个基于 DiT 的 inpainting 扩散模型)。输入为原始图像和二值 mask,输出为背景层(RGB,物体移除后的干净背景)和前景层(RGBA,含 alpha 通道的提取前景,遮挡部分被恢复)。关键改动包括:(1)多模态上下文 tokenization 模块,融合边缘、分割、深度等辅助信息;(2)双向 image-mask context 设计,分别引导前景提取和背景生成;(3)独立的 RGBA 编解码器处理前景的透明通道。整体使用 LoRA 进行参数高效微调。
关键设计¶
-
多模态上下文融合模块(Multi-Modal Context Tokenization)
- 功能:将边缘图、分割图、深度图等多模态线索融合为紧凑表示,作为生成条件
- 核心思路:首先用预训练 DiT 的 VAE 编码器将各模态图像转为 token。但直接拼接所有 token 会导致标准注意力的 \(O(K^2)\) 复杂度爆炸。受线性注意力启发,引入少量固定数量 \(N \ll K\) 的 latent query token,通过交叉注意力将所有模态 token 压缩到 \(N\) 维表示,复杂度降为 \(O(KN)\),近似线性
- 设计动机:在潜空间中保留尽可能多的细节信息,多模态线索为模型提供丰富的空间和语义先验,帮助理解填充区域的语义结构
-
双向 Image-Mask Context 设计
- 功能:区分前景提取和背景生成的不同需求,控制模型在"生成新内容"和"保留已有内容"之间的平衡
- 核心思路:标准 inpainting 仅用背景 context \(c_{I-M}^b\)(mask 内区域待填充),本文额外引入前景 context \(c_{I-M}^f\)(mask 外区域待外绘)。前景 context 告诉模型 mask 内的内容应该保留而非替换,后景 context 则指示 mask 区域需要填充。两者分别与对应的噪声 token 沿通道维度拼接,形成两路并行输入给 DiT
- 设计动机:没有前景 context 时,模型倾向于在前景区域产生幻觉或修改内容。双向 context 设计让模型明确知道哪些区域要保留、哪些区域要生成
-
参数高效微调策略(PEFT + RGBA 解码)
- 功能:以最小参数量适配 inpainting 模型学习图层分解新能力
- 核心思路:冻结基础 inpainting DiT 权重,仅微调输入投影层并在每个注意力和 FFN 层插入 LoRA(rank=256)。背景为 RGB 格式直接复用原有 VAE,前景为 RGBA 格式单独微调一个 RGBA 编解码器。LoRA rank 的选择至关重要:rank=128 不足以学习新任务,rank=1024 会过度覆盖预训练先验导致幻觉
- 设计动机:利用 inpainting 模型已有的强大生成先验,仅需少量参数即可学习前景提取这一新能力,大幅降低训练成本
损失函数 / 训练策略¶
- 使用标准流匹配损失(flow matching loss)
- 训练数据完全从公开资源构建:MULAN(真实前景但形状不完整)+ LayerDiffuse(合成前景形状完整但纹理有缺陷)+ OpenImages(背景),混合策略兼取两类前景的优势
- batch size 8,学习率 5e-5,训练 7200 iterations
- 输入分辨率 1024×1024
- 训练中使用不完美 mask,让模型学会推断准确的物体边界
实验关键数据¶
主实验——背景移除(MULAN 测试集)¶
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | FID↓ |
|---|---|---|---|---|
| FLUX.1-Fill-dev (基线) | 25.59 | 0.92 | 0.09 | 35.96 |
| PowerPaint | 23.46 | 0.76 | 0.17 | 41.67 |
| OmniEraser | 21.45 | 0.72 | 0.31 | 55.80 |
| Qwen-Image-Edit | 19.07 | 0.64 | 0.24 | 63.49 |
| Ours | 27.30 | 0.93 | 0.08 | 25.97 |
相比基线 FLUX.1-Fill-dev 提升 1.71dB PSNR,FID 降低 9.99。
消融实验¶
| 配置 | PSNR | FID | 说明 |
|---|---|---|---|
| Ours (full, rank=256) | 27.30 | 25.97 | 完整模型 |
| rank=128 | 26.34 | 33.92 | rank不足学不够 |
| rank=1024 | 27.15 | 27.32 | rank过大覆盖先验 |
| w/o 前景context \(c_{I-M}^f\) | 27.04 | 27.49 | 前景易产生幻觉 |
| w/o 多模态context \(c_{MM}\) | 27.16 | 28.02 | 语义理解下降 |
| w/o 合成前景 | 27.18 | 27.11 | 前景形状不完整 |
| Kontext 基线 | 26.22 | 36.14 | inpainting基础更好 |
关键发现¶
- inpainting 模型(FLUX.1-Fill-dev)比通用 I2I 模型(FLUX-Kontext)更适合做图层分解基础,验证了 inpainting 与 layer decomposition 的内在联系
- 前景 context 的有无对前景提取质量影响巨大(定性对比中差异明显),缺少时模型会在前景区域产生幻觉
- LoRA rank 存在一个甜点(256),过小学不足新能力,过大会破坏预训练先验
- 用户研究中本方法获得 59.51% 的偏好率,大幅领先 matting 方法
亮点与洞察¶
- 从任务本质出发的统一视角:将 layer decomposition 分解为 inpainting + outpainting 的组合,这一观察简洁而深刻,让复杂任务变为对已有能力的重新组合
- 纯公开数据+轻量适配:不需要商业数据集,不需要全量微调,仅 10 万合成样本+LoRA 即可达到 SOTA。这种"民主化"的方法设计值得推广
- 混合前景数据策略:真实前景有细节但形状不完整,合成前景形状完整但纹理差,两者互补的数据设计思路可迁移到其他域差距问题
局限与展望¶
- 在复杂场景(杂乱物体、大面积遮挡、手指持握物体)上仍然失败
- 训练数据是合成构造的,与真实图像的分层结构存在分布差异
- 前景提取的 alpha matting 精度可能不如专业 matting 方法
- 评估基准有限(MULAN 是唯一公开的图层数据集),可能存在评估偏差
相关工作与启发¶
- vs LAYERDECOMP:后者需要全量微调闭源模型+大规模高质量数据,本文仅用 LoRA+公开数据即达到 SOTA,方法更实用
- vs MattingAnything / DiffMatte:matting 方法只提取可见的前景轮廓,不恢复被遮挡部分;本文能恢复完整前景形状(outpainting 能力)
- vs LayerDiffuse:后者是用于生成 RGBA 图层的模型,本文将其作为训练数据来源,而非方法竞品
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 inpainting 重新解释为 layer decomposition 的统一视角新颖
- 实验充分度: ⭐⭐⭐⭐ 消融全面,但评估基准有限
- 写作质量: ⭐⭐⭐⭐ 图表清晰,motivating example 直观
- 价值: ⭐⭐⭐⭐ 轻量、实用、可复现的图层分解方案
相关论文¶
- [ICLR 2026] Referring Layer Decomposition
- [CVPR 2025] Generative Image Layer Decomposition with Visual Effects
- [CVPR 2026] Cycle-Consistent Tuning for Layered Image Decomposition
- [CVPR 2026] Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers
- [AAAI 2026] FreeInpaint: Tuning-free Prompt Alignment and Visual Rationality Enhancement in Image Inpainting