跳转至

From Inpainting to Layer Decomposition: Repurposing Generative Inpainting Models for Image Layer Decomposition

会议: CVPR 2026
arXiv: 2511.20996
代码: https://inpaintinglayerdecomp.github.io/
领域: 扩散模型 / 图像编辑
关键词: 图层分解, 图像修复, 扩散模型, 前景提取, 参数高效微调

一句话总结

本文观察到图像图层分解(layer decomposition)与图像修复/外绘(inpainting/outpainting)任务之间的内在联系,提出 Outpaint-and-Remove 方法,通过轻量级 LoRA 微调将预训练的 inpainting DiT 模型(FLUX.1-Fill-dev)高效适配为图层分解模型,同时引入多模态上下文融合模块保留细节,仅用 10 万合成训练数据即达到 SOTA 性能。

研究背景与动机

  1. 领域现状:图像可以看作前景+背景的分层组合。图层分解任务要求从单张图像同时提取前景(含被遮挡部分的恢复)和完成背景(物体移除)。现有方法如 LAYERDECOMP 需要对闭源的大模型进行全量微调,计算和数据成本极高。

  2. 现有痛点:(1)高质量图层标注数据极其稀缺,开源社区只有 MULAN 一个标准数据集;(2)从头训练或全量微调生成模型需要大量计算资源和商业数据集,普通研究者难以复现;(3)现有 inpainting 模型只做背景填充,无法同时提取前景。

  3. 核心矛盾:图层分解在概念上与 inpainting 高度相似(背景层=填充被 mask 的区域,前景层=在 mask 区域外绘),但现有 inpainting 模型缺乏前景提取能力,而专门的图层分解方法又需要从零开始训练。

  4. 本文目标 能否用已有的强大 inpainting 模型,通过最少的改动和数据,实现高质量的图层分解?

  5. 切入角度:将图层分解统一为 inpainting(背景)+ outpainting(前景)的组合任务,利用 inpainting 模型已有的区域填充能力。

  6. 核心 idea:图层分解就是双向 inpainting——背景做区域填充,前景做区域外扩,一个 inpainting 模型加轻量适配即可同时搞定。

方法详解

整体框架

Outpaint-and-Remove 基于预训练的 FLUX.1-Fill-dev(一个基于 DiT 的 inpainting 扩散模型)。输入为原始图像和二值 mask,输出为背景层(RGB,物体移除后的干净背景)和前景层(RGBA,含 alpha 通道的提取前景,遮挡部分被恢复)。关键改动包括:(1)多模态上下文 tokenization 模块,融合边缘、分割、深度等辅助信息;(2)双向 image-mask context 设计,分别引导前景提取和背景生成;(3)独立的 RGBA 编解码器处理前景的透明通道。整体使用 LoRA 进行参数高效微调。

关键设计

  1. 多模态上下文融合模块(Multi-Modal Context Tokenization)

    • 功能:将边缘图、分割图、深度图等多模态线索融合为紧凑表示,作为生成条件
    • 核心思路:首先用预训练 DiT 的 VAE 编码器将各模态图像转为 token。但直接拼接所有 token 会导致标准注意力的 \(O(K^2)\) 复杂度爆炸。受线性注意力启发,引入少量固定数量 \(N \ll K\) 的 latent query token,通过交叉注意力将所有模态 token 压缩到 \(N\) 维表示,复杂度降为 \(O(KN)\),近似线性
    • 设计动机:在潜空间中保留尽可能多的细节信息,多模态线索为模型提供丰富的空间和语义先验,帮助理解填充区域的语义结构
  2. 双向 Image-Mask Context 设计

    • 功能:区分前景提取和背景生成的不同需求,控制模型在"生成新内容"和"保留已有内容"之间的平衡
    • 核心思路:标准 inpainting 仅用背景 context \(c_{I-M}^b\)(mask 内区域待填充),本文额外引入前景 context \(c_{I-M}^f\)(mask 外区域待外绘)。前景 context 告诉模型 mask 内的内容应该保留而非替换,后景 context 则指示 mask 区域需要填充。两者分别与对应的噪声 token 沿通道维度拼接,形成两路并行输入给 DiT
    • 设计动机:没有前景 context 时,模型倾向于在前景区域产生幻觉或修改内容。双向 context 设计让模型明确知道哪些区域要保留、哪些区域要生成
  3. 参数高效微调策略(PEFT + RGBA 解码)

    • 功能:以最小参数量适配 inpainting 模型学习图层分解新能力
    • 核心思路:冻结基础 inpainting DiT 权重,仅微调输入投影层并在每个注意力和 FFN 层插入 LoRA(rank=256)。背景为 RGB 格式直接复用原有 VAE,前景为 RGBA 格式单独微调一个 RGBA 编解码器。LoRA rank 的选择至关重要:rank=128 不足以学习新任务,rank=1024 会过度覆盖预训练先验导致幻觉
    • 设计动机:利用 inpainting 模型已有的强大生成先验,仅需少量参数即可学习前景提取这一新能力,大幅降低训练成本

损失函数 / 训练策略

  • 使用标准流匹配损失(flow matching loss)
  • 训练数据完全从公开资源构建:MULAN(真实前景但形状不完整)+ LayerDiffuse(合成前景形状完整但纹理有缺陷)+ OpenImages(背景),混合策略兼取两类前景的优势
  • batch size 8,学习率 5e-5,训练 7200 iterations
  • 输入分辨率 1024×1024
  • 训练中使用不完美 mask,让模型学会推断准确的物体边界

实验关键数据

主实验——背景移除(MULAN 测试集)

方法 PSNR↑ SSIM↑ LPIPS↓ FID↓
FLUX.1-Fill-dev (基线) 25.59 0.92 0.09 35.96
PowerPaint 23.46 0.76 0.17 41.67
OmniEraser 21.45 0.72 0.31 55.80
Qwen-Image-Edit 19.07 0.64 0.24 63.49
Ours 27.30 0.93 0.08 25.97

相比基线 FLUX.1-Fill-dev 提升 1.71dB PSNR,FID 降低 9.99。

消融实验

配置 PSNR FID 说明
Ours (full, rank=256) 27.30 25.97 完整模型
rank=128 26.34 33.92 rank不足学不够
rank=1024 27.15 27.32 rank过大覆盖先验
w/o 前景context \(c_{I-M}^f\) 27.04 27.49 前景易产生幻觉
w/o 多模态context \(c_{MM}\) 27.16 28.02 语义理解下降
w/o 合成前景 27.18 27.11 前景形状不完整
Kontext 基线 26.22 36.14 inpainting基础更好

关键发现

  • inpainting 模型(FLUX.1-Fill-dev)比通用 I2I 模型(FLUX-Kontext)更适合做图层分解基础,验证了 inpainting 与 layer decomposition 的内在联系
  • 前景 context 的有无对前景提取质量影响巨大(定性对比中差异明显),缺少时模型会在前景区域产生幻觉
  • LoRA rank 存在一个甜点(256),过小学不足新能力,过大会破坏预训练先验
  • 用户研究中本方法获得 59.51% 的偏好率,大幅领先 matting 方法

亮点与洞察

  • 从任务本质出发的统一视角:将 layer decomposition 分解为 inpainting + outpainting 的组合,这一观察简洁而深刻,让复杂任务变为对已有能力的重新组合
  • 纯公开数据+轻量适配:不需要商业数据集,不需要全量微调,仅 10 万合成样本+LoRA 即可达到 SOTA。这种"民主化"的方法设计值得推广
  • 混合前景数据策略:真实前景有细节但形状不完整,合成前景形状完整但纹理差,两者互补的数据设计思路可迁移到其他域差距问题

局限与展望

  • 在复杂场景(杂乱物体、大面积遮挡、手指持握物体)上仍然失败
  • 训练数据是合成构造的,与真实图像的分层结构存在分布差异
  • 前景提取的 alpha matting 精度可能不如专业 matting 方法
  • 评估基准有限(MULAN 是唯一公开的图层数据集),可能存在评估偏差

相关工作与启发

  • vs LAYERDECOMP:后者需要全量微调闭源模型+大规模高质量数据,本文仅用 LoRA+公开数据即达到 SOTA,方法更实用
  • vs MattingAnything / DiffMatte:matting 方法只提取可见的前景轮廓,不恢复被遮挡部分;本文能恢复完整前景形状(outpainting 能力)
  • vs LayerDiffuse:后者是用于生成 RGBA 图层的模型,本文将其作为训练数据来源,而非方法竞品

评分

  • 新颖性: ⭐⭐⭐⭐ 将 inpainting 重新解释为 layer decomposition 的统一视角新颖
  • 实验充分度: ⭐⭐⭐⭐ 消融全面,但评估基准有限
  • 写作质量: ⭐⭐⭐⭐ 图表清晰,motivating example 直观
  • 价值: ⭐⭐⭐⭐ 轻量、实用、可复现的图层分解方案

相关论文