跳转至

Trans-Adapter: A Plug-and-Play Framework for Transparent Image Inpainting

信息 内容
会议 ICCV2025
arXiv 2508.01098
代码 ykdai/trans-adapter
领域 图像生成 / 图像修复
关键词 透明图像修复, RGBA, 扩散模型, 适配器, Alpha通道

一句话总结

提出Trans-Adapter,一种即插即用的适配器模块,使基于扩散的图像修复模型能直接处理透明(RGBA)图像,同时引入LayerBench基准和Alpha边缘质量(AEQ)度量指标。

研究背景与动机

核心问题

RGBA透明图像在影视、动画、游戏制作中广泛应用,但现有AI图像修复工具(如generative fill)仅支持RGB图像。这迫使设计师手动修复透明图像,工作量大且难以保持视觉一致性。

传统方案的两个痛点

分离处理不一致:先在背景上修复RGB → 再用matting提取alpha,两个通道独立生成导致不对齐

边缘质量差:matting和分割方法在透明度边界处引入锯齿状边缘,影响合成效果

空白领域

  • 已有透明图像/视频生成方法(LayerDiffuse、Zippo等),但没有透明图像修复方法
  • 现有修复方法(SD-Inpainting、BrushNet等)均针对RGB设计
  • 缺乏专门评估透明图像修复的基准和指标

方法详解

整体设计思路

将RGBA图像分解为RGB和Alpha两个通道,视为"两帧视频"。通过膨胀(inflate)T2I模型来处理这个"视频",引入空间对齐模块和跨域自注意力确保RGB和Alpha的一致性。

关键设计一:网络膨胀

将RGBA分解为padded RGB图像和alpha通道,构成5D输入张量 \(f \in \mathbb{R}^{b \times c \times 2 \times h \times w}\)。通过预训练扩散模型时,reshape为 \(f_r \in \mathbb{R}^{2b \times c \times h \times w}\),沿batch维堆叠RGB和Alpha潜表示。

原始网络参数冻结,仅训练新引入的模块。所有新模块输出投影层零初始化,确保训练初期不干扰预训练能力。

关键设计二:空间对齐模块

在U-Net浅层引入,通过卷积层强制Alpha和RGB在对应空间位置的同步:

\[f = f_r + \mathcal{Z}_c(\mathbf{ConvBlock}(f_r))\]

将特征reshape为 \(f_r \in \mathbb{R}^{b \times 2c \times h \times w}\)(通道维拼接),经卷积块处理后用零初始化卷积加回。

关键设计三:跨域自注意力

在U-Net瓶颈层引入,让mask区域能参考周围区域进行修复(尤其对头发等高频细节很重要):

\[\textbf{self-attention}(f_r) = \text{softmax}\left(\frac{\mathbf{Q}_i\mathbf{K}_i}{\sqrt{D}}\right)\mathbf{V}_i\]

其中 \(f_r \in \mathbb{R}^{b \times 2hw \times c}\),添加2D位置嵌入后通过自注意力处理,再经零初始化MLP:

\[f = f_r + \mathcal{Z}_M(\textbf{AttentionBlock}(f_r))\]

关键设计四:Alpha Map LoRA

引入LoRA模块使模型学会修复Alpha通道:

  • LoRA权重零初始化,仅学习Alpha生成所需的残差
  • 训练时同时选择RGB和Alpha作为目标
  • 使用不同文本提示区分:Alpha用"alpha map of [prompt]",RGB用原始prompt

两阶段训练

  • 阶段一:仅训练Alpha Map LoRA,让模型获得Alpha重建能力
  • 阶段二:联合微调空间对齐模块、跨域自注意力和Alpha Map LoRA,实现RGBA对齐修复

训练损失使用DDPM标准目标:

\[\mathcal{L} = \mathbb{E}_{\mathcal{E}(x_0),y,\epsilon\sim\mathcal{N}(0,I),t}\left[\|\epsilon - \epsilon_\theta(z_t, t, \tau_\theta(y), C)\|_2^2\right]\]

两种实例化

  1. SD-Inpainting方式:扩展UNet输入通道编码mask和masked image
  2. BrushNet方式:引入可训练修复分支

训练数据

  • 30K自建高质量透明图像(从在线PNG股票购买+手工过滤)
  • 合并90% MAGICK数据集(150K SDXL生成的透明图像)
  • 每张图配LLaVA生成的文本描述

LayerBench基准

数据集构成

800张透明图像: - LayerBench-Natural(400张):在线PNG + matting数据集(DIM等) - LayerBench-Generated(400张):200张MAGICK高Aesthetic Score图 + 200张LayerDiffusion生成

特点:大部分修复mask与Alpha边界重叠,专门测试RGB-Alpha对齐能力。

AEQ度量指标

Alpha Edge Quality:轻量CNN二分类器,输入8通道(白底+黑底合成 + Alpha + Alpha边缘mask),输出低质量边缘概率:

\[\text{AEQ} = 1 - \frac{1}{|\mathcal{M}_e|}\sum_{(x,y)\in\mathcal{M}_e}\mathcal{F}(I_w, I_b, \alpha, \mathcal{M}_e)_{x,y}\]

AEQ范围[0,1],越高越好。

实验关键数据

主实验(SD1.5-Inpainting + Blended Noise策略)

方法 AS↑ LPIPS↓ CLIP Sim↑ AEQ↑
ZIM (matting) 6.044 0.0526 27.040 0.9874
U²-Net (分割) 6.007 0.0560 26.978 0.9537
BiRefNet (分割) 6.055 0.0515 27.049 0.9886
Ours 6.097 0.0408 27.030 0.9878

关键发现: - LPIPS显著优于所有两阶段方法(0.0408 vs 0.0515-0.0560),说明修复区域保留更好 - AEQ与最佳matting方法竞争,远优于分割方法(U²-Net仅0.9537) - 审美评分最高(6.097)

SDXL模型结果

方法 AS↑ LPIPS↓ CLIP Sim↑ AEQ↑
LayerDiffusion 6.016 0.0642 27.097 0.9781
ZIM 6.115 0.0461 27.111 0.9828
BiRefNet 6.129 0.0453 27.104 0.9859
Ours 6.140 0.0434 27.134 0.9872

在SDXL上同样全面超越竞争方法。

消融实验

变体 AS↑ LPIPS↓ CLIP Sim↑ AEQ↑
完整方法 6.097 0.0408 27.030 0.9878
无MAGICK数据 6.073 0.0435 27.037 0.9873
无自建数据 6.067 0.0457 27.071 0.9881
AnimateDiff替代 6.067 0.0459 27.032 0.9872
无空间对齐 5.542

关键发现: - 空间对齐模块最为关键,移除后AS严重降低 - 两个数据源互补,混合使用效果最佳 - Trans-Adapter的设计优于直接使用AnimateDiff

亮点与洞察

  1. 首创性:首个专门的透明图像修复方法,填补了重要空白
  2. 即插即用设计:可适配SD1.5、SDXL、BrushNet等多种架构,原始参数冻结保持兼容性
  3. "视频化"思路巧妙:将RGB+Alpha视为两帧视频是自然且有效的建模方式
  4. 零初始化策略:所有新模块输出零初始化,确保训练稳定性和渐进式学习
  5. AEQ指标:解决了透明图像缺乏边缘对齐评估标准的问题

局限性

  • 当前仅支持单层透明图像,不支持多层RGBA编辑
  • 依赖预训练扩散模型的质量上限
  • AEQ分类器本身可能存在偏差
  • 512/1024分辨率限制,更高分辨率场景未验证

相关工作与启发

  • LayerDiffuse:潜在透明性方法,可做RGBA生成但不专注修复
  • AnimateDiff:视频生成适配器,启发了Trans-Adapter的膨胀设计
  • BrushNet:即插即用修复分支,Trans-Adapter可无缝集成
  • ControlNet:条件控制思路和零初始化策略的灵感来源
  • 该框架可扩展到透明视频修复和多层RGBA编辑

评分

⭐⭐⭐⭐ — 首创性强、设计优雅实用,完整的任务+基准+方法贡献,对实际工作流(PS/AE)有直接价值。

相关论文