Trans-Adapter: A Plug-and-Play Framework for Transparent Image Inpainting¶

信息	内容
会议	ICCV2025
arXiv	2508.01098
代码	ykdai/trans-adapter
领域	图像生成 / 图像修复
关键词	透明图像修复, RGBA, 扩散模型, 适配器, Alpha通道

一句话总结¶

提出Trans-Adapter，一种即插即用的适配器模块，使基于扩散的图像修复模型能直接处理透明（RGBA）图像，同时引入LayerBench基准和Alpha边缘质量（AEQ）度量指标。

研究背景与动机¶

核心问题¶

RGBA透明图像在影视、动画、游戏制作中广泛应用，但现有AI图像修复工具（如generative fill）仅支持RGB图像。这迫使设计师手动修复透明图像，工作量大且难以保持视觉一致性。

传统方案的两个痛点¶

分离处理不一致：先在背景上修复RGB → 再用matting提取alpha，两个通道独立生成导致不对齐

边缘质量差：matting和分割方法在透明度边界处引入锯齿状边缘，影响合成效果

空白领域¶

已有透明图像/视频生成方法（LayerDiffuse、Zippo等），但没有透明图像修复方法
现有修复方法（SD-Inpainting、BrushNet等）均针对RGB设计
缺乏专门评估透明图像修复的基准和指标

方法详解¶

整体设计思路¶

将RGBA图像分解为RGB和Alpha两个通道，视为"两帧视频"。通过膨胀（inflate）T2I模型来处理这个"视频"，引入空间对齐模块和跨域自注意力确保RGB和Alpha的一致性。

关键设计一：网络膨胀¶

将RGBA分解为padded RGB图像和alpha通道，构成5D输入张量 \(f \in \mathbb{R}^{b \times c \times 2 \times h \times w}\)。通过预训练扩散模型时，reshape为 \(f_r \in \mathbb{R}^{2b \times c \times h \times w}\)，沿batch维堆叠RGB和Alpha潜表示。

原始网络参数冻结，仅训练新引入的模块。所有新模块输出投影层零初始化，确保训练初期不干扰预训练能力。

关键设计二：空间对齐模块¶

在U-Net浅层引入，通过卷积层强制Alpha和RGB在对应空间位置的同步：

\[f = f_r + \mathcal{Z}_c(\mathbf{ConvBlock}(f_r))\]

将特征reshape为 \(f_r \in \mathbb{R}^{b \times 2c \times h \times w}\)（通道维拼接），经卷积块处理后用零初始化卷积加回。

关键设计三：跨域自注意力¶

在U-Net瓶颈层引入，让mask区域能参考周围区域进行修复（尤其对头发等高频细节很重要）：

\[\textbf{self-attention}(f_r) = \text{softmax}\left(\frac{\mathbf{Q}_i\mathbf{K}_i}{\sqrt{D}}\right)\mathbf{V}_i\]

其中 \(f_r \in \mathbb{R}^{b \times 2hw \times c}\)，添加2D位置嵌入后通过自注意力处理，再经零初始化MLP：

\[f = f_r + \mathcal{Z}_M(\textbf{AttentionBlock}(f_r))\]

关键设计四：Alpha Map LoRA¶

引入LoRA模块使模型学会修复Alpha通道：

LoRA权重零初始化，仅学习Alpha生成所需的残差
训练时同时选择RGB和Alpha作为目标
使用不同文本提示区分：Alpha用"alpha map of [prompt]"，RGB用原始prompt

两阶段训练¶

阶段一：仅训练Alpha Map LoRA，让模型获得Alpha重建能力
阶段二：联合微调空间对齐模块、跨域自注意力和Alpha Map LoRA，实现RGBA对齐修复

训练损失使用DDPM标准目标：

\[\mathcal{L} = \mathbb{E}_{\mathcal{E}(x_0),y,\epsilon\sim\mathcal{N}(0,I),t}\left[\|\epsilon - \epsilon_\theta(z_t, t, \tau_\theta(y), C)\|_2^2\right]\]

两种实例化¶

SD-Inpainting方式：扩展UNet输入通道编码mask和masked image
BrushNet方式：引入可训练修复分支

训练数据¶

30K自建高质量透明图像（从在线PNG股票购买+手工过滤）
合并90% MAGICK数据集（150K SDXL生成的透明图像）
每张图配LLaVA生成的文本描述

LayerBench基准¶

数据集构成¶

800张透明图像： - LayerBench-Natural（400张）：在线PNG + matting数据集（DIM等） - LayerBench-Generated（400张）：200张MAGICK高Aesthetic Score图 + 200张LayerDiffusion生成

特点：大部分修复mask与Alpha边界重叠，专门测试RGB-Alpha对齐能力。

AEQ度量指标¶

Alpha Edge Quality：轻量CNN二分类器，输入8通道（白底+黑底合成 + Alpha + Alpha边缘mask），输出低质量边缘概率：

\[\text{AEQ} = 1 - \frac{1}{|\mathcal{M}_e|}\sum_{(x,y)\in\mathcal{M}_e}\mathcal{F}(I_w, I_b, \alpha, \mathcal{M}_e)_{x,y}\]

AEQ范围[0,1]，越高越好。

实验关键数据¶

主实验（SD1.5-Inpainting + Blended Noise策略）¶

方法	AS↑	LPIPS↓	CLIP Sim↑	AEQ↑
ZIM (matting)	6.044	0.0526	27.040	0.9874
U²-Net (分割)	6.007	0.0560	26.978	0.9537
BiRefNet (分割)	6.055	0.0515	27.049	0.9886
Ours	6.097	0.0408	27.030	0.9878

关键发现： - LPIPS显著优于所有两阶段方法（0.0408 vs 0.0515-0.0560），说明修复区域保留更好 - AEQ与最佳matting方法竞争，远优于分割方法（U²-Net仅0.9537） - 审美评分最高（6.097）

SDXL模型结果¶

方法	AS↑	LPIPS↓	CLIP Sim↑	AEQ↑
LayerDiffusion	6.016	0.0642	27.097	0.9781
ZIM	6.115	0.0461	27.111	0.9828
BiRefNet	6.129	0.0453	27.104	0.9859
Ours	6.140	0.0434	27.134	0.9872

在SDXL上同样全面超越竞争方法。

消融实验¶

变体	AS↑	LPIPS↓	CLIP Sim↑	AEQ↑
完整方法	6.097	0.0408	27.030	0.9878
无MAGICK数据	6.073	0.0435	27.037	0.9873
无自建数据	6.067	0.0457	27.071	0.9881
AnimateDiff替代	6.067	0.0459	27.032	0.9872
无空间对齐	5.542	—	—	—

关键发现： - 空间对齐模块最为关键，移除后AS严重降低 - 两个数据源互补，混合使用效果最佳 - Trans-Adapter的设计优于直接使用AnimateDiff

亮点与洞察¶

首创性：首个专门的透明图像修复方法，填补了重要空白
即插即用设计：可适配SD1.5、SDXL、BrushNet等多种架构，原始参数冻结保持兼容性
"视频化"思路巧妙：将RGB+Alpha视为两帧视频是自然且有效的建模方式
零初始化策略：所有新模块输出零初始化，确保训练稳定性和渐进式学习
AEQ指标：解决了透明图像缺乏边缘对齐评估标准的问题

局限性¶

当前仅支持单层透明图像，不支持多层RGBA编辑
依赖预训练扩散模型的质量上限
AEQ分类器本身可能存在偏差
512/1024分辨率限制，更高分辨率场景未验证

评分¶

⭐⭐⭐⭐ — 首创性强、设计优雅实用，完整的任务+基准+方法贡献，对实际工作流（PS/AE）有直接价值。