Referring Layer Decomposition¶

会议: ICLR 2026
arXiv: 2602.19358
代码: https://yaojie-shen.github.io/project/RLD/
领域: 图像分解 / 图像编辑
关键词: 图层分解, RGBA 层, 多模态引用输入, 数据引擎, RefLayer

一句话总结¶

提出 Referring Layer Decomposition (RLD) 任务，根据用户提供的灵活提示（空间/文本/混合）从单张 RGB 图像中预测完整的 RGBA 图层，并构建了包含 111 万样本的 RefLade 数据集和自动评估协议。

研究背景与动机¶

现代生成模型通常将图像作为整体进行处理，缺乏对单个场景元素的显式表示，使得选择性操纵、跨编辑一致性维护和语义对齐困难重重。图像图层（RGBA 格式的透明视觉单元）提供了更直观的框架，类似于 Photoshop 中的图层工作流。

现有方法的局限： - MuLAn：数据规模有限（44K 图像），成功率仅 36% - Text2Layer：只能分离前景/背景两层 - LayerDecomp：依赖合成监督，需要目标掩码

RLD 任务的核心创新在于支持多种用户提示（点、框、掩码、文本），实现按需提取目标 RGBA 图层。

方法详解¶

整体框架¶

RLD 包含三大组件： 1. RefLade 数据集：111 万图像-图层-提示三元组 2. 自动评估协议：保持度、完成度、忠实度三轴评估 3. RefLayer 基线模型：基于 Stable Diffusion 3 的条件生成

数据引擎（6 阶段流水线）¶

预过滤：基于规则剔除低质量图像（保留图像 86.1% 适用率）
场景理解：集成封闭集检测、开放词汇检测和 MLLM 定位
图层完成：重建被遮挡的物体区域
后处理：细化掩码，预测 alpha 遮罩
提示生成：生成空间/文本/多模态提示
后过滤：评估 RGBA 图层的保真度、真实性和语义一致性

成功率从 MuLAn 的 36% 提升到 70%。

评估协议（三维度）¶

保持度 \(\mathcal{S}_{\text{vis}}\)：原始可见区域的 LPIPS 相似度

\[\mathcal{S}_{\text{vis}} = \mathbb{E}_{(p,g)\sim\mathcal{D}}[\text{LPIPS}(g_{\text{rgb}} \odot g_v, p_{\text{rgb}} \odot g_v)]\]

完成度 \(\mathcal{S}_{\text{gen}}\)：基于 CLIP 特征的方向相似度

\[\mathcal{S}_{\text{gen}} = \mathbb{E}[\cos(f(g_{\text{rgb}}) - f(g_{\text{rgb}} \odot g_v), f(p_{\text{rgb}}) - f(g_{\text{rgb}} \odot g_v))]\]

忠实度 \(\mathcal{S}_{\text{fid}}\)：将预测图层 alpha 混合到背景后计算 FID

HPA 综合分数：基于人类偏好 Elo 排名的归一化加权平均，与人类判断强相关。

RefLayer 模型¶

基于 Stable Diffusion 3 构建
VAE 编码器编码原始图像和位置提示
轻量卷积层压缩通道
双解码器：标准 RGB 解码器 + 自定义 alpha 解码器

提示编码策略：将所有空间提示统一为彩色 RGB 图像格式： - 蓝色画布 → 背景 - 绿色区域 → 边界框 - 红色区域 → 掩码 - 高斯热图 → 点

实验¶

数据集统计¶

数据集	任务	#图像	#类别	#实例	遮挡率
MuLAn	LD	44,860	759	101,269	7.7%
RefLade	RLD	430,488	12K	871,829	60.8%

评估协议验证¶

HPA 分数与人类 ELO 排名强相关，而单独的 \(\mathcal{S}_{\text{vis}}\)、\(\mathcal{S}_{\text{fid}}\)、\(\mathcal{S}_{\text{gen}}\) 均无法一致地反映人类偏好。

质量评估¶

74.7% 的前景图层和 70.2% 的背景图层达到质量阈值
人工标注历时 43 天，由 9 名专业标注员完成
精心筛选获得 59K 高质量图像和 110K 验证图层

关键发现¶

粗粒度提示（单个点）可能导致粗粒度输出，而精确提示产生准确的物体级图层
RefLayer 展现出强零样本泛化能力
多粒度提示系统支持从粗到细的灵活控制

亮点¶

首次定义了基于多模态引用输入的图层分解任务
数据引擎设计系统全面，将成功率从 36% 提升到 70%
评估协议与人类偏好高度对齐，解决了评估瓶颈
RefLade 数据集规模远超现有同类（430K vs MuLAn 的 44K）

局限性¶

数据引擎依赖多个外部模型（检测/分割/补全），级联错误不可避免
人工标注成本高（43 天 × 9 人）
评估协议中 Ground Truth 图层本身可能不完美

评分¶

新颖性：⭐⭐⭐⭐⭐ — 任务定义新颖，填补了研究空白
数据贡献：⭐⭐⭐⭐⭐ — 百万级数据集 + 数据引擎 + 人工标注
评估：⭐⭐⭐⭐ — 三维度评估协议对齐人类偏好
实用性：⭐⭐⭐⭐ — 对图像编辑和合成有直接应用价值