Cycle-Consistent Tuning for Layered Image Decomposition¶

会议: CVPR 2026 arXiv: 2602.20989 代码: 无（有项目主页）领域: 图像分解 / 图像编辑 关键词: 图像分解, 循环一致性, 扩散模型, LoRA微调, 上下文学习

一句话总结¶

提出基于扩散模型的循环一致性微调框架，通过联合训练分解模型和合成模型实现图像层分离（如logo-物体分解），并引入渐进式自改进数据扩增策略，在非线性层交互场景下实现鲁棒分解。

研究背景与动机¶

图像分解（将图像拆分为语义或物理有意义的层）是CV和CG的经典问题： - 传统方法（如本征分解）局限于线性交互（alpha blending），难以处理光照、透视扭曲、材质反射等非线性耦合 - 从产品照片中分离logo涉及全局非线性交互（阴影、透视变形、表面反射） - 现有生成式编辑方法（如ICEdit、Flux-Kontext）能去除logo但难以准确隔离提取logo - 分解是欠定问题（未知数多于输入），需要额外约束

核心思路：分解是合成的逆过程——通过同时学习分解和合成并施加循环一致性约束，用合成的确定性来约束分解的不确定性。

方法详解¶

整体框架¶

基于 FLUX.1-Fill-dev（预训练diffusion inpainting模型），通过 LoRA 轻量微调适配分解任务。采用 In-Context Learning 范式：输入为三面板网格图像（合成图/logo/干净物体），模型学习从合成图分离出两个层。

关键设计¶

循环一致性分解-合成框架: 同时学习分解函数 $\mathcal{F}_D(I)=\langle A,B\rangle$ 和合成函数 $\mathcal{F}_C(\langle A,B\rangle)=I$，共享同一 LoRA 参数空间。训练时双向运行：(1) 从 $I$ 分解得 $\langle A',B'\rangle$ 再合成回 $I'$；(2) 从 $A,B$ 合成得 $I^*$ 再分解回 $\langle A^*,B^*\rangle$。循环一致性损失对齐两个方向： $$\mathcal{L}_{cyc} = \mathbb{E}\left[\|v_\theta(x_{t_1}^I, M_D, t_1, \tau_D) - v_\theta(x_{t_1}^{I^*}, M_D, t_1, \tau_D)\|_2^2\right] + \mathbb{E}\left[\|v_\theta(x_{t_2}^{\langle A,B\rangle}, M_C, t_2, \tau_C) - v_\theta(x_{t_2}^{\langle A',B'\rangle}, M_C, t_2, \tau_C)\|_2^2\right]$$ 这让分解和合成互相监督，减少对密集标注数据的依赖。
渐进式自改进数据收集: 解决logo-物体分解训练数据稀缺问题。分三阶段：(a) 种子数据——100个人工标注三元组+GPT-4o辅助训练初始IC-LoRA；(b) 迭代数据生成——用当前IC-LoRA生成候选三元组，Qwen-VL过滤高质量样本后重新训练，逐轮提升生成稳定性；(c) 循环模型自改进——用循环一致性模型对新合成图做分解-重合成循环，高质量重合成样本加入训练集，选择率从第1轮到第10轮持续提升。
基于Flow Matching的ICL训练: 使用 flow matching 损失微调 FLUX.1-Fill-dev 的 LoRA 参数： $$\mathcal{L}_{rec} = \mathbb{E}_{x,t}\left[\|v_\theta(x_t, M, t, \tau) - \frac{\partial x_t}{\partial x}\|_2^2\right]$$ 通过mask区分待生成区域（ones）和保留区域（zeros），实现单输入多输出的视觉ICL。

损失函数 / 训练策略¶

总损失 = flow matching重建损失 + 循环一致性损失
分解和合成共享同一LoRA参数，提高参数效率并稳定训练
自改进数据循环用 Qwen-VL 自动过滤 + 简单人工检查

实验关键数据¶

主实验¶

方法	Logo VQAScore↑	Object VQAScore↑	VLMScore均分↑
AssetDropper	0.42	—	—
ICEdit	0.31	0.31	2.55
Flux-Kontext	0.40	0.32	3.79
Gemini	0.42	0.32	4.20
Ours	0.43	0.31	4.22

在1.5K合成测试样本上评估，logo提取质量最优且综合评分最高。

消融实验¶

配置	效果说明
仅Round 0 IC-LoRA	分离质量差，logo残留严重
+ 迭代数据生成	分解明显改善
+ 循环一致性	logo保真度显著提升
+ 自改进过程（完整模型）	物体一致性和真实感进一步提升

泛化实验：本征分解（MAW数据集）Intensity 0.57/Chromaticity 3.54，接近专用SOTA方法。

关键发现¶

循环一致性是分解质量提升的最大单一贡献因子
自改进数据策略的高质量样本选择率随轮次持续增长（从~20%到>60%）
用户研究中超过50%的情况下被排为第一
框架可泛化到本征分解和前景-背景分解等不同任务

亮点与洞察¶

"分解和合成是对偶过程"这一洞察非常优雅——用确定性过程（合成）约束欠定问题（分解）
渐进式数据bootstrapping从100个种子样本起步，逐步扩大高质量训练集，数据效率极高
单一LoRA同时编码分解和合成能力，参数效率高
不同于操纵式方法（Attend-and-Excite等），本方法对基础模型零修改

局限性 / 可改进方向¶

当叠加元素占据画面主体（如大面积墙体广告）时表现退化
目前仅支持双层分解，不能处理多logo叠加
受限于ICL的网格范式，扩展到更多层需要架构调整
训练数据偏向产品logo场景，对其他类型叠加元素（如水印、贴纸）需额外适配

评分¶

新颖性: ⭐⭐⭐⭐ 循环一致性+自改进数据策略组合新颖，分解-合成对偶视角优雅
实验充分度: ⭐⭐⭐⭐ 定量/定性/消融/用户研究/泛化实验齐全
写作质量: ⭐⭐⭐⭐ 结构清晰，动机-方法-验证逻辑流畅
价值: ⭐⭐⭐ 应用场景（logo提取）相对小众，但框架思想可泛化
价值: 待评