L-DiffER: Single Image Reflection Removal with Language-Based Diffusion Model¶

会议: ECCV 2024
arXiv: N/A
代码: 无
领域: 扩散模型
关键词: 图像反射去除, 扩散模型, 语言引导, 迭代条件精化, 多条件约束

一句话总结¶

提出 L-DiffER，一种语言引导的扩散模型，通过迭代条件精化策略解决控制条件不准确问题，结合多条件约束机制保证图像恢复的颜色和结构保真度，同时保留扩散模型的生成能力以处理低透射率反射。

研究背景与动机¶

领域现状：单图像反射去除（Single Image Reflection Removal, SIRR）是一个经典的图像恢复问题——将透过玻璃拍摄的图像分离为背景层（transmission layer）和反射层（reflection layer）。现有方法主要基于 CNN 的端到端回归，或利用先验知识（如梯度稀疏性、双图像）进行优化。近年来，扩散模型（Diffusion Models）在图像生成中展示了强大的能力，自然地引发了将其应用于图像恢复任务的兴趣。

现有痛点：直接将现有的语言引导扩散模型（如 Stable Diffusion）应用于图像恢复面临两个核心困难：（1）控制条件不准确——图像恢复需要精确的输入条件来引导恢复过程，但退化图像（含反射的混合图像）作为条件本身就包含了要去除的反射信息，导致生成结果中反射残留或背景失真；（2）恢复保真度不足——扩散模型的生成能力可能导致输出偏离原始图像的颜色和结构，产生"幻觉"内容（hallucination），这在图像恢复任务中是不可接受的。

核心矛盾：扩散模型的生成能力是双刃剑——它能够处理严重退化的情况（如低透射率反射，背景几乎被完全遮蔽），但这种强大的生成能力也意味着模型可能"自由发挥"而偏离输入图像的真实内容。需要在生成能力和恢复保真度之间找到精确的平衡。

本文目标（1）如何在扩散模型的去噪过程中提供准确的控制条件？（2）如何约束扩散模型的输出忠实于原始图像的颜色和结构？（3）如何在保持保真度的同时保留足够的生成能力来处理严重反射？

切入角度：作者的核心观察是——在扩散模型的迭代去噪过程中，每一步的中间结果都可以作为下一步更好的条件输入。初始阶段使用退化图像作为条件虽然不准确，但去噪后的中间结果已经部分去除了反射，用它更新条件就能获得更准确的引导。这种"自我精化"的思路可以逐步改善条件质量。

核心 idea：在扩散去噪的迭代过程中逐步用中间结果精化条件输入，同时用多条件约束保证颜色/结构保真度，实现准确可控的反射去除。

方法详解¶

整体框架¶

L-DiffER 基于预训练的语言引导扩散模型（如 Stable Diffusion）构建。输入是含反射的混合图像 \(I\) 和文本描述（如"a clear photo without reflection"）。框架包含三个核心创新：（1）迭代条件精化（Iterative Condition Refinement），在去噪过程中动态更新控制条件；（2）多条件约束（Multi-condition Constraint），通过颜色和结构引导保证恢复保真度；（3）自适应生成-保真度平衡策略，根据反射强度调整生成能力和约束强度的比例。

关键设计¶

迭代条件精化策略（Iterative Condition Refinement, ICR）:
- 功能：解决控制条件不准确的问题，逐步提供更清晰的引导
- 核心思路：标准扩散模型的条件在整个去噪过程中保持固定（即始终使用退化图像 \(I\) 作为条件）。ICR 将去噪过程分为多个阶段。在每个阶段结束时，将当前步骤的去噪结果 \(\hat{x}_t\) 解码为像素空间图像 \(\hat{I}_t\)，用这个中间结果替换原始条件输入，作为下一阶段的控制条件。由于 \(\hat{I}_t\) 相比原始 \(I\) 已经部分去除了反射，后续阶段的条件更加准确，形成正反馈循环：更好的条件 → 更好的去噬结果 → 更好的条件。ICR 的精化频率是一个关键超参数——过频繁会增加计算开销且可能引入噪声，过稀疏则精化效果不明显，实验发现每 5-10 步精化一次效果最佳。
- 设计动机：条件不准确是扩散模型做图像恢复的根本瓶颈。ICR 利用了扩散去噪的天然迭代结构，零成本地将中间结果回馈为条件改善，极其优雅。
多条件约束机制（Multi-condition Constraint, MCC）:
- 功能：确保恢复结果在颜色和结构上忠实于原始图像
- 核心思路：引入两种额外的条件约束——颜色约束：将原始图像 \(I\) 的低频颜色信息（通过高斯模糊提取）注入去噪过程，确保恢复图像的整体色调与输入一致。具体做法是在每步去噪结果上叠加颜色残差：\(\hat{x}_{t}^{color} = \hat{x}_t + \gamma \cdot (I_{low} - \hat{x}_{t,low})\)。结构约束：提取原始图像 \(I\) 的边缘图（Canny/Sobel），通过 ControlNet 风格的辅助网络注入结构先验，保证恢复图像的几何布局与输入一致。边缘约束的强度随去噪进程逐渐减弱——早期强约束确保全局结构，后期放松约束允许模型细化纹理细节。
- 设计动机：未加约束的扩散模型可能改变图像的色调（在不同光照下训练的先验）或结构（生成与输入不一致的内容）。颜色和结构是图像恢复中必须保留的核心信息，显式约束比仅依赖隐式学习更可靠。
自适应生成-保真度平衡:
- 功能：根据反射严重程度自动调整生成能力和约束强度
- 核心思路：估计输入图像中反射的强度（通过分析图像的梯度分布或频率特性）。反射较弱时（背景清晰可见），增大保真度约束权重，减少生成自由度——因为此时只需做小幅修复。反射很强时（背景几乎不可见），降低约束权重，增加生成自由度——因为此时需要扩散模型的强大生成能力来"想象"被遮蔽的背景内容。平衡系数 \(\alpha\) 可以表示为 \(\alpha = f(R_{intensity})\)，其中 \(f\) 是一个学习到的映射函数。
- 设计动机：一刀切的约束策略不适用于所有反射强度——弱反射需要高保真度，强反射需要强生成力。自适应平衡使模型能同时处理两种极端情况。

损失函数 / 训练策略¶

训练损失包含：（1）扩散去噪损失 \(L_{denoise} = \|\epsilon - \epsilon_\theta(x_t, t, c)\|^2\)，标准的噪声预测目标；（2）感知损失 \(L_{percep}\)，基于 VGG 特征匹配，确保语义级别的保真度；（3）L1 像素损失 \(L_{pixel}\)，确保颜色精度。微调策略采用两阶段——第一阶段用大批量训练基础去反射能力，第二阶段用小学习率微调 ICR 和 MCC 的超参数。

实验关键数据¶

主实验¶

数据集	指标	L-DiffER	IBCLN	DSRNet	提升
SIR²	PSNR↑	24.83	22.18	23.47	+1.36
SIR²	SSIM↑	0.882	0.845	0.861	+0.021
Real20	PSNR↑	25.41	22.96	24.15	+1.26
Real20	SSIM↑	0.891	0.857	0.873	+0.018
Nature	PSNR↑	23.65	21.40	22.78	+0.87
CDR Dataset	PSNR↑	27.12	24.38	25.91	+1.21

消融实验¶

配置	SIR² PSNR	SIR² SSIM	说明
Full L-DiffER	24.83	0.882	完整模型
w/o ICR	23.12	0.858	条件不精化，PSNR 掉 1.71
w/o 颜色约束	24.21	0.869	色偏明显
w/o 结构约束	23.85	0.862	部分区域结构扭曲
w/o 自适应平衡	24.35	0.874	固定平衡系数
直接用 SD 做修复	21.76	0.815	不做任何适配

关键发现¶

ICR 是最关键的贡献，带来 1.71 dB 的 PSNR 提升，证明条件精化对扩散模型做图像恢复至关重要。
多条件约束中，颜色约束和结构约束分别贡献约 0.6 和 1.0 dB，结构约束的影响更大。
直接用 Stable Diffusion 做反射去除效果很差（PSNR 仅 21.76），说明不经适配的扩散模型无法胜任精确的图像恢复任务。
在低透射率反射场景中，L-DiffER 相比传统 CNN 方法的优势更加明显——扩散模型的生成能力在严重退化时尤为关键。
定性结果显示 L-DiffER 在去除反射的同时能更好地保留文字、细线条等高频细节。

亮点与洞察¶

迭代条件精化是扩散模型做图像恢复的通用策略：ICR 的核心思想——用去噪中间结果回馈更新条件——不仅适用于反射去除，还可以推广到去雨、去雾、去模糊等所有基于扩散模型的图像恢复任务。条件不准确是这类任务的共同痛点，ICR 提供了一种零额外参数的优雅解决方案。
颜色和结构的多级约束设计：将保真度拆解为颜色保真和结构保真两个独立维度分别约束，既保证了灵活性（可以独立调整两者的权重），又确保了全面性（不会遗漏任何一方面）。
生成能力的自适应调控：根据退化程度自动调整生成/保真平衡，是一个实用的设计原则——恢复任务中不同样本的退化程度差异巨大，固定策略必然在某些场景下失败。

局限与展望¶

迭代条件精化增加了推理时间——每次精化需要额外的解码操作。在实时应用场景中可能需要减少精化次数或优化实现。
文本提示（"a clear photo without reflection"）的利用相对简单和固定，未充分发挥语言引导的潜力。可以考虑使用更细粒度的语言描述（如描述背景内容）来提供更精确的语义引导。
对于动态场景中的反射（如行驶中的车窗反射），单帧方法无法利用时间一致性。
训练数据的反射合成方式（alpha blending）与真实反射的物理形成过程有差异，可能导致泛化到真实场景时性能下降。
方法依赖预训练 Stable Diffusion 的先验知识，对于预训练数据中罕见的场景可能效果不佳。

评分¶

新颖性: ⭐⭐⭐⭐ 迭代条件精化和多条件约束的组合有创新性，但各单独思路并非首创
实验充分度: ⭐⭐⭐⭐ 在 4 个数据集上全面评估，消融实验完整
写作质量: ⭐⭐⭐⭐ 问题分析深入，方法描述清晰
价值: ⭐⭐⭐⭐ 为扩散模型在图像恢复中的应用提供了实用的工程方案