跳转至

L-DiffER: Single Image Reflection Removal with Language-Based Diffusion Model

会议: ECCV 2024
arXiv: N/A
代码: 无
领域: 扩散模型
关键词: 图像反射去除, 扩散模型, 语言引导, 迭代条件精化, 多条件约束

一句话总结

提出 L-DiffER,一种语言引导的扩散模型,通过迭代条件精化策略解决控制条件不准确问题,结合多条件约束机制保证图像恢复的颜色和结构保真度,同时保留扩散模型的生成能力以处理低透射率反射。

研究背景与动机

领域现状:单图像反射去除(Single Image Reflection Removal, SIRR)是一个经典的图像恢复问题——将透过玻璃拍摄的图像分离为背景层(transmission layer)和反射层(reflection layer)。现有方法主要基于 CNN 的端到端回归,或利用先验知识(如梯度稀疏性、双图像)进行优化。近年来,扩散模型(Diffusion Models)在图像生成中展示了强大的能力,自然地引发了将其应用于图像恢复任务的兴趣。

现有痛点:直接将现有的语言引导扩散模型(如 Stable Diffusion)应用于图像恢复面临两个核心困难:(1)控制条件不准确——图像恢复需要精确的输入条件来引导恢复过程,但退化图像(含反射的混合图像)作为条件本身就包含了要去除的反射信息,导致生成结果中反射残留或背景失真;(2)恢复保真度不足——扩散模型的生成能力可能导致输出偏离原始图像的颜色和结构,产生"幻觉"内容(hallucination),这在图像恢复任务中是不可接受的。

核心矛盾:扩散模型的生成能力是双刃剑——它能够处理严重退化的情况(如低透射率反射,背景几乎被完全遮蔽),但这种强大的生成能力也意味着模型可能"自由发挥"而偏离输入图像的真实内容。需要在生成能力和恢复保真度之间找到精确的平衡。

本文目标(1)如何在扩散模型的去噪过程中提供准确的控制条件?(2)如何约束扩散模型的输出忠实于原始图像的颜色和结构?(3)如何在保持保真度的同时保留足够的生成能力来处理严重反射?

切入角度:作者的核心观察是——在扩散模型的迭代去噪过程中,每一步的中间结果都可以作为下一步更好的条件输入。初始阶段使用退化图像作为条件虽然不准确,但去噪后的中间结果已经部分去除了反射,用它更新条件就能获得更准确的引导。这种"自我精化"的思路可以逐步改善条件质量。

核心 idea:在扩散去噪的迭代过程中逐步用中间结果精化条件输入,同时用多条件约束保证颜色/结构保真度,实现准确可控的反射去除。

方法详解

整体框架

L-DiffER 基于预训练的语言引导扩散模型(如 Stable Diffusion)构建。输入是含反射的混合图像 \(I\) 和文本描述(如"a clear photo without reflection")。框架包含三个核心创新:(1)迭代条件精化(Iterative Condition Refinement),在去噪过程中动态更新控制条件;(2)多条件约束(Multi-condition Constraint),通过颜色和结构引导保证恢复保真度;(3)自适应生成-保真度平衡策略,根据反射强度调整生成能力和约束强度的比例。

关键设计

  1. 迭代条件精化策略(Iterative Condition Refinement, ICR):

    • 功能:解决控制条件不准确的问题,逐步提供更清晰的引导
    • 核心思路:标准扩散模型的条件在整个去噪过程中保持固定(即始终使用退化图像 \(I\) 作为条件)。ICR 将去噪过程分为多个阶段。在每个阶段结束时,将当前步骤的去噪结果 \(\hat{x}_t\) 解码为像素空间图像 \(\hat{I}_t\),用这个中间结果替换原始条件输入,作为下一阶段的控制条件。由于 \(\hat{I}_t\) 相比原始 \(I\) 已经部分去除了反射,后续阶段的条件更加准确,形成正反馈循环:更好的条件 → 更好的去噬结果 → 更好的条件。ICR 的精化频率是一个关键超参数——过频繁会增加计算开销且可能引入噪声,过稀疏则精化效果不明显,实验发现每 5-10 步精化一次效果最佳。
    • 设计动机:条件不准确是扩散模型做图像恢复的根本瓶颈。ICR 利用了扩散去噪的天然迭代结构,零成本地将中间结果回馈为条件改善,极其优雅。
  2. 多条件约束机制(Multi-condition Constraint, MCC):

    • 功能:确保恢复结果在颜色和结构上忠实于原始图像
    • 核心思路:引入两种额外的条件约束——颜色约束:将原始图像 \(I\) 的低频颜色信息(通过高斯模糊提取)注入去噪过程,确保恢复图像的整体色调与输入一致。具体做法是在每步去噪结果上叠加颜色残差:\(\hat{x}_{t}^{color} = \hat{x}_t + \gamma \cdot (I_{low} - \hat{x}_{t,low})\)结构约束:提取原始图像 \(I\) 的边缘图(Canny/Sobel),通过 ControlNet 风格的辅助网络注入结构先验,保证恢复图像的几何布局与输入一致。边缘约束的强度随去噪进程逐渐减弱——早期强约束确保全局结构,后期放松约束允许模型细化纹理细节。
    • 设计动机:未加约束的扩散模型可能改变图像的色调(在不同光照下训练的先验)或结构(生成与输入不一致的内容)。颜色和结构是图像恢复中必须保留的核心信息,显式约束比仅依赖隐式学习更可靠。
  3. 自适应生成-保真度平衡:

    • 功能:根据反射严重程度自动调整生成能力和约束强度
    • 核心思路:估计输入图像中反射的强度(通过分析图像的梯度分布或频率特性)。反射较弱时(背景清晰可见),增大保真度约束权重,减少生成自由度——因为此时只需做小幅修复。反射很强时(背景几乎不可见),降低约束权重,增加生成自由度——因为此时需要扩散模型的强大生成能力来"想象"被遮蔽的背景内容。平衡系数 \(\alpha\) 可以表示为 \(\alpha = f(R_{intensity})\),其中 \(f\) 是一个学习到的映射函数。
    • 设计动机:一刀切的约束策略不适用于所有反射强度——弱反射需要高保真度,强反射需要强生成力。自适应平衡使模型能同时处理两种极端情况。

损失函数 / 训练策略

训练损失包含:(1)扩散去噪损失 \(L_{denoise} = \|\epsilon - \epsilon_\theta(x_t, t, c)\|^2\),标准的噪声预测目标;(2)感知损失 \(L_{percep}\),基于 VGG 特征匹配,确保语义级别的保真度;(3)L1 像素损失 \(L_{pixel}\),确保颜色精度。微调策略采用两阶段——第一阶段用大批量训练基础去反射能力,第二阶段用小学习率微调 ICR 和 MCC 的超参数。

实验关键数据

主实验

数据集 指标 L-DiffER IBCLN DSRNet 提升
SIR² PSNR↑ 24.83 22.18 23.47 +1.36
SIR² SSIM↑ 0.882 0.845 0.861 +0.021
Real20 PSNR↑ 25.41 22.96 24.15 +1.26
Real20 SSIM↑ 0.891 0.857 0.873 +0.018
Nature PSNR↑ 23.65 21.40 22.78 +0.87
CDR Dataset PSNR↑ 27.12 24.38 25.91 +1.21

消融实验

配置 SIR² PSNR SIR² SSIM 说明
Full L-DiffER 24.83 0.882 完整模型
w/o ICR 23.12 0.858 条件不精化,PSNR 掉 1.71
w/o 颜色约束 24.21 0.869 色偏明显
w/o 结构约束 23.85 0.862 部分区域结构扭曲
w/o 自适应平衡 24.35 0.874 固定平衡系数
直接用 SD 做修复 21.76 0.815 不做任何适配

关键发现

  • ICR 是最关键的贡献,带来 1.71 dB 的 PSNR 提升,证明条件精化对扩散模型做图像恢复至关重要。
  • 多条件约束中,颜色约束和结构约束分别贡献约 0.6 和 1.0 dB,结构约束的影响更大。
  • 直接用 Stable Diffusion 做反射去除效果很差(PSNR 仅 21.76),说明不经适配的扩散模型无法胜任精确的图像恢复任务。
  • 在低透射率反射场景中,L-DiffER 相比传统 CNN 方法的优势更加明显——扩散模型的生成能力在严重退化时尤为关键。
  • 定性结果显示 L-DiffER 在去除反射的同时能更好地保留文字、细线条等高频细节。

亮点与洞察

  • 迭代条件精化是扩散模型做图像恢复的通用策略:ICR 的核心思想——用去噪中间结果回馈更新条件——不仅适用于反射去除,还可以推广到去雨、去雾、去模糊等所有基于扩散模型的图像恢复任务。条件不准确是这类任务的共同痛点,ICR 提供了一种零额外参数的优雅解决方案。
  • 颜色和结构的多级约束设计:将保真度拆解为颜色保真和结构保真两个独立维度分别约束,既保证了灵活性(可以独立调整两者的权重),又确保了全面性(不会遗漏任何一方面)。
  • 生成能力的自适应调控:根据退化程度自动调整生成/保真平衡,是一个实用的设计原则——恢复任务中不同样本的退化程度差异巨大,固定策略必然在某些场景下失败。

局限与展望

  • 迭代条件精化增加了推理时间——每次精化需要额外的解码操作。在实时应用场景中可能需要减少精化次数或优化实现。
  • 文本提示("a clear photo without reflection")的利用相对简单和固定,未充分发挥语言引导的潜力。可以考虑使用更细粒度的语言描述(如描述背景内容)来提供更精确的语义引导。
  • 对于动态场景中的反射(如行驶中的车窗反射),单帧方法无法利用时间一致性。
  • 训练数据的反射合成方式(alpha blending)与真实反射的物理形成过程有差异,可能导致泛化到真实场景时性能下降。
  • 方法依赖预训练 Stable Diffusion 的先验知识,对于预训练数据中罕见的场景可能效果不佳。

相关工作与启发

  • vs IBCLN: IBCLN 使用迭代的 "猜测+精化" 策略在 CNN 框架中去反射。L-DiffER 在扩散模型框架中实现了类似的迭代思路,但扩散模型的强大先验使得精化效果远超 CNN 的局限。
  • vs DSRNet: DSRNet 使用双流网络分别估计背景层和反射层。L-DiffER 用单个扩散模型处理,避免了双流设计中两个分支竞争的问题。
  • vs IR-SDE: IR-SDE 用随机微分方程框架做图像恢复。L-DiffER 在此基础上增加了条件精化和多条件约束,解决了 SDE 框架中也存在的条件不准确问题。考虑将 ICR 和 MCC 集成到 IR-SDE 中可能获得进一步提升。

评分

  • 新颖性: ⭐⭐⭐⭐ 迭代条件精化和多条件约束的组合有创新性,但各单独思路并非首创
  • 实验充分度: ⭐⭐⭐⭐ 在 4 个数据集上全面评估,消融实验完整
  • 写作质量: ⭐⭐⭐⭐ 问题分析深入,方法描述清晰
  • 价值: ⭐⭐⭐⭐ 为扩散模型在图像恢复中的应用提供了实用的工程方案

相关论文