跳转至

Bilevel Layer-Positioning LoRA for Real Image Dehazing

会议: CVPR 2026
arXiv: 2603.10872
代码: GitHub
领域: 图像恢复 / 低层视觉
关键词: 图像去雾, LoRA, CLIP, 双层优化, 无监督适配

一句话总结

提出H2C文本引导无监督损失(利用CLIP将去雾重构为语义对齐问题)和BiLaLoRA双层优化策略(自动搜索最佳LoRA注入层),实现高效且即插即用的合成到真实域去雾适配。

背景与动机

深度学习去雾模型在合成数据上表现优异,但合成-真实域差距导致真实场景性能大幅下降。两个核心痛点:(1) 真实场景无配对清晰图,缺少有效的无监督优化信号;(2) 全模型微调计算成本高、灵活性差。作者通过分析发现,不同模型架构中域差距的"性能瓶颈层"位置不同且动态变化——固定选择LoRA插入层是次优的。

核心问题

如何在无配对真实数据条件下为去雾模型设计有效的无监督损失?如何自动定位并微调性能瓶颈层以实现参数高效的域适配?

方法详解

整体框架

以预训练去雾模型(DEA)为基线,使用THaze合成数据预训练后,通过H2C损失+BiLaLoRA在真实雾天图像上进行域适配。分为两阶段:(1)双层定位阶段——联合优化LoRA权重和门控参数alpha以排序候选层重要性;(2)LoRA微调阶段——选取top-k层进行微调。

关键设计

  1. H2C文本引导损失: 利用CLIP的图像和文本编码器。定义正向提示"a clear photo"和负向提示"a photo with haze",计算去雾前后图像特征差delta-V_img与文本方向差delta-T_text的余弦相似度作为优化目标。正负提示的协同约束确保去雾方向性——单用正向会导致色彩失真,单用负向导致过度去雾。夜间场景可通过修改提示为"a photo with nighttime haze"来适配。
  2. BiLaLoRA双层优化: 每个LoRA模块配一个可学习门控参数alpha(sigmoid约束到(0,1)),调控该层LoRA的贡献。将层选择(上层目标:验证集上最大化性能)与权重优化(下层目标:训练集上最小化损失)建模为双层优化问题。通过rank-one外积近似简化二阶梯度计算,仅需一阶导数。
  3. 即插即用多域适配: LoRA的天然特性使得白天/夜间可各训一个轻量adapter,无需重新全量微调,快速切换多个目标域。

损失函数 / 训练策略

预训练阶段用L1 loss。域适配阶段仅用H2C loss。LoRA rank=8,scaling factor gamma=2,top-3层。lr=1e-6,Adam优化器。白天用500张真实雾图,夜间用100张NHRW图像,各50/50划分训练/验证集。256x256随机裁剪+旋转翻转增强。

实验关键数据

数据集 指标 BiLaLoRA 之前SOTA (IPC/PHATNet) 提升
RTTS FADE(下) 0.752 0.845 (PHATNet) -11%
RTTS MUSIQ(上) 61.77 59.61 (IPC) +2.16
URHI MUSIQ(上) 63.52 62.22 (IPC) +1.30
Fattal MUSIQ(上) 67.92 67.58 (IPC) +0.34
三数据集平均 FADE(下) 0.638 0.689 (PHATNet) -7.4%
三数据集平均 MUSIQ(上) 64.40 63.14 (IPC) +1.26
  • 全量微调 vs BiLaLoRA:MUSIQ性能几乎持平(64.43 vs 64.40),但训练时间减少77.7%(4.2h到0.94h),额外参数仅+3%
  • 跨模型验证:在MSBDN/DeHamer/ConvIR/DEA四种架构上均有效
  • 跨域验证:从ITS/OTS/Haze4K/RIDCP四种合成数据预训练模型出发均能显著提升

消融实验要点

  • H2C中去掉正向提示:色彩失真严重;去掉负向提示:过度去雾
  • 双层优化 vs 朴素联合优化:MUSIQ 64.40 vs 64.07,双层建模通过验证集解耦层选择与权重,泛化更好
  • 双层优化 vs 启发式手动选层:MUSIQ 64.40 vs 63.31,自动定位始终优于经验选择
  • 最佳层数k=3,超过3层后边际收益递减

亮点

  • CLIP作为无监督去雾损失的"裁判",通过正负文本方向差定义去雾语义轨迹——这是一种可推广到其他恢复任务的范式
  • 双层优化自动搜索LoRA注入层,将参数高效微调从"哪些层需要适配"的人工决策中解放出来
  • 即插即用设计:白天/夜间各学一个adapter即可切换,无需整体重训

局限性 / 可改进方向

  • 无参考评估指标(FADE/BIQME/Entropy/MUSIQ)的可靠性有限,缺少配对全参考评估
  • 仅在去雾任务上验证,作者未探索扩展到去雨、去噪等其他恢复任务
  • top-k层数固定为3,不同任务/架构可能需要不同k值
  • H2C的文本提示设计较简单,更复杂的prompt engineering可能进一步提升

与相关工作的对比

  • 与RIDCP(CVPR'23,基于VQGAN先验)相比:BiLaLoRA在MUSIQ上显著领先
  • 与IPC(CVPR'25,迭代预测-critic码本解码)相比:BiLaLoRA整体优于IPC
  • 与CoA(CVPR'25)相比:BiLaLoRA在所有指标上胜出(FADE 0.638 vs 0.700,MUSIQ 64.40 vs 57.58)

启发与关联

  • LoRA层位置的自动搜索思路可以迁移到其他PEFT场景(分割、检测的域适配)
  • CLIP引导的文本方向损失可扩展到其他低层视觉任务

评分

  • 新颖性: ⭐⭐⭐⭐ H2C损失设计巧妙,双层优化定位LoRA层是有价值的新视角
  • 实验充分度: ⭐⭐⭐⭐ 跨模型、跨域、消融实验全面,Dense-Haze/O-Haze泛化测试加分
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法推导完整,图表丰富
  • 价值: ⭐⭐⭐ 对真实图像去雾和PEFT有实用价值,但领域相对小众