Bilevel Layer-Positioning LoRA for Real Image Dehazing¶

会议: CVPR 2026
arXiv: 2603.10872
代码: GitHub
领域: 图像恢复 / 低层视觉
关键词: 图像去雾, LoRA, CLIP, 双层优化, 无监督适配

一句话总结¶

提出H2C文本引导无监督损失（利用CLIP将去雾重构为语义对齐问题）和BiLaLoRA双层优化策略（自动搜索最佳LoRA注入层），实现高效且即插即用的合成到真实域去雾适配。

背景与动机¶

深度学习去雾模型在合成数据上表现优异，但合成-真实域差距导致真实场景性能大幅下降。两个核心痛点：(1) 真实场景无配对清晰图，缺少有效的无监督优化信号；(2) 全模型微调计算成本高、灵活性差。作者通过分析发现，不同模型架构中域差距的"性能瓶颈层"位置不同且动态变化——固定选择LoRA插入层是次优的。

核心问题¶

如何在无配对真实数据条件下为去雾模型设计有效的无监督损失？如何自动定位并微调性能瓶颈层以实现参数高效的域适配？

方法详解¶

整体框架¶

以预训练去雾模型（DEA）为基线，使用THaze合成数据预训练后，通过H2C损失+BiLaLoRA在真实雾天图像上进行域适配。分为两阶段：(1)双层定位阶段——联合优化LoRA权重和门控参数alpha以排序候选层重要性；(2)LoRA微调阶段——选取top-k层进行微调。

关键设计¶

H2C文本引导损失: 利用CLIP的图像和文本编码器。定义正向提示"a clear photo"和负向提示"a photo with haze"，计算去雾前后图像特征差delta-V_img与文本方向差delta-T_text的余弦相似度作为优化目标。正负提示的协同约束确保去雾方向性——单用正向会导致色彩失真，单用负向导致过度去雾。夜间场景可通过修改提示为"a photo with nighttime haze"来适配。
BiLaLoRA双层优化: 每个LoRA模块配一个可学习门控参数alpha（sigmoid约束到(0,1)），调控该层LoRA的贡献。将层选择（上层目标：验证集上最大化性能）与权重优化（下层目标：训练集上最小化损失）建模为双层优化问题。通过rank-one外积近似简化二阶梯度计算，仅需一阶导数。
即插即用多域适配: LoRA的天然特性使得白天/夜间可各训一个轻量adapter，无需重新全量微调，快速切换多个目标域。

损失函数 / 训练策略¶

预训练阶段用L1 loss。域适配阶段仅用H2C loss。LoRA rank=8，scaling factor gamma=2，top-3层。lr=1e-6，Adam优化器。白天用500张真实雾图，夜间用100张NHRW图像，各50/50划分训练/验证集。256x256随机裁剪+旋转翻转增强。

实验关键数据¶

数据集	指标	BiLaLoRA	之前SOTA (IPC/PHATNet)	提升
RTTS	FADE(下)	0.752	0.845 (PHATNet)	-11%
RTTS	MUSIQ(上)	61.77	59.61 (IPC)	+2.16
URHI	MUSIQ(上)	63.52	62.22 (IPC)	+1.30
Fattal	MUSIQ(上)	67.92	67.58 (IPC)	+0.34
三数据集平均	FADE(下)	0.638	0.689 (PHATNet)	-7.4%
三数据集平均	MUSIQ(上)	64.40	63.14 (IPC)	+1.26

全量微调 vs BiLaLoRA：MUSIQ性能几乎持平（64.43 vs 64.40），但训练时间减少77.7%（4.2h到0.94h），额外参数仅+3%
跨模型验证：在MSBDN/DeHamer/ConvIR/DEA四种架构上均有效
跨域验证：从ITS/OTS/Haze4K/RIDCP四种合成数据预训练模型出发均能显著提升

消融实验要点¶

H2C中去掉正向提示：色彩失真严重；去掉负向提示：过度去雾
双层优化 vs 朴素联合优化：MUSIQ 64.40 vs 64.07，双层建模通过验证集解耦层选择与权重，泛化更好
双层优化 vs 启发式手动选层：MUSIQ 64.40 vs 63.31，自动定位始终优于经验选择
最佳层数k=3，超过3层后边际收益递减

亮点¶

CLIP作为无监督去雾损失的"裁判"，通过正负文本方向差定义去雾语义轨迹——这是一种可推广到其他恢复任务的范式
双层优化自动搜索LoRA注入层，将参数高效微调从"哪些层需要适配"的人工决策中解放出来
即插即用设计：白天/夜间各学一个adapter即可切换，无需整体重训

局限性 / 可改进方向¶

无参考评估指标（FADE/BIQME/Entropy/MUSIQ）的可靠性有限，缺少配对全参考评估
仅在去雾任务上验证，作者未探索扩展到去雨、去噪等其他恢复任务
top-k层数固定为3，不同任务/架构可能需要不同k值
H2C的文本提示设计较简单，更复杂的prompt engineering可能进一步提升

与相关工作的对比¶

与RIDCP（CVPR'23，基于VQGAN先验）相比：BiLaLoRA在MUSIQ上显著领先
与IPC（CVPR'25，迭代预测-critic码本解码）相比：BiLaLoRA整体优于IPC
与CoA（CVPR'25）相比：BiLaLoRA在所有指标上胜出（FADE 0.638 vs 0.700，MUSIQ 64.40 vs 57.58）

启发与关联¶

LoRA层位置的自动搜索思路可以迁移到其他PEFT场景（分割、检测的域适配）
CLIP引导的文本方向损失可扩展到其他低层视觉任务

评分¶

新颖性: ⭐⭐⭐⭐ H2C损失设计巧妙，双层优化定位LoRA层是有价值的新视角
实验充分度: ⭐⭐⭐⭐ 跨模型、跨域、消融实验全面，Dense-Haze/O-Haze泛化测试加分
写作质量: ⭐⭐⭐⭐ 动机清晰，方法推导完整，图表丰富
价值: ⭐⭐⭐ 对真实图像去雾和PEFT有实用价值，但领域相对小众