Towards Real-World Adverse Weather Image Restoration: Enhancing Clearness and Semantics with Vision-Language Models¶

会议: ECCV 2024
arXiv: 2409.02101
代码: 有（GitHub）
领域: 多模态VLM
关键词: 恶劣天气图像复原, 半监督学习, 视觉-语言模型, 去雨/去雾/去雪, 伪标签

一句话总结¶

提出WResVLM半监督框架，利用VLM评估图像清晰度和提供语义信息，通过伪标签选择+天气prompt学习增强清晰度、VLM描述引导的语义正则化增强语义，首次有效地将合成数据训练的复原模型泛化到真实恶劣天气场景。

研究背景与动机¶

领域现状：恶劣天气图像复原（去雨/去雾/去雪）在合成数据上取得了长足进步，All-in-One方法（TransWeather、WeatherDiff等）用单模型处理多种天气。但这些方法在真实场景中效果有限。
现有痛点：(1) 合成与真实数据的域差距导致泛化能力弱——合成雨/雾/雪难以模拟真实世界的复杂性；(2) 现有方法只关注视觉清晰度，忽略了语义上下文的恢复，对下游高层任务帮助有限；(3) 真实恶劣天气图像没有配对的干净ground truth，无法直接用于监督训练。
核心矛盾：要在真实数据上训练复原模型，需要某种形式的监督信号。VLM经过大规模训练见过大量天气场景，具备评估天气相关图像质量的能力，可以作为"裁判官"提供监督。
本文要解决什么？ (1) 利用VLM评估图像清晰度来指导真实数据上的伪标签选择；(2) 利用VLM生成的描述来增强复原图像的语义质量；(3) 设计有效的训练策略实现迭代提升。
切入角度：VLM同时具备两种能力——(a) 低层次的天气场景感知能力（判断图像是否清晰）；(b) 高层次的语义理解能力（描述场景内容和天气状况）。利用这两种能力分别增强clearness和semantics。
核心idea一句话：用VLM作为"裁判"选伪标签和"导师"提供语义描述，在无配对GT的真实天气图像上训练复原模型。

方法详解¶

整体框架¶

半监督学习框架：有标签的合成数据提供 \(\mathcal{L}_{sup}\)，无标签的真实数据通过VLM辅助提供4种无监督损失——伪标签损失 \(\mathcal{L}_{ps}\)、天气prompt学习损失 \(\mathcal{L}_{wpl}\)、语义正则化损失 \(\mathcal{L}_{sem}\)、特征相似性损失 \(\mathcal{L}_{feat}\)。总损失 \(\mathcal{L} = \mathcal{L}_{sup} + w_1\mathcal{L}_{ps} + w_2\mathcal{L}_{wpl} + w_3\mathcal{L}_{sem} + w_4\mathcal{L}_{feat}\)。

关键设计¶

VLM-based图像评估与伪标签选择：
- 做什么：用VLM对复原图像的天气相关质量打分，选择最佳复原结果作为伪标签
- 核心思路：设计天气相关的质量问询模板给VLM，将VLM在五个评分词（excellent/good/fair/poor/bad）上的logit通过softmax转为数值评分 \(r^{vlm} = \sum_{i=1}^5 i \times p_i\)
- 设计动机：传统IQA（NIMA、MUSIQ）只评估一般技术质量（噪声、模糊），不能区分天气退化。VLM训练中见过大量天气场景，能更好判断"可见度"
天气Prompt学习（Weather Prompt Learning）：
- 做什么：学习CLIP中的天气概念embedding，引导复原模型生成"看起来晴天"的图像
- 核心思路：(1) 学习4个天气prompt embedding \(t_c, t_r, t_h, t_s\)（clear/rain/haze/snow），固定CLIP参数，用分类loss在真实天气图像上学习；(2) 复原时最大化预测图像与clear prompt的CLIP相似度 \(\mathcal{L}_{wpl} = \frac{e^{cos(\mathcal{E}_I(\hat{y}), \mathcal{E}_T(t_c))}}{\sum_t e^{cos(\mathcal{E}_I(\hat{y}), \mathcal{E}_T(t))}}\)
- 设计动机：手写prompt（"rainy"）不够鲁棒，学习得到的prompt embedding能更精准区分天气类型，作为可微分的优化目标引导复原
描述辅助的语义增强（Description-assisted Semantic Enhancement）：
- 做什么：利用VLM为每张图生成天气描述，通过修改天气词保留语义词来提供正/负文本对，引导复原保持语义
- 核心思路：(1) LLaVA生成负描述 \(d_{neg}\)（含天气信息）如"A person walking in heavy rain..."；(2) LLaMA转换为正描述 \(d_{pos}\)（去除天气、保留语义）如"The weather looks good. A person walking..."；(3) 语义损失最大化复原图与 \(d_{pos}\) 的CLIP相似度 \(\mathcal{L}_{sem}\)
- 设计动机：weather prompt是通用的天气概念，description是image-specific的语义约束。两者互补——prompt保证"像晴天"，description保证"保留场景语义"
训练策略（伪标签初始化 + 迭代更新）：
- 做什么：用多个现有复原方法的结果初始化伪标签数据库，多轮迭代训练
- 核心思路：初始化时使用多个VLM专家投票选最佳复原结果；训练分4轮，每轮1个VLM做在线评估，轮间用全套VLM做全局评估更新
- 设计动机：单一VLM可能有偏好偏差，多VLM集成更稳健；迭代更新让伪标签和prompt逐步改善

损失函数 / 训练策略¶

权重 \(w_1=0.5, w_2=0.2, w_3=0.05, w_4=0.2\)。使用MSBDN作为backbone。每轮40k迭代，4轮共160k迭代。伪标签用mean-teacher在线更新。

实验关键数据¶

主实验¶

方法	Rain MUSIQ↑	Haze MUSIQ↑	Snow MUSIQ↑	Overall MUSIQ↑
Restormer	54.69	53.27	61.18	56.38
TransWeather	51.06	46.27	59.38	52.24
PromptIR	53.48	53.88	60.86	56.07
DA-CLIP	52.98	53.23	60.57	55.59
Ours	59.80	56.09	62.12	59.34

消融实验¶

配置	MUSIQ↑	CLIP-IQA↑	VLM-Vis↑
\(\mathcal{L}_{sup}\) only	53.41	0.388	0.343
+ \(\mathcal{L}_{ps}\)	54.08	0.396	0.354
+ VLM评估 \(r^{vlm}\)	56.68	0.429	0.366
+ 伪标签初始化	57.34	0.425	0.370
+ \(\mathcal{L}_{wpl}\)	58.13	0.437	0.376
+ \(\mathcal{L}_{sem}\)	58.91	0.445	0.381
+ 迭代更新	59.34	0.456	0.387

关键发现¶

VLM-based评估选择的伪标签比传统IQA（NIMA、MUSIQ）选择的质量更高，训练效果更好
天气prompt学习和语义增强各自独立贡献显著（+0.79和+0.78 MUSIQ），且互补
用户研究中本方法在visibility和quality两个维度均领先
语义正则可以帮助VLM检测到微妙的天气残留（如"foggy"或"overcast"），进一步改善伪标签和训练
即使用较简单的MSBDN backbone，通过VLM辅助的半监督学习也远超在合成数据上训练的Restormer等强基线

亮点与洞察¶

VLM作为"天气裁判"的角色极为自然：VLM在海量天气图像上训练，天然具备判断"图像是否清晰"的能力。将这种能力转化为可微分的训练信号是巧妙的工程设计。
描述的正负转换是一个精妙的技术：同一场景的负描述（有天气词）和正描述（无天气词、保留语义），为复原模型提供了"保持什么、去除什么"的精确指导。
迭代自增强的训练策略：初始伪标签→训练复原模型→更好的伪标签→更好的模型，形成正反馈循环。多VLM集成避免了单一偏差。

局限性 / 可改进方向¶

大型VLM的使用增加了计算开销，限制了实际部署速度
伪标签quality的上限受限于初始复原方法的结果
仅验证了MSBDN一种backbone，更强的backbone（如Restormer、NAFNet）可能获得更大提升
对混合天气条件（同时有雨和雾）的处理能力待验证

评分¶

新颖性: ⭐⭐⭐⭐ VLM辅助的半监督天气复原框架是新颖的范式
实验充分度: ⭐⭐⭐⭐ 三种天气、多种指标、用户研究、详细消融
写作质量: ⭐⭐⭐⭐ 框架清晰，组件动机合理
价值: ⭐⭐⭐⭐ 首次有效解决了天气复原的真实场景泛化问题