跳转至

Empowering Semantic-Sensitive Underwater Image Enhancement with VLM

会议: CVPR 2026
arXiv: 2603.12773
代码: 待确认
领域: 水下图像增强 / 语义引导 / VLM 应用
关键词: underwater image enhancement, VLM, semantic guidance, cross-attention, downstream tasks

一句话总结

提出 VLM 驱动的语义敏感学习策略,通过 VLM 生成目标物体描述、BLIP 构建空间语义引导图、双重引导机制(cross-attention + 语义对齐损失)注入 UIE decoder,使增强结果在感知质量和检测/分割下游任务上同时提升。

背景与动机

水下图像增强(UIE)已有大量深度学习方法,但存在"增强悖论":增强后的图像视觉质量好但下游检测/分割性能反而下降。原因在于现有方法是"语义盲"的——全局均匀增强所有区域,无法区分语义焦点(海洋生物、人工物体)和背景(水体),导致分布偏移破坏下游模型所依赖的语义线索。早期语义引导方法依赖高质量像素级标注(在水下场景极为稀缺),全局文本提示(如"a clear underwater photo")虽利用了 VLM 但仍是一刀切策略。

核心问题

如何让水下图像增强具备内容感知能力,在恢复视觉质量的同时保护/增强关键物体的语义特征,使下游机器视觉任务受益?

方法详解

整体框架

三阶段策略:(1) 用 VLM(LLaVA)从退化图像生成关键物体的文本描述 → (2) 用 BLIP 的视觉-文本对齐构建空间语义引导图 M_sem → (3) 通过双重引导机制将 M_sem 注入 UIE 网络的 decoder。

关键设计

  1. 语义引导图生成
  2. 用 LLaVA 自动生成退化图像中关键物体的文本描述 T
  3. 用 BLIP 的视觉编码器 Φ_v 提取 patch 特征 F_v = {f_v1,...,f_vN},文本编码器 Φ_t 提取全局文本特征 f_t
  4. 计算每个 patch 与文本的余弦相似度 s_i = v̂_i^T · t̂
  5. 语义锐化函数 Ψ_sharp:先 min-max 归一化,减去阈值 δ 过滤低相关噪声,再取 γ 次幂(γ>1)非线性放大差异
  6. 上采样至原图分辨率得到单通道引导图 M_sem
  7. 对比了 ViT class attention、CLIP、BLIP 三种方案,BLIP 效果最优(干净、边界清晰、无背景噪声)

  8. Cross-Attention 注入机制

  9. 在 decoder 各阶段 l,decoder 特征 d_l 作为 Query
  10. encoder skip-connection 特征 e_l 经 M_sem 加权后生成 Key 和 Value
  11. M_sem 下采样至对应分辨率 M̃(l),e_l 乘以 M̃(l) 后投影
  12. d_l' = softmax(Q_l · K_l^T / √d_k) · V_l
  13. 使 decoder 优先从语义"高亮"区域提取编码器特征

  14. 显式语义对齐损失 L_align

  15. 对 decoder 第 l 阶段特征图 F(l) 施加双项约束:
  16. 背景抑制项:‖F(l) ⊙ (1 - M̃(l))‖²_F → 惩罚非关键区域的过强激活
  17. 前景增强项:-η⟨F(l), M̃(l)⟩ → 奖励关键物体区域的强响应
  18. η 是平衡超参

损失函数 / 训练策略

  • 总损失:L_total = L_recon + λ_align · Σ_l L_align(l)
  • L_recon = L1(I_e, I_gt) + λ_percep · Σ_j ‖φ_j(I_e) - φ_j(I_gt)‖₁(VGG-19 感知损失)
  • λ_align = 0.1
  • 在 UIEB 训练集(790 对图像)上训练
  • 策略设计为可插拔模块,已在 PUIE、SMDR、UIR、PFormer、FDCE 五个 baseline 上验证

实验关键数据

UIE 感知质量(UIEB 测试集)

方法 PSNR↑ SSIM↑ LPIPS↓
PFormer 23.53 0.877 0.113
PFormer-SS 24.97(+1.44) 0.933(+0.056) 0.087(-0.026)
UIR 22.89 0.885 0.124
UIR-SS 24.62(+1.73) 0.901(+0.016) 0.113(-0.011)

下游任务(检测 mAP / 分割 mIoU)

方法 mAP↑ mIoU↑
原图(无增强) 95.43 68.10
PFormer 95.50 69.34
PFormer-SS 96.87(+1.37) 74.75(+5.41)
SMDR 95.76 68.18
SMDR-SS 96.98(+1.22) 73.51(+5.33)
  • 所有 5 个 baseline 加上 -SS 后 PSNR/SSIM 均提升
  • 分割 mIoU 提升最显著,PFormer-SS 达到 +5.41,SMDR-SS +5.33
  • 某些 baseline 增强后下游性能反而低于原图,但 -SS 版本一致超过原图

消融实验要点

  • 引导图模型对比:BLIP > CLIP > ViT(BLIP 无背景噪声、边界清晰)
  • 注入位置对比:Decoder only > All stages > Encoder only(decoder 阶段直接影响重建过程)
  • 消融验证了 cross-attention 和 alignment loss 二者协同最优

亮点

  • 精准识别了"增强悖论"问题:全局增强破坏语义线索导致下游性能下降
  • VLM→文本→BLIP→空间引导图的管线巧妙地避免了对水下标注数据的依赖
  • 可插拔设计使策略适用于任意 encoder-decoder UIE 架构
  • 双重引导(结构性 cross-attention + 显式 alignment loss)比单一机制更有效
  • 同时评估感知质量和下游任务,实验协议更务实

局限性 / 可改进方向

  • VLM (LLaVA) 和 BLIP 的推理开销较大,影响实时性
  • 语义引导图的质量依赖于 VLM 对退化图像的理解能力,严重退化场景下可能失效
  • 仅在 UIEB 上训练,水下场景多样性有限
  • 锐化函数中 δ 和 γ 的选择可能需要针对不同场景调整
  • 未评估对更多下游任务(如重识别、跟踪)的影响

与相关工作的对比

  • vs 传统 UIE (PUIE/SMDR 等):后者语义盲,本文赋予语义感知能力
  • vs 语义分割引导方法 (Liao/Yan):后者需要高质量像素级标注,本文用 VLM 零标注生成语义先验
  • vs CLIP 风格引导 (Liu et al.):CLIP 提供全局文本引导("清晰的水下照片"),本文构建空间化的目标级语义图
  • vs VINE/Watermark 方向的 VLM 应用:不同任务但都展示 VLM 语义能力在低层视觉中的价值

启发与关联

  • VLM→文本描述→空间引导图的管线可推广到其他退化场景(雾天、低光照)
  • 双重引导机制(architectural guidance + loss supervision)的组合思路有通用性
  • 下游任务感知的增强是图像恢复领域的重要趋势

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将 VLM 空间语义引导引入水下增强,管线设计新颖
  • 实验充分度: ⭐⭐⭐⭐ 5 个 baseline、3 个评估数据集、检测+分割下游评估、消融完整
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,方法逻辑连贯,图表直观
  • 价值: ⭐⭐⭐⭐ 可插拔策略实用性强,对水下视觉和下游感知应用有实际意义