跳转至

Empowering Semantic-Sensitive Underwater Image Enhancement with VLM

会议: CVPR 2026 arXiv: 2603.12773 代码: 无 领域: 分割 关键词: 水下图像增强, 语义引导, VLM, 跨注意力, 下游任务感知

一句话总结

提出一种利用 VLM 生成语义引导图的即插即用策略(-SS),通过交叉注意力注入和语义对齐损失的双重引导机制,使水下图像增强模型在恢复时聚焦语义关键区域,显著提升感知质量和下游检测/分割性能。

研究背景与动机

水下图像增强(UIE)是海洋探索、生物监测等领域的关键预处理步骤。现有深度学习方法在视觉质量指标上取得显著进步,但存在一个根本矛盾:增强效果好 ≠ 下游任务表现好

核心痛点:现有 UIE 方法是"语义盲"的——它们追求全局均匀增强,无法区分语义焦点(如海洋生物、文物)和非焦点(如背景水体),导致引入的分布偏移反而损害下游检测/分割模型的性能。早期语义引导方法依赖像素级标注(水下场景极度匮乏),而基于 VLM 的全局文本提示(如"a clear underwater photo")仍是 one-size-fits-all 策略,无法实现细粒度的内容感知增强。

切入角度:利用 VLM 的开放世界理解能力,自动生成图像内容相关的文本描述,再通过文本-图像对齐模型将语义映射回空间位置,生成像素级的语义引导图。这个引导图通过双重机制注入增强网络的解码器,让网络"知道该重点恢复什么"。

方法详解

整体框架

三阶段流水线:(1) VLM(LLaVA)从退化图像生成关键对象文本描述 → (2) 文本-图像对齐模型(BLIP)生成空间语义引导图 \(M_{sem}\) → (3) 通过交叉注意力+对齐损失将引导图注入 UIE 网络解码器。设计为即插即用模块,可适配任意编码器-解码器结构的 UIE 模型。

关键设计

  1. 语义引导图生成: 用 BLIP 的视觉编码器提取 patch 特征 \(F_v \in \mathbb{R}^{N \times C}\),文本编码器提取全局文本特征 \(f_t \in \mathbb{R}^C\)。计算每个 patch 与文本的余弦相似度 \(s_i = \hat{\mathbf{v}}_i^\top \hat{\mathbf{t}}\),然后通过语义锐化函数增强区分度: $\(s'_i = \Psi_{\text{sharp}}(s_i; \gamma, \delta) = (\max(0, \mathcal{N}(s_i) - \delta))^\gamma\)$ 其中 \(\delta\) 是阈值滤除低相关噪声,\(\gamma > 1\) 非线性扩大分数差距。将 1D 分数序列上采样到原图尺寸得到 \(M_{sem}\)。锐化的设计动机是原始相似度分布过于平滑,无法提供明确的引导信号。

  2. 交叉注意力注入机制: 在解码器每个阶段 \(l\),将 \(M_{sem}\) 下采样到对应分辨率 \(\tilde{M}^{(l)}\),用其逐元素加权编码器跳连特征 \(e_l\),生成 Key 和 Value;解码器特征 \(d_l\) 作为 Query: $\(d'_l = \text{softmax}\left(\frac{Q_l K_l^\top}{\sqrt{d_k}}\right) V_l\)$ 这使解码器优先从语义"照亮"的编码器特征中提取信息,实现结构性引导。

  3. 显式语义对齐损失: 交叉注意力的引导是隐式的,额外引入显式监督信号 \(\mathcal{L}_{\text{align}}\),直接约束解码器中间特征图的空间分布与引导图对齐: $\(\mathcal{L}_{\text{align}}^{(l)} = \underbrace{\|\mathbf{F}^{(l)} \odot (1-\tilde{M}^{(l)})\|_F^2}_{\text{背景抑制}} - \underbrace{\eta \langle \mathbf{F}^{(l)}, \tilde{M}^{(l)} \rangle}_{\text{前景增强}}\)$ 背景抑制项惩罚非关键区域的强激活,前景增强项奖励关键区域的响应与引导图一致。

损失函数 / 训练策略

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{recon}} + \lambda_{\text{align}} \sum_{l \in L} \mathcal{L}_{\text{align}}^{(l)}\]
  • 重建损失:L1 损失 + VGG-19 感知损失
  • 语义对齐损失:\(\lambda_{\text{align}} = 0.1\)
  • 在 5 个不同 baseline(PUIE、SMDR、UIR、PFormer、FDCE)上验证通用性

实验关键数据

主实验(感知质量,UIEB 数据集)

方法 PSNR ↑ SSIM ↑ LPIPS ↓ 提升
PFormer 23.53 0.877 0.113 -
PFormer-SS 24.97 0.933 0.087 +1.44/+0.056/-0.026
UIR 22.89 0.885 0.124 -
UIR-SS 24.62 0.901 0.113 +1.73/+0.016/-0.011
FDCE 23.66 0.909 0.111 -
FDCE-SS 24.63 0.927 0.093 +0.97/+0.018/-0.018

下游任务提升(检测 mAP / 分割 mIoU)

方法 mAP ↑ 分割 mIoU ↑ 说明
PFormer 95.50 69.34 baseline
PFormer-SS 96.87 (+1.37) 74.75 (+5.41) 分割提升显著
SMDR 95.76 68.18 baseline
SMDR-SS 96.98 (+1.22) 73.51 (+5.33) 全面提升
PUIE 95.40 66.20 baseline
PUIE-SS 96.28 (+0.88) 70.80 (+4.60) mIoU 提升 4.6

关键发现

  • 全面提升:-SS 策略在所有 5 个 baseline 上均提升了感知质量和下游任务性能
  • 分割提升尤为显著:mIoU 提升 2.58~5.41,说明语义引导有效保留了关键对象的结构信息
  • PFormer-SS 中 RO(机器人)类别 IoU 从 36.23 大幅提升至 51.52(+15.29),说明语义引导对低对比度小目标帮助最大

亮点与洞察

  • 即插即用设计:不修改 baseline 网络结构,仅在解码器中注入引导模块+添加辅助损失,实际应用价值高
  • 隐式+显式双重引导:交叉注意力提供结构性引导(改变信息流),对齐损失提供直接监督(约束特征分布),两者互补
  • 利用 VLM 避免标注瓶颈:不需要像素级语义标注,通过 VLM+CLIP 的零样本能力自动生成语义引导,解决水下场景标注匮乏问题
  • 揭示了一个重要问题:UIE 领域的"增强悖论"——视觉质量好的增强结果可能对机器理解有害

局限性 / 可改进方向

  • 依赖 VLM(LLaVA)和 CLIP(BLIP)的质量,若退化严重导致 VLM 识别失败则引导图不可靠
  • 训练时增加了 VLM+BLIP 的前向传播开销(虽然推理时语义图可预计算缓存)
  • 仅在水下场景验证,雾天、低光照等其他退化场景的泛化性未知
  • 语义锐化的超参数(\(\gamma\), \(\delta\))可能需要针对不同场景调优

相关工作与启发

  • 与 CLIP 作为全局风格判别器的方法不同,本文将 VLM+CLIP 用于生成空间位置级的细粒度语义引导
  • 对齐损失的前景增强/背景抑制设计思路可推广到其他需要空间注意力引导的任务
  • 为"任务导向增强"提供了一个通用范式:不追求视觉最优,而是追求下游任务最优

评分

  • 新颖性: ⭐⭐⭐⭐ VLM 驱动的语义引导+双重注入机制有新意,但整体思路较直观
  • 实验充分度: ⭐⭐⭐⭐⭐ 5 个 baseline、3 个 UIE 数据集、2 个下游任务,验证非常全面
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法图示好,结构流畅
  • 价值: ⭐⭐⭐⭐ 作为即插即用模块实用性强,揭示的增强悖论有启发意义

评分

  • 新颖性: 待评
  • 实验充分度: 待评
  • 写作质量: 待评
  • 价值: 待评