Empowering Semantic-Sensitive Underwater Image Enhancement with VLM¶

会议: AAAI2026
arXiv: 2603.12773
代码: 待确认
领域: segmentation
关键词: Underwater Image Enhancement, Vision-Language Model, Semantic Guidance, Cross-Attention, Downstream Tasks

一句话总结¶

利用 VLM 生成空间语义引导图，通过 cross-attention 注入和语义对齐损失的双重引导机制，赋予水下图像增强网络语义感知能力，使增强结果同时有利于人类感知和下游检测/分割任务。

背景与动机¶

水下图像增强（UIE）是海洋探索、水下机器人等领域的关键前处理步骤。当前基于深度学习的 UIE 方法虽然能产生视觉上令人满意的图像，但存在一个根本矛盾：感知质量的提升并不能一致地转化为下游任务（检测、分割）的性能提升。这是因为现有方法本质上是"语义盲"的——它们追求全局均匀增强，无法区分语义焦点区域（如海洋生物、水下物体）和非焦点区域（如水体背景），导致增强过程中引入分布偏移或隐性伪影，破坏了对下游模型至关重要的语义线索。

此前的解决方案存在明显不足： - 基于语义分割图的方法：依赖像素级标注数据，水下场景中此类标注极度稀缺 - 基于全局文本提示的方法（如用 CLIP 做风格引导）：虽利用了 VLM 能力，但仍是"一刀切"策略，不关注图像内具体语义内容

核心问题¶

如何让 UIE 模型在增强过程中感知并聚焦关键语义区域，使增强结果既在视觉上更优，又能保留对下游机器视觉任务有利的语义特征？

方法详解¶

整体框架¶

该方法是一个即插即用的语义敏感学习策略（标记为 -SS），可适配多种编码器-解码器结构的 UIE 基线模型。核心流程分三步：

1. 语义引导图生成¶

输入退化水下图像 $I_d$，通过 LLaVA（VLM）生成图像中关键物体的文本描述 $T$
利用预训练的 BLIP 模型的视觉编码器 $\Phi_v$ 和文本编码器 $\Phi_t$ 分别提取 patch 特征 $F_v \in \mathbb{R}^{N \times C}$ 和全局文本特征 $f_t \in \mathbb{R}^C$
计算每个 patch 与文本的余弦相似度 $s_i = \hat{\mathbf{v}}_i^\top \hat{\mathbf{t}}$
通过语义锐化函数处理相似度分布：$s_i' = (\max(0, \mathcal{N}(s_i) - \delta))^\gamma$，其中 $\delta$ 为阈值过滤低响应噪声，$\gamma > 1$ 为幂律系数非线性放大分数差距
将一维分数序列上采样到原图尺寸，得到语义引导图 $M_{sem} \in \mathbb{R}^{H \times W}$

选择 BLIP 而非 CLIP 或 ViT 的原因：消融实验表明 BLIP 基于融合的对齐策略生成的热力图最干净、边界最锐利、空间精度最高，而 CLIP 容易在背景区域产生虚假激活，ViT 的类注意力图过于粗糙。

2. Cross-Attention 注入机制（结构引导）¶

在 UIE 网络解码器的各阶段 $l$： - 解码器特征 $d_l$ 作为 Query $Q_l$ - 编码器跳跃连接特征 $e_l$ 经 $M_{sem}$（下采样至对应分辨率 $\tilde{M}^{(l)}$）逐元素加权后，投影为 Key $K_l$ 和 Value $V_l$ - 标准注意力计算：$d_l' = \text{softmax}(\frac{Q_l K_l^\top}{\sqrt{d_k}}) V_l$ - 该设计使解码器优先从语义"高亮"的编码器特征中提取信息

3. 显式语义对齐损失（特征监督）¶

对解码器第 $l$ 阶段的特征图 $\mathbf{F}^{(l)}$，设计两项损失： - 背景抑制项：$\|\mathbf{F}^{(l)} \odot (1 - \tilde{M}^{(l)})\|_F^2$ — 惩罚非关键区域的不必要强激活 - 前景增强项：$-\eta \langle \mathbf{F}^{(l)}, \tilde{M}^{(l)} \rangle$ — 奖励与语义引导图一致的强响应

总损失函数¶

$$\mathcal{L}_{total} = \mathcal{L}_{recon} + \lambda_{align} \sum_{l \in L} \mathcal{L}_{align}^{(l)}$$ 其中 $\mathcal{L}_{recon}$ 由 L1 损失和基于 VGG-19 的感知损失组成，$\lambda_{align}$ 经验设为 0.1。

实验关键数据¶

UIE 感知质量（UIEB 数据集，全参考）¶

方法	PSNR↑	SSIM↑	LPIPS↓
PFormer	23.53	0.877	0.113
PFormer-SS	24.97(+1.44)	0.933(+0.056)	0.087(-0.026)
FDCE	23.66	0.909	0.111
FDCE-SS	24.63(+0.97)	0.927(+0.018)	0.093(-0.018)
UIR-SS	24.62(+1.73)	0.901	0.113

五个基线模型添加 -SS 后在 PSNR 和 SSIM 上全部提升。

下游任务——目标检测（Trash-ICRA19）¶

方法	mAP↑
SMDR	95.76
SMDR-SS	96.98(+1.22)
FDCE	95.72
FDCE-SS	97.01(+1.29)

下游任务——语义分割（SUIM）¶

方法	mIoU↑
PFormer	69.34
PFormer-SS	74.75(+5.41)
SMDR	68.18
SMDR-SS	73.51(+5.33)
PUIE	66.20
PUIE-SS	70.80(+4.60)

语义分割的提升尤为显著，mIoU 普遍提升 2-5 个百分点，某些类别（如 RO）提升高达 15 个百分点。

消融实验关键结论¶

引导图注入位置：仅解码器 > 编码器+解码器 > 仅编码器，验证了在重建阶段注入语义引导最有效
VLM 选择：BLIP > CLIP > ViT，BLIP 的融合对齐策略生成的引导图质量最高

亮点¶

即插即用设计：策略可无缝集成到任意编码器-解码器结构的 UIE 模型，五个不同基线均获得一致提升
双重引导机制：cross-attention 提供隐式结构引导 + 语义对齐损失提供显式特征监督，互为补充
弥合感知-认知鸿沟：首次系统性地用 VLM 驱动的语义理解来解决水下增强"好看不好用"的问题
语义锐化函数设计：通过阈值+幂律变换组合，将平滑的相似度分布转为高对比度引导图

局限性 / 可改进方向¶

推理开销：需要 LLaVA 生成文本描述 + BLIP 计算对齐，推理时可能显著增加延迟，论文未讨论计算成本
VLM 依赖：引导图质量完全取决于 VLM 对退化图像的理解能力，严重退化场景下 VLM 可能描述不准确
训练数据规模有限：UIEB 仅 790 张训练图，更大规模数据集的表现未验证
无参考指标提升有限：在 U45 和 Challenge60 上的 UIQM/UCIQE 提升幅度不如全参考指标显著
下游任务仍有波动：个别类别（如 FV、RI）偶尔出现轻微下降，语义引导并非完全稳定

与相关工作的对比¶

vs 传统语义分割引导（Wu et al. 2023）：本文用 VLM 替代像素级标注，避免了水下场景标注稀缺的问题
vs CLIP 全局文本引导（Liu et al. 2024）：本文从全局风格引导升级为空间级逐 patch 的语义引导，实现内容感知的细粒度处理
vs 联合训练方案（Yu et al. 2023）：本文的即插即用策略不需要为特定下游任务定制模型，通用性更强

启发与关联¶

该策略的核心思想——用 VLM 生成空间语义先验引导低层视觉任务——具有广泛迁移潜力，可应用于去雾、去雨、低光增强等任务
语义锐化函数的设计对 VLM 引导图后处理有参考价值
双重引导（结构+监督）的注入范式可推广到其他需要先验引导的图像恢复任务

评分¶

新颖性: 7/10 — VLM 驱动的空间语义引导思路新颖，但 cross-attention 注入机制本身较常规
实验充分度: 8/10 — 五个基线 + 三个 UIE 数据集 + 两个下游任务 + 消融实验，覆盖全面
写作质量: 8/10 — 动机阐述清晰，实验组织系统
价值: 7/10 — 即插即用的实用性强，对水下视觉社区有价值，但计算成本分析缺失影响实际部署评估