Empowering DINO Representations for Underwater Instance Segmentation via Aligner and Prompter¶

会议: AAAI2026
arXiv: 2511.08334
代码: ettof/Diveseg
领域: segmentation
关键词: underwater instance segmentation, DINOv2, domain adaptation, Fourier style transfer, foundation model fine-tuning

一句话总结¶

首次将 DINOv2 引入水下实例分割任务，通过 AquaStyle Aligner（傅里叶频域风格注入）和 ObjectPrior Prompter（二值掩码先验提示）两个模块实现高效领域适配，在 UIIS 和 USIS10K 数据集上以更少参数大幅超越 SAM 基方法。

背景与动机¶

水下实例分割（Underwater Instance Segmentation, UIS）需要同时完成像素级分类和实例级区分，是海洋探索、生态监测和水下机器人导航的核心技术。水下图像面临独特挑战：

光吸收与散射：长波光被水吸收，导致图像呈蓝绿色调偏移
前向散射造成模糊，后向散射降低能见度
退化效果不均匀且依赖深度，实例外观变化大

早期 CNN 方法（如 WaterMask）受限于表征能力；SAM 基方法（USIS-SAM）虽引入视觉基础模型，但依赖大规模水下标注数据且改善有限。DINOv2 通过自监督学习获得任务无关的通用特征，泛化能力强，在标注数据稀缺的水下场景更有优势。然而 PCA 可视化表明，直接迁移 DINOv2 到水下任务时特征受背景噪声影响严重，且可能漏检目标。

核心问题¶

如何从两个层面高效适配 DINOv2 到水下场景：

场景级适配：消除水下色彩偏移与预训练域的不对齐
目标级适配：使模型泛化到珊瑚、水母、海龟等在 LVD-142M 预训练数据中罕见的水下目标

方法详解¶

整体框架 DiveSeg¶

基于冻结的 DINOv2 ViT-L 骨干网络 + Mask2Former 分割头，外加两个核心适配模块。ViT 层被均分为四个块，每块第一层插入 AquaStyle Aligner，每块之后插入 ObjectPrior Prompter。

AquaStyle Aligner（水下风格对齐器）¶

目标：从场景层面消除水下色彩域偏移。

Style Extraction（风格提取）：

对输入图像做 Fourier 变换，分离振幅分量（包含低层统计特征，如色彩信息）和相位分量（包含内容/结构信息）
将相位固定为平均值，仅保留振幅信息，通过逆 Fourier 变换重建"风格图像"——去除了目标内容仅保留水下色彩特征
用多层卷积 + 全局平均池化将风格图像编码为紧凑的风格向量 \(p_x\)

Style Injection（风格注入）：

作为 ViT 中 Multi-head Attention 的并行分支，使用交叉注意力机制：ViT 特征作 query，风格向量经 MLP 后作 key/value
交叉注意力的输出与原 MHA 输出相加：\(\omega_1 = MHA(V_{in}) + CrossAttn(V_{in}, MLP(p_x))\)
在后续 Feed-Forward 层同样并行一个 bottleneck MLP 结构做更深层的特征融合
MHA 和 FF 的所有原始参数冻结，仅训练注入模块的参数

ObjectPrior Prompter（目标先验提示器）¶

目标：从目标层面提供实例无关的前景先验，降低直接学习实例分割的难度。

多尺度编码器：三层卷积提取特征，步长为 2 下采样，输出三尺度特征金字塔 \(\{f_M^1, f_M^2, f_M^3\}\)（分辨率 1/8², 1/16², 1/32²）。

伪掩码生成：各尺度特征经 1×1 卷积 + Sigmoid 生成伪掩码 \(P_{mask}^k\)，由二值前景掩码（ground truth 合并所有实例得到）监督。

特征增强：伪掩码与原始特征逐元素相乘过滤前景，再通过卷积和残差连接融合：\(f_{MT}^k = Conv(P_{mask}^k \cdot f_M^k) + f_M^k\)

先验注入：多尺度增强特征展平拼接为 \(O_{prompt}\)，通过交叉注意力与 ViT 特征交互（\(O_{prompt}\) 作 key/value，ViT 特征作 query），输出与原始 ViT 特征相加后送入解码器。

训练设置¶

骨干：DINOv2 ViT-L（冻结）
解码头：Mask2Former
优化器：AdamW，weight decay 0.05，初始 lr 1e-4，warmup
30,000 次迭代，在第 23,000 和 27,000 次衰减 lr 至 1/10
损失：分类损失 + 掩码损失（Mask2Former）+ BCE + IoU + L1 损失（伪掩码）
硬件：NVIDIA A100，batch size 8

实验关键数据¶

UIIS 数据集（7类，3937 训练 / 691 测试）¶

方法	骨干	参数量	mAP	AP50	AP75
WaterMask	ResNet-101	67M	27.2	43.7	29.3
USIS-SAM	ViT-H	701M	29.4	45.0	32.3
DiveSeg	ViT-L	390M	35.6	52.0	38.5

相比 USIS-SAM：mAP +21.1%，AP50 +15.6%，AP75 +19.2%，且参数量仅为其 55.6%。

USIS10K 数据集（class-agnostic / multi-class）¶

方法	class-agnostic mAP	multi-class mAP
USIS-SAM (ViT-H, 701M)	59.7	43.1
DiveSeg (ViT-L, 390M)	64.1	48.4

消融实验¶

配置	mAP	AP50	AP75
DINOv2 + Mask2Former（baseline）	30.9	44.6	32.2
+ AquaStyle Aligner	34.1	50.8	37.8
+ ObjectPrior Prompter	34.8	50.6	37.6
完整模型	35.6	52.0	38.5

适配策略对比（替代 AquaStyle Aligner）¶

策略	mAP
Frozen（不适配）	30.9
Full Fine-tuning	31.1
LoRA	31.8
Adapter	32.7
AquaStyle Aligner	34.1

Full Fine-tuning 效果差可能因灾难性遗忘；AquaStyle Aligner 通过显式建模水下风格信息，优于通用参数高效微调策略。

亮点¶

首次将 DINOv2 引入水下实例分割，证明自监督预训练基础模型可高效适配水下场景
AquaStyle Aligner 设计精巧：利用 Fourier 频域分解捕捉水下色彩特征，通过交叉注意力注入 ViT，物理直觉清晰
ObjectPrior Prompter 思路巧妙：将实例分割解耦为"前景感知 → 实例区分"两阶段，降低学习难度
参数效率极高：仅 390M 参数（ViT-L）超越 701M 参数的 USIS-SAM（ViT-H），且大部分参数冻结
定性结果显示在阴影中鱼群分割、重叠实例区分、误分类纠正等困难场景均有明显优势

局限性 / 可改进方向¶

仅在 UIIS 和 USIS10K 两个数据集上验证，水下场景多样性有限
ObjectPrior Prompter 训练时依赖 ground truth 合并的二值掩码，推理时使用预测伪掩码，预测质量直接影响最终效果
仅使用 ViT-L，未探索 ViT-B（更轻量）或 ViT-G（更强）的扩展性
未讨论推理速度和实时性，对水下机器人等实时应用场景的适用性存疑
风格提取依赖全局平均相位，不同深度/水域条件下风格变化可能更复杂

与相关工作的对比¶

维度	WaterMask	USIS-SAM	DiveSeg
基础模型	CNN (ResNet)	SAM (ViT-H)	DINOv2 (ViT-L)
参数量	67M	701M	390M
预训练方式	监督	监督（掩码标注）	自监督
域适配策略	专用模块	LoRA + Adapter	风格注入 + 先验提示
核心思路	端到端学习	提示工程	双层适配（场景+目标）

启发与关联¶

Fourier 频域风格迁移的思路可推广到其他域适配场景（如医学图像、遥感图像），其核心洞察是振幅包含域相关的低层统计特征
解耦适配策略（场景级 + 目标级）是一种通用的基础模型迁移范式，可用于其他领域特定的分割任务
ObjectPrior Prompter 的先验注入方式与 SAM 的 prompt engineering 形成互补思路：前者学习隐式先验，后者需显式设计 prompt
在基础模型时代，参数高效微调 + 领域知识注入的组合可能是小数据域迁移的最佳实践

评分¶

新颖性: 4/5（首次引入 DINOv2 到 UIS，两个模块设计有洞察力）
实验充分度: 4/5（两个数据集、充分消融、多策略对比，但缺速度分析）
写作质量: 4/5（结构清晰，动机阐述充分）
价值: 4/5（为水下视觉领域提供了强基线，迁移思路有通用性）