跳转至

HFP-SAM: Hierarchical Frequency Prompted SAM for Efficient Marine Animal Segmentation

会议: CVPR 2025
arXiv: 2603.12708
代码: GitHub
领域: 分割 / 海洋动物
关键词: SAM 适配, 频率域先验, 点提示生成, Mamba 解码器, 海洋动物分割

一句话总结

HFP-SAM 提出分层频率提示的 SAM 框架,通过频率引导适配器(FGA)注入海洋场景信息、频率感知点选择(FPS)自动生成高质量点提示、全视图 Mamba(FVM)高效解码,在四个海洋动物分割数据集上取得 SOTA。

研究背景与动机

  1. 领域现状:海洋动物分割(MAS)因水下能见度差、光照多变、颗粒物干扰而极具挑战。CNN 方法受限于局部感受野,Transformer 需大规模数据训练,SAM 虽通用但缺少细粒度和频率域感知。
  2. 现有痛点:(1)已有 SAM 适配方法(Dual-SAM、MAS-SAM)仅修改编码器/解码器,忽视了提示设计的重要性;(2)海洋场景高频噪声严重,SAM 对噪声敏感导致分割伪影;(3)简单点/框提示在复杂结构海洋生物上效果不佳。
  3. 核心矛盾:如何在噪声严重的水下场景中自动生成高质量点提示,并有效利用频率域信息来提升 SAM 分割精度?
  4. 切入角度:利用小波变换的频率域先验来同时指导特征适配和提示生成——频率域天然具有抑制噪声、突出边缘的能力。

方法详解

整体框架

输入海洋图像 → 冻结 SAM backbone + FGA 注入频率域信息 → SAM 生成粗分割掩码 \(M^c\) → FPS 结合频率先验和 \(M^c\) 生成点提示 → 点提示+粗掩码输入 SAM prompt encoder → FVM 解码器输出精细分割掩码。

关键设计

  1. 频率引导适配器(FGA):
  2. 做什么:在冻结 SAM backbone 的每个 Transformer block 中注入频率域先验
  3. 核心思路:对输入图像做 Haar 小波变换(DHWT)得到低频 \(I^{ll}\) 和三个高频子带 \(I^{lh}, I^{hl}, I^{hh}\),取三个高频子带均值作为频率图 \(M^h\)。用滑动窗口选取响应最高的 top-k 窗口作为频率先验区域 \(P\),下采样与特征图对齐后逐元素相乘得到频率引导特征 \(\hat{X}_i^f\)
  4. 双路注入:频率引导特征 \(\hat{X}_i^f\) 和原始空间特征 \(\hat{X}_i\) 分别经 down-up 线性投影后加到残差连接中
  5. 设计动机:频率域先验掩码作为调制信号(而非直接编码频率特征),缩小频率线索与 SAM 预训练空间表示之间的对齐差距

  6. 频率感知点选择(FPS):

  7. 做什么:自动生成正/负点提示,无需额外网络
  8. 核心思路:在频率图 \(M^h\) 的高响应窗口内采样关键点。每个窗口取频率值最高和最低的各 \(t\) 个点(共 \(2t\) 点),再用粗分割掩码 \(M^c\) 的二值化结果判定正负属性——落在前景区域的为正提示 \(p^+\),背景区域的为负提示 \(p^-\)
  9. 设计动机:频率高响应区域对应图像边缘(目标与背景交界),从此处采样的点比随机采样或最大距离采样更具信息量,且不需要外部 prompt 生成网络

  10. 全视图 Mamba(FVM):

  11. 做什么:替代 SAM 简单解码器,同时建模空间和通道的长距离依赖
  12. 核心思路:采用 State Space Model (SSM) 作为线性复杂度的全局建模替代方案。沿空间维度扫描捕获长程空间上下文,沿通道维度双向扫描捕获全局通道相关性
  13. 设计动机:SAM 原始解码器过于简单导致细节丢失,而 Transformer 解码器计算量大;Mamba 结构在保持全局建模能力的同时具备线性复杂度

实验关键数据

数据集与评估

  • MAS3K: 3103 张海洋动物图像(训练 1769 / 测试 1141)
  • RMAS: 3014 张(训练 2514 / 测试 500)
  • UFO-120: 1620 张多样水下场景(训练 1500 / 测试 120)
  • RUWI: 700 张(训练 525 / 测试 175)
  • 评估指标:mIoU, \(S_\alpha\), \(F_\beta^w\), \(mE_\phi\), MAE
  • 训练设备:单卡 RTX 3090,输入 512×512,batch 6,50 epochs,AdamW (lr=0.001)

主实验(MAS3K / RMAS / UFO120 / RUWI)

方法 Backbone MAS3K mIoU MAS3K MAE↓ RMAS mIoU UFO120 mIoU RUWI mIoU
Dual-SAM ViT-B 0.789 0.023 0.735 0.810 0.900
MAS-SAM ViT-B 0.788 0.025 0.742 0.807 0.902
SAM2-Adapter Hiera-L 0.778 0.027 0.650 0.755 0.883
HFP-SAM ViT-B 0.797 0.024 0.745 0.803 0.904
HFP-SAM2 Hiera-L 0.807 0.022 0.758 0.813 0.913
  • HFP-SAM2 在四个数据集上全面 SOTA,MAS3K mIoU 0.807、RUWI mIoU 0.913
  • 相比原始 SAM(ViT-B, mIoU 0.566),HFP-SAM 提升 +23.1%
  • SAM2-Adapter 在 RMAS 上仅 0.650,远落后于 HFP-SAM2 的 0.758,说明通用适配不如领域特化

消融分析(MAS3K)

配置 Adapter FGA FPS FVM mIoU MAE↓
(A) SAM baseline 0.566 0.059
(B) +标准 Adapter 0.739 0.031
(C) +FGA 0.754 0.030
(D) +FPS 0.771 0.028
(E) +FVM 0.792 0.026
(F) +辅助损失 0.797 0.024
  • FGA: +1.5% mIoU(频率先验掩码调制 vs 标准空间 adapter)
  • FPS: +1.7% mIoU(频率感知点采样 vs 无提示);对比随机采样 0.760、全局采样 0.764,FPS 达 0.771 且耗时仅 9.3ms
  • FVM: +2.1% mIoU(空间+通道双向 SSM 解码)
  • FPS 超参数:窗口数=10、窗口大小=32、每窗口采样点=2 为最优配置
  • 正+负提示联合使用(mIoU 0.797)优于仅正提示(0.789)或仅负提示(0.782)

关键发现

  • DHWT 频率域分析能有效过滤海洋场景中的高频噪声,使模型聚焦于目标边缘
  • 点提示的位置和质量对 SAM 分割性能至关重要,频率引导的点选择显著优于启发式方法
  • Mamba 结构在解码阶段提供全局上下文的同时保持线性复杂度
  • 用 W1 和 MMD-RBF 度量了四个数据集间的 domain shift,表明数据集间差距显著

亮点与洞察

  • 频率域三连击:FGA(编码器)→ FPS(提示)→ FVM(解码器)三个组件均利用频率域信息,形成完整的频率感知 pipeline
  • 零额外网络的提示生成:FPS 不引入可学习参数,纯粹基于频率分析和粗掩码生成点提示,轻量高效
  • 先验掩码调制而非频率特征编码:FGA 用频率先验掩码加权空间特征,避免了直接频率编码与 SAM 空间表示的对齐问题

局限性 / 可改进方向

  • 仅在海洋动物分割任务上验证,对其他水下任务(如珊瑚/海草分割)或一般场景的泛化性未知
  • FPS 的窗口大小和 top-k 参数需要手动设定,对不同数据集可能需要调优
  • FVM 虽然线性复杂度但增加了解码器的参数量和延迟,论文未给出完整的推理速度和参数量对比
  • 频率先验对目标和背景纹理相似的极端伪装场景可能失效
  • 损失函数(加权 BCE + 加权 IoU)设计相对标准,未探索更先进的边界监督策略

相关工作与启发

  • vs Dual-SAM: Dual-SAM 主要修改编码器和解码器,HFP-SAM 额外关注提示设计,两者互补
  • vs MAS-SAM: MAS-SAM 用 hypermap 融合多层编码特征,HFP-SAM 用频率域引导更直接
  • vs SAM2-Adapter: SAM2-Adapter 在 RMAS 上 mIoU 仅 0.650,远低于 HFP-SAM2 的 0.758,说明通用适配不如领域特化

评分

  • 新颖性: ⭐⭐⭐⭐ 频率域驱动提示生成是新颖且合理的设计
  • 实验充分度: ⭐⭐⭐⭐ 四个数据集、20+ 对比方法、SAM/SAM2 双版本验证
  • 写作质量: ⭐⭐⭐ 公式详尽但部分描述冗长
  • 价值: ⭐⭐⭐ 海洋动物分割领域有用,频率提示思路有一定通用性