HFP-SAM: Hierarchical Frequency Prompted SAM for Efficient Marine Animal Segmentation¶
会议: CVPR 2025
arXiv: 2603.12708
代码: GitHub
领域: 分割 / 海洋动物
关键词: SAM 适配, 频率域先验, 点提示生成, Mamba 解码器, 海洋动物分割
一句话总结¶
HFP-SAM 提出分层频率提示的 SAM 框架,通过频率引导适配器(FGA)注入海洋场景信息、频率感知点选择(FPS)自动生成高质量点提示、全视图 Mamba(FVM)高效解码,在四个海洋动物分割数据集上取得 SOTA。
研究背景与动机¶
- 领域现状:海洋动物分割(MAS)因水下能见度差、光照多变、颗粒物干扰而极具挑战。CNN 方法受限于局部感受野,Transformer 需大规模数据训练,SAM 虽通用但缺少细粒度和频率域感知。
- 现有痛点:(1)已有 SAM 适配方法(Dual-SAM、MAS-SAM)仅修改编码器/解码器,忽视了提示设计的重要性;(2)海洋场景高频噪声严重,SAM 对噪声敏感导致分割伪影;(3)简单点/框提示在复杂结构海洋生物上效果不佳。
- 核心矛盾:如何在噪声严重的水下场景中自动生成高质量点提示,并有效利用频率域信息来提升 SAM 分割精度?
- 切入角度:利用小波变换的频率域先验来同时指导特征适配和提示生成——频率域天然具有抑制噪声、突出边缘的能力。
方法详解¶
整体框架¶
输入海洋图像 → 冻结 SAM backbone + FGA 注入频率域信息 → SAM 生成粗分割掩码 \(M^c\) → FPS 结合频率先验和 \(M^c\) 生成点提示 → 点提示+粗掩码输入 SAM prompt encoder → FVM 解码器输出精细分割掩码。
关键设计¶
- 频率引导适配器(FGA):
- 做什么:在冻结 SAM backbone 的每个 Transformer block 中注入频率域先验
- 核心思路:对输入图像做 Haar 小波变换(DHWT)得到低频 \(I^{ll}\) 和三个高频子带 \(I^{lh}, I^{hl}, I^{hh}\),取三个高频子带均值作为频率图 \(M^h\)。用滑动窗口选取响应最高的 top-k 窗口作为频率先验区域 \(P\),下采样与特征图对齐后逐元素相乘得到频率引导特征 \(\hat{X}_i^f\)
- 双路注入:频率引导特征 \(\hat{X}_i^f\) 和原始空间特征 \(\hat{X}_i\) 分别经 down-up 线性投影后加到残差连接中
-
设计动机:频率域先验掩码作为调制信号(而非直接编码频率特征),缩小频率线索与 SAM 预训练空间表示之间的对齐差距
-
频率感知点选择(FPS):
- 做什么:自动生成正/负点提示,无需额外网络
- 核心思路:在频率图 \(M^h\) 的高响应窗口内采样关键点。每个窗口取频率值最高和最低的各 \(t\) 个点(共 \(2t\) 点),再用粗分割掩码 \(M^c\) 的二值化结果判定正负属性——落在前景区域的为正提示 \(p^+\),背景区域的为负提示 \(p^-\)
-
设计动机:频率高响应区域对应图像边缘(目标与背景交界),从此处采样的点比随机采样或最大距离采样更具信息量,且不需要外部 prompt 生成网络
-
全视图 Mamba(FVM):
- 做什么:替代 SAM 简单解码器,同时建模空间和通道的长距离依赖
- 核心思路:采用 State Space Model (SSM) 作为线性复杂度的全局建模替代方案。沿空间维度扫描捕获长程空间上下文,沿通道维度双向扫描捕获全局通道相关性
- 设计动机:SAM 原始解码器过于简单导致细节丢失,而 Transformer 解码器计算量大;Mamba 结构在保持全局建模能力的同时具备线性复杂度
实验关键数据¶
数据集与评估¶
- MAS3K: 3103 张海洋动物图像(训练 1769 / 测试 1141)
- RMAS: 3014 张(训练 2514 / 测试 500)
- UFO-120: 1620 张多样水下场景(训练 1500 / 测试 120)
- RUWI: 700 张(训练 525 / 测试 175)
- 评估指标:mIoU, \(S_\alpha\), \(F_\beta^w\), \(mE_\phi\), MAE
- 训练设备:单卡 RTX 3090,输入 512×512,batch 6,50 epochs,AdamW (lr=0.001)
主实验(MAS3K / RMAS / UFO120 / RUWI)¶
| 方法 | Backbone | MAS3K mIoU | MAS3K MAE↓ | RMAS mIoU | UFO120 mIoU | RUWI mIoU |
|---|---|---|---|---|---|---|
| Dual-SAM | ViT-B | 0.789 | 0.023 | 0.735 | 0.810 | 0.900 |
| MAS-SAM | ViT-B | 0.788 | 0.025 | 0.742 | 0.807 | 0.902 |
| SAM2-Adapter | Hiera-L | 0.778 | 0.027 | 0.650 | 0.755 | 0.883 |
| HFP-SAM | ViT-B | 0.797 | 0.024 | 0.745 | 0.803 | 0.904 |
| HFP-SAM2 | Hiera-L | 0.807 | 0.022 | 0.758 | 0.813 | 0.913 |
- HFP-SAM2 在四个数据集上全面 SOTA,MAS3K mIoU 0.807、RUWI mIoU 0.913
- 相比原始 SAM(ViT-B, mIoU 0.566),HFP-SAM 提升 +23.1%
- SAM2-Adapter 在 RMAS 上仅 0.650,远落后于 HFP-SAM2 的 0.758,说明通用适配不如领域特化
消融分析(MAS3K)¶
| 配置 | Adapter | FGA | FPS | FVM | mIoU | MAE↓ |
|---|---|---|---|---|---|---|
| (A) SAM baseline | ✕ | ✕ | ✕ | ✕ | 0.566 | 0.059 |
| (B) +标准 Adapter | ✓ | ✕ | ✕ | ✕ | 0.739 | 0.031 |
| (C) +FGA | ✓ | ✓ | ✕ | ✕ | 0.754 | 0.030 |
| (D) +FPS | ✓ | ✓ | ✓ | ✕ | 0.771 | 0.028 |
| (E) +FVM | ✓ | ✓ | ✓ | ✓ | 0.792 | 0.026 |
| (F) +辅助损失 | ✓ | ✓ | ✓ | ✓ | 0.797 | 0.024 |
- FGA: +1.5% mIoU(频率先验掩码调制 vs 标准空间 adapter)
- FPS: +1.7% mIoU(频率感知点采样 vs 无提示);对比随机采样 0.760、全局采样 0.764,FPS 达 0.771 且耗时仅 9.3ms
- FVM: +2.1% mIoU(空间+通道双向 SSM 解码)
- FPS 超参数:窗口数=10、窗口大小=32、每窗口采样点=2 为最优配置
- 正+负提示联合使用(mIoU 0.797)优于仅正提示(0.789)或仅负提示(0.782)
关键发现¶
- DHWT 频率域分析能有效过滤海洋场景中的高频噪声,使模型聚焦于目标边缘
- 点提示的位置和质量对 SAM 分割性能至关重要,频率引导的点选择显著优于启发式方法
- Mamba 结构在解码阶段提供全局上下文的同时保持线性复杂度
- 用 W1 和 MMD-RBF 度量了四个数据集间的 domain shift,表明数据集间差距显著
亮点与洞察¶
- 频率域三连击:FGA(编码器)→ FPS(提示)→ FVM(解码器)三个组件均利用频率域信息,形成完整的频率感知 pipeline
- 零额外网络的提示生成:FPS 不引入可学习参数,纯粹基于频率分析和粗掩码生成点提示,轻量高效
- 先验掩码调制而非频率特征编码:FGA 用频率先验掩码加权空间特征,避免了直接频率编码与 SAM 空间表示的对齐问题
局限性 / 可改进方向¶
- 仅在海洋动物分割任务上验证,对其他水下任务(如珊瑚/海草分割)或一般场景的泛化性未知
- FPS 的窗口大小和 top-k 参数需要手动设定,对不同数据集可能需要调优
- FVM 虽然线性复杂度但增加了解码器的参数量和延迟,论文未给出完整的推理速度和参数量对比
- 频率先验对目标和背景纹理相似的极端伪装场景可能失效
- 损失函数(加权 BCE + 加权 IoU)设计相对标准,未探索更先进的边界监督策略
相关工作与启发¶
- vs Dual-SAM: Dual-SAM 主要修改编码器和解码器,HFP-SAM 额外关注提示设计,两者互补
- vs MAS-SAM: MAS-SAM 用 hypermap 融合多层编码特征,HFP-SAM 用频率域引导更直接
- vs SAM2-Adapter: SAM2-Adapter 在 RMAS 上 mIoU 仅 0.650,远低于 HFP-SAM2 的 0.758,说明通用适配不如领域特化
评分¶
- 新颖性: ⭐⭐⭐⭐ 频率域驱动提示生成是新颖且合理的设计
- 实验充分度: ⭐⭐⭐⭐ 四个数据集、20+ 对比方法、SAM/SAM2 双版本验证
- 写作质量: ⭐⭐⭐ 公式详尽但部分描述冗长
- 价值: ⭐⭐⭐ 海洋动物分割领域有用,频率提示思路有一定通用性