HFP-SAM: Hierarchical Frequency Prompted SAM for Efficient Marine Animal Segmentation¶

会议: CVPR 2025
arXiv: 2603.12708
代码: GitHub
领域: 分割 / 海洋动物
关键词: SAM 适配, 频率域先验, 点提示生成, Mamba 解码器, 海洋动物分割

一句话总结¶

HFP-SAM 提出分层频率提示的 SAM 框架，通过频率引导适配器（FGA）注入海洋场景信息、频率感知点选择（FPS）自动生成高质量点提示、全视图 Mamba（FVM）高效解码，在四个海洋动物分割数据集上取得 SOTA。

研究背景与动机¶

领域现状：海洋动物分割（MAS）因水下能见度差、光照多变、颗粒物干扰而极具挑战。CNN 方法受限于局部感受野，Transformer 需大规模数据训练，SAM 虽通用但缺少细粒度和频率域感知。
现有痛点：（1）已有 SAM 适配方法（Dual-SAM、MAS-SAM）仅修改编码器/解码器，忽视了提示设计的重要性；（2）海洋场景高频噪声严重，SAM 对噪声敏感导致分割伪影；（3）简单点/框提示在复杂结构海洋生物上效果不佳。
核心矛盾：如何在噪声严重的水下场景中自动生成高质量点提示，并有效利用频率域信息来提升 SAM 分割精度？
切入角度：利用小波变换的频率域先验来同时指导特征适配和提示生成——频率域天然具有抑制噪声、突出边缘的能力。

方法详解¶

整体框架¶

输入海洋图像 → 冻结 SAM backbone + FGA 注入频率域信息 → SAM 生成粗分割掩码 \(M^c\) → FPS 结合频率先验和 \(M^c\) 生成点提示 → 点提示+粗掩码输入 SAM prompt encoder → FVM 解码器输出精细分割掩码。

关键设计¶

频率引导适配器（FGA）:
做什么：在冻结 SAM backbone 的每个 Transformer block 中注入频率域先验
核心思路：对输入图像做 Haar 小波变换（DHWT）得到低频 \(I^{ll}\) 和三个高频子带 \(I^{lh}, I^{hl}, I^{hh}\)，取三个高频子带均值作为频率图 \(M^h\)。用滑动窗口选取响应最高的 top-k 窗口作为频率先验区域 \(P\)，下采样与特征图对齐后逐元素相乘得到频率引导特征 \(\hat{X}_i^f\)
双路注入：频率引导特征 \(\hat{X}_i^f\) 和原始空间特征 \(\hat{X}_i\) 分别经 down-up 线性投影后加到残差连接中
设计动机：频率域先验掩码作为调制信号（而非直接编码频率特征），缩小频率线索与 SAM 预训练空间表示之间的对齐差距
频率感知点选择（FPS）:
做什么：自动生成正/负点提示，无需额外网络
核心思路：在频率图 \(M^h\) 的高响应窗口内采样关键点。每个窗口取频率值最高和最低的各 \(t\) 个点（共 \(2t\) 点），再用粗分割掩码 \(M^c\) 的二值化结果判定正负属性——落在前景区域的为正提示 \(p^+\)，背景区域的为负提示 \(p^-\)
设计动机：频率高响应区域对应图像边缘（目标与背景交界），从此处采样的点比随机采样或最大距离采样更具信息量，且不需要外部 prompt 生成网络
全视图 Mamba（FVM）:
做什么：替代 SAM 简单解码器，同时建模空间和通道的长距离依赖
核心思路：采用 State Space Model (SSM) 作为线性复杂度的全局建模替代方案。沿空间维度扫描捕获长程空间上下文，沿通道维度双向扫描捕获全局通道相关性
设计动机：SAM 原始解码器过于简单导致细节丢失，而 Transformer 解码器计算量大；Mamba 结构在保持全局建模能力的同时具备线性复杂度

实验关键数据¶

数据集与评估¶

MAS3K: 3103 张海洋动物图像（训练 1769 / 测试 1141）
RMAS: 3014 张（训练 2514 / 测试 500）
UFO-120: 1620 张多样水下场景（训练 1500 / 测试 120）
RUWI: 700 张（训练 525 / 测试 175）
评估指标：mIoU, \(S_\alpha\), \(F_\beta^w\), \(mE_\phi\), MAE
训练设备：单卡 RTX 3090，输入 512×512，batch 6，50 epochs，AdamW (lr=0.001)

主实验（MAS3K / RMAS / UFO120 / RUWI）¶

方法	Backbone	MAS3K mIoU	MAS3K MAE↓	RMAS mIoU	UFO120 mIoU	RUWI mIoU
Dual-SAM	ViT-B	0.789	0.023	0.735	0.810	0.900
MAS-SAM	ViT-B	0.788	0.025	0.742	0.807	0.902
SAM2-Adapter	Hiera-L	0.778	0.027	0.650	0.755	0.883
HFP-SAM	ViT-B	0.797	0.024	0.745	0.803	0.904
HFP-SAM2	Hiera-L	0.807	0.022	0.758	0.813	0.913

HFP-SAM2 在四个数据集上全面 SOTA，MAS3K mIoU 0.807、RUWI mIoU 0.913
相比原始 SAM（ViT-B, mIoU 0.566），HFP-SAM 提升 +23.1%
SAM2-Adapter 在 RMAS 上仅 0.650，远落后于 HFP-SAM2 的 0.758，说明通用适配不如领域特化

消融分析（MAS3K）¶

配置	Adapter	FGA	FPS	FVM	mIoU	MAE↓
(A) SAM baseline	✕	✕	✕	✕	0.566	0.059
(B) +标准 Adapter	✓	✕	✕	✕	0.739	0.031
(C) +FGA	✓	✓	✕	✕	0.754	0.030
(D) +FPS	✓	✓	✓	✕	0.771	0.028
(E) +FVM	✓	✓	✓	✓	0.792	0.026
(F) +辅助损失	✓	✓	✓	✓	0.797	0.024

FGA: +1.5% mIoU（频率先验掩码调制 vs 标准空间 adapter）
FPS: +1.7% mIoU（频率感知点采样 vs 无提示）；对比随机采样 0.760、全局采样 0.764，FPS 达 0.771 且耗时仅 9.3ms
FVM: +2.1% mIoU（空间+通道双向 SSM 解码）
FPS 超参数：窗口数=10、窗口大小=32、每窗口采样点=2 为最优配置
正+负提示联合使用（mIoU 0.797）优于仅正提示（0.789）或仅负提示（0.782）

关键发现¶

DHWT 频率域分析能有效过滤海洋场景中的高频噪声，使模型聚焦于目标边缘
点提示的位置和质量对 SAM 分割性能至关重要，频率引导的点选择显著优于启发式方法
Mamba 结构在解码阶段提供全局上下文的同时保持线性复杂度
用 W1 和 MMD-RBF 度量了四个数据集间的 domain shift，表明数据集间差距显著

亮点与洞察¶

频率域三连击：FGA（编码器）→ FPS（提示）→ FVM（解码器）三个组件均利用频率域信息，形成完整的频率感知 pipeline
零额外网络的提示生成：FPS 不引入可学习参数，纯粹基于频率分析和粗掩码生成点提示，轻量高效
先验掩码调制而非频率特征编码：FGA 用频率先验掩码加权空间特征，避免了直接频率编码与 SAM 空间表示的对齐问题

局限性 / 可改进方向¶

仅在海洋动物分割任务上验证，对其他水下任务（如珊瑚/海草分割）或一般场景的泛化性未知
FPS 的窗口大小和 top-k 参数需要手动设定，对不同数据集可能需要调优
FVM 虽然线性复杂度但增加了解码器的参数量和延迟，论文未给出完整的推理速度和参数量对比
频率先验对目标和背景纹理相似的极端伪装场景可能失效
损失函数（加权 BCE + 加权 IoU）设计相对标准，未探索更先进的边界监督策略

评分¶

新颖性: ⭐⭐⭐⭐ 频率域驱动提示生成是新颖且合理的设计
实验充分度: ⭐⭐⭐⭐ 四个数据集、20+ 对比方法、SAM/SAM2 双版本验证
写作质量: ⭐⭐⭐ 公式详尽但部分描述冗长
价值: ⭐⭐⭐ 海洋动物分割领域有用，频率提示思路有一定通用性