G2HFNet: GeoGran-Aware Hierarchical Feature Fusion Network for Salient Object Detection in Optical Remote Sensing Images¶

会议: CVPR 2025
arXiv: 2603.12680
代码: 待确认
领域: 图像分割 / 遥感 / 显著性检测
关键词: 显著性目标检测, 光学遥感图像, 多尺度细节增强, 双分支几何-粒度互补, 层级特征融合

一句话总结¶

提出 G2HFNet，通过多尺度细节增强 (MDE)、双分支几何-粒度互补 (DGC)、深层语义感知 (DSP) 和局部-全局引导融合 (LGF) 四个模块，针对不同层级特征设计差异化优化策略，在三个遥感显著性检测数据集上全面超越 SOTA。

研究背景与动机¶

1. 领域背景¶

显著性目标检测 (SOD) 旨在模拟人类快速识别图像中关键目标的能力，是像素级二分类任务。随着遥感图像高精度分析需求增长，SOD 已从自然场景拓展到光学遥感图像 (ORSI)。

2. 现有方法的不足¶

单尺度特征提取问题：现有方法通常在单一尺度上用统一注意力机制提取多层级特征，无法有效处理遥感图像中显著的尺度变化
统一优化策略问题：编码器得到的多层级特征包含不同类型信息（高层关注位置、低层关注细节），但大多数方法对所有层级采用相同优化策略
中层特征利用不足：部分方法虽设计了针对性模块，但忽略了中层特征同时包含细节和位置信息的事实

3. 关键挑战¶

遥感图像由俯视视角拍摄，目标尺度变化剧烈（从极小目标到大面积湖泊），背景复杂且对比度低，直接迁移自然图像方法效果大幅下降。

4. 核心思路¶

对不同层级特征设计差异化优化模块：低层用 MDE 增强多尺度细节，中层用 DGC 联合捕获细节和位置信息，高层用 DSP 优化位置线索，最后用 LGF 进行层级特征融合。

5. 前人尝试与局限¶

Zhou et al. 通过压缩图像尺度应对尺度变化，但不可避免地导致信息丢失
Li et al. 设计三个专用模块提取不同特征，但忽略了中层特征中的细节和位置信息

6. 解决方案概述¶

提出 G2HFNet，以 Swin Transformer 为骨干，集成 MDE、DGC、DSP、LGF 四个关键模块，全面挖掘遥感图像中的几何和粒度线索。

方法详解¶

整体框架¶

输入图像 (4×3×384×384) 经 Swin Transformer 提取五层级特征 {F_i}，低层 (F1, F2) 送入 MDE 增强细节，中层 (F3, F4) 送入 DGC 互补几何与粒度信息，高层 (F5) 送入 DSP 优化位置线索，最后通过 LGF 逐层融合生成检测结果。

关键设计一：多尺度细节增强模块 (MDE)¶

做什么：处理低层特征，捕获不同尺度下的细粒度细节
核心思路：采用四个简化 U-Net 分支（不同卷积核大小 2i-1），通过下采样-上采样进行显式尺度变换，再用金字塔空间注意力和金字塔通道注意力块优化特征
设计动机：ASPP-like 结构直接在单尺度特征上操作无法有效学习不同尺度目标的细节；U-Net 结构使特征经过显式尺度变换，能捕获更丰富的跨尺度细节
关键创新：金字塔空间注意力使用 pixel unshuffle（因子 1/2/4/6）代替平均池化进行多尺度采样，避免信息损失；金字塔通道注意力通过维度变换将通道维映射为空间形式再做多尺度操作

关键设计二：双分支几何-粒度互补模块 (DGC)¶

做什么：处理中层特征，同时提取细节和位置信息
核心思路：粒度分支用级联不同核大小的卷积层渐进提取多尺度细节；几何分支用 pixel unshuffle 进行多尺度特征采样后通过自注意力增强位置线索；两者通过几何-粒度交互块融合
设计动机：中层特征同时蕴含细节和位置信息，单一交叉注意力无法充分利用；粒度分支的级联设计使小感受野信息逐步传入大感受野分支，增强细节提取
交互块设计：将两分支特征拼接后经 1×1 卷积+sigmoid 生成权重图 W，通过 W 分别加权两分支实现互增强

关键设计三：深层语义感知模块 (DSP)¶

做什么：优化高层特征中的位置线索
核心思路：对第五层特征 (64×12×12) 直接施加自注意力机制 (Q/K/V 投影 + 矩阵乘)，建模长距离空间依赖
设计动机：高层特征已包含可靠位置线索，遥感图像中目标可能出现在任意位置，自注意力可捕获全局空间关系

关键设计四：局部-全局引导融合模块 (LGF)¶

做什么：替代传统 3×3 卷积实现多层级特征融合
核心思路：分为局部引导（门控卷积增强细节结构）和全局引导（高层特征引导低层特征聚焦目标区域）两阶段
设计动机：传统 U-Net 解码器仅用单个卷积层传递信息，引导力不足

损失函数¶

组合损失 = BCE 损失 + Boundary IoU 损失 + F-measure 损失，对五个显著性预测进行联合深度监督。

实验关键数据¶

主实验：与 18 种 SOTA 方法比较 (Table I)¶

数据集	指标	Ours	次优方法	提升
EORSSD	M↓	0.0041	0.0051 (HFCNet)	-19.6%
EORSSD	Fβ↑	0.8808	0.8092 (CorrNet)	+8.9%
EORSSD	Eξ↑	0.9807	0.9533 (CorrNet)	+2.9%
ORSSD	M↓	0.0056	0.0073 (HFCNet)	-23.3%
ORSSD	Fβ↑	0.9147	0.8808 (MCCNet)	+3.8%
ORSSD	Eξ↑	0.9868	0.9741 (MCCNet)	+1.3%
ORSI-4199	M↓	0.0242	0.0270 (HFCNet)	-10.4%
ORSI-4199	Fβ↑	0.8862	0.8550 (MCCNet)	+3.6%
ORSI-4199	Eξ↑	0.9557	0.9432 (ICON)	+1.3%

消融实验 (Table IV-IX)¶

消融内容	M↓	Fβ↑	Eξ↑
w/o MDE	0.0059	0.8724	0.9708
w/o DGC	0.0054	0.8734	0.9782
w/o DSP	0.0047	0.8682	0.9763
w/o LGF	0.0051	0.8554	0.9701
完整模型	0.0041	0.8808	0.9807

关键发现¶

四个模块均有效：移除任何模块都导致性能下降，其中 MDE 对 M 指标影响最大（+39.0%），LGF 对 Fβ 影响最大
MDE 中 U-Net 结构和金字塔注意力缺一不可：移除 U-Net (w/o U) 或金字塔注意力 (w/o PA)，M 分别升至 0.0057 和 0.0058
DGC 双分支互补有效：移除几何分支 (w/o Geo) M 升至 0.0052，移除粒度分支 (w/o Gran) M 升至 0.0057
Unshuffle 因子越多越好：从 1 个因子到 4 个因子 (1-2-4-6)，M 从 0.0052 降至 0.0041
Swin Transformer 显著优于 CNN 骨干：比 ResNet-34 高 11.3% Fβ，比 VGG-16 高 15.2% Fβ
模型复杂度适中：95.1M 参数，94.1G FLOPs，18.3 FPS，三个模块复杂度互补（MDE 20.5G, DGC 16.3G, DSP 5.3G）

亮点与洞察¶

差异化层级优化是核心创新：低层增强细节、中层互补几何粒度、高层优化位置，比统一处理策略更合理
Pixel unshuffle 替代池化进行多尺度特征采样，在压缩空间尺度的同时完整保留信息，避免常规下采样的信息损失
DGC 的级联粒度提取设计巧妙：小感受野信息逐步注入大感受野分支，实现渐进式细节增强
在大目标、窄目标、多小目标、低对比度四类困难场景中均展现出明显优势

局限性 / 可改进方向¶

推理速度仅 18.3 FPS，模块设计较复杂，实时性有待提升
四个子模块设计较独立且重复使用类似注意力机制，可探索更轻量的统一框架
仅在三个遥感 SOD 数据集上验证，未测试自然场景泛化能力
深度监督对五层预测均施加相同损失权重，可探索自适应加权策略

评分¶

新颖性: ⭐⭐⭐⭐ (差异化层级优化思路新颖，pixel unshuffle 多尺度采样有创意，但整体仍是模块堆叠范式)
实验充分度: ⭐⭐⭐⭐⭐ (三个数据集全面对比 18 种方法，消融实验非常详尽，包含模块/组件/损失/骨干/unshuffle因子六组消融)
写作质量: ⭐⭐⭐⭐ (结构清晰，模块描述详细，公式严谨，可视化分析充分)
价值: ⭐⭐⭐⭐ (在遥感 SOD 任务上取得显著 SOTA，差异化层级优化思路对其他分层特征融合任务有启发)