跳转至

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

会议: CVPR 2026
arXiv: 2603.12215
代码: 无
领域: 目标检测 / 遥感
关键词: 显著性目标检测, 遥感图像, 动态卷积核选择, 小波变换, 区域比例感知

一句话总结

提出RDNet,通过区域比例感知机制动态选择不同大小卷积核组合,结合小波域频率匹配上下文增强和跨注意力定位模块,在遥感图像显著性检测三个数据集上全面超越SOTA。

背景与动机

遥感图像(ORSI)中的显著性目标检测面临目标尺度变化极大的挑战:小到几个像素的飞机,大到占据大半画面的体育场。现有方法通常采用固定的卷积核组合来提取不同尺度的细节特征,但这种"一刀切"的策略在目标尺度差异悬殊时失效——大卷积核在小目标上会引入过多背景噪声,小卷积核在大目标上又无法捕获完整区域。此外,利用自注意力机制进行特征交互时,全分辨率下的矩阵乘法计算量大,且直接混合高低频信息会稀释目标信息。

核心问题

如何根据目标在图像中占据的面积比例,自适应地选择合适的特征提取策略,同时高效地进行多层特征交互以提升遥感图像中的显著性检测精度?

方法详解

RDNet的核心思路是"知道目标大概多大,再决定怎么看"。先在高层特征中估计目标区域占整幅图像的比例,然后根据这个比例动态调整低层特征的卷积核组合。

整体框架

输入 4×3×384×384 图像,使用 SwinTransformer 提取5层特征 {F1~F5}。高层特征 F4、F5 送入 RPL 模块提取定位信息并估计区域比例;低层特征 F1 送入 DAD 模块在比例引导下动态选择卷积核提取细节;中层特征 F2、F3 送入 FCE 模块通过小波域频率匹配进行上下文增强。三个模块的输出以自底向上的方式融合生成最终显著图。

关键设计

  1. RPL(区域比例感知定位模块): 对高层特征 F4 和 F5 做连续的通道注意力 + 空间注意力交叉操作,实现双向特征优化。同时引入 PG(Proportion Guidance)块:对 F5 做全局平均池化 + 两层FC,预测目标区域比例 FG∈R^{4×1×1×1},用MSE loss监督使其准确。这个比例信息是整个动态卷积选择的依据。

  2. DAD(动态自适应细节感知模块): 根据 RPL 输出的区域比例,将目标分为三档:<25%用3种卷积核(小目标少看背景),25%~50%用4种,>50%用5种(1×1到9×9)。双分支设计:下分支做细节提取(多尺度卷积求和),上分支做细节优化(空间注意力加权过滤噪声)。这样不同比例的目标用不同"粒度"的视角来观察。

  3. FCE(频率匹配上下文增强模块): 对中层特征做离散小波变换(DWT)分解为4个频率分量(LL/LH/HL/HH),在对应频率分量之间做交互(而非直接全分辨率自注意力),计算量降为1/4。交互后用逆小波变换重建,再通过通道+空间注意力过滤噪声。

损失函数 / 训练策略

总损失 = BCE + IoU + F-measure + MSE,等权重。前三者监督显著图预测,MSE监督区域比例预测。优化器RMSprop,学习率1e-5,batch size 4。

实验关键数据

数据集 指标 RDNet 之前SOTA (GeleNet/ADSTNet) 提升
EORSSD MAE↓ 0.0049 0.0066 (GeleNet) -25.8%
EORSSD Fβ↑ 0.8563 0.8367 (GeleNet) +2.3%
EORSSD Eξ↑ 0.9718 0.9678 (GeleNet) +0.4%
ORSSD MAE↓ 0.0066 0.0083 (GeleNet) -20.5%
ORSSD Fβ↑ 0.9080 0.8879 (GeleNet) +2.3%
ORSI-4199 MAE↓ 0.0254 0.0266 (GeleNet) -4.5%
ORSI-4199 Fβ↑ 0.8781 0.8711 (GeleNet) +0.8%

模型复杂度:48.7 GFLOPs,速度 13 FPS(RTX 3090)。

消融实验要点

  • 去掉 DAD 模块 MAE 从 0.0049 升至 0.0052,Fβ 从 0.8563 降至 0.8550,说明动态卷积选择有效
  • 去掉 FCE 模块影响最大,MAE 升至 0.0061,说明频率域上下文增强关键
  • 去掉 RPL 模块 MAE 升至 0.0054
  • 不用比例引导(固定卷积核组合)时性能明显下降
  • SwinTransformer 比 ResNet/VGG/ViT/PVT 等backbone都好,Fβ比ViT高49%
  • 阈值设置 [25%, 50%] 最优,过宽或过窄都降性能

亮点

  • 区域比例→卷积核动态选择 是非常直觉且有效的设计思路,根据"目标有多大"来决定"用多大的眼睛看"
  • 小波域频率匹配交互巧妙地将计算量降为全分辨率自注意力的1/4,同时避免高低频信息互相干扰
  • PG块用MSE loss直接监督比例预测,使动态选择有明确的学习目标而非纯启发式

局限性 / 可改进方向

  • 13 FPS 速度偏慢,难以满足实时遥感检测需求
  • 三档比例阈值(25%/50%)是手工设定,可考虑可学习阈值
  • 失败案例显示:极小目标仍然不够好,与背景纹理相似时容易误检(如跑道和操场)
  • 仅在三个遥感SOD数据集上验证,未扩展到自然图像SOD或通用分割任务

与相关工作的对比

  • GeleNet: 也用Transformer做遥感SOD,但采用固定特征提取策略,本文在所有指标上超过它。RDNet的核心优势是动态卷积核选择
  • ADSTNet: 自适应双流Transformer,Fβ 0.8321 vs RDNet 0.8563,差距主要来自RDNet对不同尺度目标的针对性处理
  • HFCNet: MAE最接近本文(0.0051 vs 0.0049),但Fβ差距明显(0.7845 vs 0.8563),说明HFCNet在区域完整性上不足

启发与关联

  • 区域比例引导的思路可迁移到一般目标检测——在anchor-free检测器中根据预估目标大小动态调整感受野
  • 小波域特征交互的思路可用于多模态融合(如RGB-T),在频率域对齐不同模态的信息
  • freq_fusion_small_target idea 相关:都用频率域分析处理多尺度目标

评分

  • 新颖性: ⭐⭐⭐⭐ 区域比例引导动态卷积核选择是有新意的设计,但整体框架仍是encoder-decoder+注意力的套路
  • 实验充分度: ⭐⭐⭐⭐⭐ 21个对比方法、7组消融实验、t-test统计显著性验证,非常充分
  • 写作质量: ⭐⭐⭐ 公式和结构清晰,但部分描述冗余,自引用过多(68篇参考文献中约20篇自引)
  • 价值: ⭐⭐⭐⭐ 在遥感SOD子领域有实际价值,动态卷积核选择的思路有一定通用性