RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images¶
会议: CVPR 2026
arXiv: 2603.12215
代码: 无
领域: 目标检测 / 遥感
关键词: 显著性目标检测, 遥感图像, 动态卷积核选择, 小波变换, 区域比例感知
一句话总结¶
提出RDNet,通过区域比例感知机制动态选择不同大小卷积核组合,结合小波域频率匹配上下文增强和跨注意力定位模块,在遥感图像显著性检测三个数据集上全面超越SOTA。
背景与动机¶
遥感图像(ORSI)中的显著性目标检测面临目标尺度变化极大的挑战:小到几个像素的飞机,大到占据大半画面的体育场。现有方法通常采用固定的卷积核组合来提取不同尺度的细节特征,但这种"一刀切"的策略在目标尺度差异悬殊时失效——大卷积核在小目标上会引入过多背景噪声,小卷积核在大目标上又无法捕获完整区域。此外,利用自注意力机制进行特征交互时,全分辨率下的矩阵乘法计算量大,且直接混合高低频信息会稀释目标信息。
核心问题¶
如何根据目标在图像中占据的面积比例,自适应地选择合适的特征提取策略,同时高效地进行多层特征交互以提升遥感图像中的显著性检测精度?
方法详解¶
RDNet的核心思路是"知道目标大概多大,再决定怎么看"。先在高层特征中估计目标区域占整幅图像的比例,然后根据这个比例动态调整低层特征的卷积核组合。
整体框架¶
输入 4×3×384×384 图像,使用 SwinTransformer 提取5层特征 {F1~F5}。高层特征 F4、F5 送入 RPL 模块提取定位信息并估计区域比例;低层特征 F1 送入 DAD 模块在比例引导下动态选择卷积核提取细节;中层特征 F2、F3 送入 FCE 模块通过小波域频率匹配进行上下文增强。三个模块的输出以自底向上的方式融合生成最终显著图。
关键设计¶
-
RPL(区域比例感知定位模块): 对高层特征 F4 和 F5 做连续的通道注意力 + 空间注意力交叉操作,实现双向特征优化。同时引入 PG(Proportion Guidance)块:对 F5 做全局平均池化 + 两层FC,预测目标区域比例 FG∈R^{4×1×1×1},用MSE loss监督使其准确。这个比例信息是整个动态卷积选择的依据。
-
DAD(动态自适应细节感知模块): 根据 RPL 输出的区域比例,将目标分为三档:<25%用3种卷积核(小目标少看背景),25%~50%用4种,>50%用5种(1×1到9×9)。双分支设计:下分支做细节提取(多尺度卷积求和),上分支做细节优化(空间注意力加权过滤噪声)。这样不同比例的目标用不同"粒度"的视角来观察。
-
FCE(频率匹配上下文增强模块): 对中层特征做离散小波变换(DWT)分解为4个频率分量(LL/LH/HL/HH),在对应频率分量之间做交互(而非直接全分辨率自注意力),计算量降为1/4。交互后用逆小波变换重建,再通过通道+空间注意力过滤噪声。
损失函数 / 训练策略¶
总损失 = BCE + IoU + F-measure + MSE,等权重。前三者监督显著图预测,MSE监督区域比例预测。优化器RMSprop,学习率1e-5,batch size 4。
实验关键数据¶
| 数据集 | 指标 | RDNet | 之前SOTA (GeleNet/ADSTNet) | 提升 |
|---|---|---|---|---|
| EORSSD | MAE↓ | 0.0049 | 0.0066 (GeleNet) | -25.8% |
| EORSSD | Fβ↑ | 0.8563 | 0.8367 (GeleNet) | +2.3% |
| EORSSD | Eξ↑ | 0.9718 | 0.9678 (GeleNet) | +0.4% |
| ORSSD | MAE↓ | 0.0066 | 0.0083 (GeleNet) | -20.5% |
| ORSSD | Fβ↑ | 0.9080 | 0.8879 (GeleNet) | +2.3% |
| ORSI-4199 | MAE↓ | 0.0254 | 0.0266 (GeleNet) | -4.5% |
| ORSI-4199 | Fβ↑ | 0.8781 | 0.8711 (GeleNet) | +0.8% |
模型复杂度:48.7 GFLOPs,速度 13 FPS(RTX 3090)。
消融实验要点¶
- 去掉 DAD 模块 MAE 从 0.0049 升至 0.0052,Fβ 从 0.8563 降至 0.8550,说明动态卷积选择有效
- 去掉 FCE 模块影响最大,MAE 升至 0.0061,说明频率域上下文增强关键
- 去掉 RPL 模块 MAE 升至 0.0054
- 不用比例引导(固定卷积核组合)时性能明显下降
- SwinTransformer 比 ResNet/VGG/ViT/PVT 等backbone都好,Fβ比ViT高49%
- 阈值设置 [25%, 50%] 最优,过宽或过窄都降性能
亮点¶
- 区域比例→卷积核动态选择 是非常直觉且有效的设计思路,根据"目标有多大"来决定"用多大的眼睛看"
- 小波域频率匹配交互巧妙地将计算量降为全分辨率自注意力的1/4,同时避免高低频信息互相干扰
- PG块用MSE loss直接监督比例预测,使动态选择有明确的学习目标而非纯启发式
局限性 / 可改进方向¶
- 13 FPS 速度偏慢,难以满足实时遥感检测需求
- 三档比例阈值(25%/50%)是手工设定,可考虑可学习阈值
- 失败案例显示:极小目标仍然不够好,与背景纹理相似时容易误检(如跑道和操场)
- 仅在三个遥感SOD数据集上验证,未扩展到自然图像SOD或通用分割任务
与相关工作的对比¶
- GeleNet: 也用Transformer做遥感SOD,但采用固定特征提取策略,本文在所有指标上超过它。RDNet的核心优势是动态卷积核选择
- ADSTNet: 自适应双流Transformer,Fβ 0.8321 vs RDNet 0.8563,差距主要来自RDNet对不同尺度目标的针对性处理
- HFCNet: MAE最接近本文(0.0051 vs 0.0049),但Fβ差距明显(0.7845 vs 0.8563),说明HFCNet在区域完整性上不足
启发与关联¶
- 区域比例引导的思路可迁移到一般目标检测——在anchor-free检测器中根据预估目标大小动态调整感受野
- 小波域特征交互的思路可用于多模态融合(如RGB-T),在频率域对齐不同模态的信息
- 与 freq_fusion_small_target idea 相关:都用频率域分析处理多尺度目标
评分¶
- 新颖性: ⭐⭐⭐⭐ 区域比例引导动态卷积核选择是有新意的设计,但整体框架仍是encoder-decoder+注意力的套路
- 实验充分度: ⭐⭐⭐⭐⭐ 21个对比方法、7组消融实验、t-test统计显著性验证,非常充分
- 写作质量: ⭐⭐⭐ 公式和结构清晰,但部分描述冗余,自引用过多(68篇参考文献中约20篇自引)
- 价值: ⭐⭐⭐⭐ 在遥感SOD子领域有实际价值,动态卷积核选择的思路有一定通用性