RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images¶

会议: CVPR 2026
arXiv: 2603.12215
代码: 无
领域: 目标检测 / 遥感
关键词: 显著性目标检测, 遥感图像, 动态卷积核选择, 小波变换, 区域比例感知

一句话总结¶

提出RDNet，通过区域比例感知机制动态选择不同大小卷积核组合，结合小波域频率匹配上下文增强和跨注意力定位模块，在遥感图像显著性检测三个数据集上全面超越SOTA。

背景与动机¶

遥感图像（ORSI）中的显著性目标检测面临目标尺度变化极大的挑战：小到几个像素的飞机，大到占据大半画面的体育场。现有方法通常采用固定的卷积核组合来提取不同尺度的细节特征，但这种"一刀切"的策略在目标尺度差异悬殊时失效——大卷积核在小目标上会引入过多背景噪声，小卷积核在大目标上又无法捕获完整区域。此外，利用自注意力机制进行特征交互时，全分辨率下的矩阵乘法计算量大，且直接混合高低频信息会稀释目标信息。

核心问题¶

如何根据目标在图像中占据的面积比例，自适应地选择合适的特征提取策略，同时高效地进行多层特征交互以提升遥感图像中的显著性检测精度？

方法详解¶

RDNet的核心思路是"知道目标大概多大，再决定怎么看"。先在高层特征中估计目标区域占整幅图像的比例，然后根据这个比例动态调整低层特征的卷积核组合。

整体框架¶

输入 4×3×384×384 图像，使用 SwinTransformer 提取5层特征 {F1~F5}。高层特征 F4、F5 送入 RPL 模块提取定位信息并估计区域比例；低层特征 F1 送入 DAD 模块在比例引导下动态选择卷积核提取细节；中层特征 F2、F3 送入 FCE 模块通过小波域频率匹配进行上下文增强。三个模块的输出以自底向上的方式融合生成最终显著图。

关键设计¶

RPL（区域比例感知定位模块）: 对高层特征 F4 和 F5 做连续的通道注意力 + 空间注意力交叉操作，实现双向特征优化。同时引入 PG（Proportion Guidance）块：对 F5 做全局平均池化 + 两层FC，预测目标区域比例 FG∈R^{4×1×1×1}，用MSE loss监督使其准确。这个比例信息是整个动态卷积选择的依据。
DAD（动态自适应细节感知模块）: 根据 RPL 输出的区域比例，将目标分为三档：<25%用3种卷积核（小目标少看背景），25%~50%用4种，>50%用5种（1×1到9×9）。双分支设计：下分支做细节提取（多尺度卷积求和），上分支做细节优化（空间注意力加权过滤噪声）。这样不同比例的目标用不同"粒度"的视角来观察。
FCE（频率匹配上下文增强模块）: 对中层特征做离散小波变换（DWT）分解为4个频率分量（LL/LH/HL/HH），在对应频率分量之间做交互（而非直接全分辨率自注意力），计算量降为1/4。交互后用逆小波变换重建，再通过通道+空间注意力过滤噪声。

损失函数 / 训练策略¶

总损失 = BCE + IoU + F-measure + MSE，等权重。前三者监督显著图预测，MSE监督区域比例预测。优化器RMSprop，学习率1e-5，batch size 4。

实验关键数据¶

数据集	指标	RDNet	之前SOTA (GeleNet/ADSTNet)	提升
EORSSD	MAE↓	0.0049	0.0066 (GeleNet)	-25.8%
EORSSD	Fβ↑	0.8563	0.8367 (GeleNet)	+2.3%
EORSSD	Eξ↑	0.9718	0.9678 (GeleNet)	+0.4%
ORSSD	MAE↓	0.0066	0.0083 (GeleNet)	-20.5%
ORSSD	Fβ↑	0.9080	0.8879 (GeleNet)	+2.3%
ORSI-4199	MAE↓	0.0254	0.0266 (GeleNet)	-4.5%
ORSI-4199	Fβ↑	0.8781	0.8711 (GeleNet)	+0.8%

模型复杂度：48.7 GFLOPs，速度 13 FPS（RTX 3090）。

消融实验要点¶

去掉 DAD 模块 MAE 从 0.0049 升至 0.0052，Fβ 从 0.8563 降至 0.8550，说明动态卷积选择有效
去掉 FCE 模块影响最大，MAE 升至 0.0061，说明频率域上下文增强关键
去掉 RPL 模块 MAE 升至 0.0054
不用比例引导（固定卷积核组合）时性能明显下降
SwinTransformer 比 ResNet/VGG/ViT/PVT 等backbone都好，Fβ比ViT高49%
阈值设置 [25%, 50%] 最优，过宽或过窄都降性能

亮点¶

区域比例→卷积核动态选择 是非常直觉且有效的设计思路，根据"目标有多大"来决定"用多大的眼睛看"
小波域频率匹配交互巧妙地将计算量降为全分辨率自注意力的1/4，同时避免高低频信息互相干扰
PG块用MSE loss直接监督比例预测，使动态选择有明确的学习目标而非纯启发式

局限性 / 可改进方向¶

13 FPS 速度偏慢，难以满足实时遥感检测需求
三档比例阈值（25%/50%）是手工设定，可考虑可学习阈值
失败案例显示：极小目标仍然不够好，与背景纹理相似时容易误检（如跑道和操场）
仅在三个遥感SOD数据集上验证，未扩展到自然图像SOD或通用分割任务

与相关工作的对比¶

GeleNet: 也用Transformer做遥感SOD，但采用固定特征提取策略，本文在所有指标上超过它。RDNet的核心优势是动态卷积核选择
ADSTNet: 自适应双流Transformer，Fβ 0.8321 vs RDNet 0.8563，差距主要来自RDNet对不同尺度目标的针对性处理
HFCNet: MAE最接近本文（0.0051 vs 0.0049），但Fβ差距明显（0.7845 vs 0.8563），说明HFCNet在区域完整性上不足

启发与关联¶

区域比例引导的思路可迁移到一般目标检测——在anchor-free检测器中根据预估目标大小动态调整感受野
小波域特征交互的思路可用于多模态融合（如RGB-T），在频率域对齐不同模态的信息
与 freq_fusion_small_target idea 相关：都用频率域分析处理多尺度目标

评分¶

新颖性: ⭐⭐⭐⭐ 区域比例引导动态卷积核选择是有新意的设计，但整体框架仍是encoder-decoder+注意力的套路
实验充分度: ⭐⭐⭐⭐⭐ 21个对比方法、7组消融实验、t-test统计显著性验证，非常充分
写作质量: ⭐⭐⭐ 公式和结构清晰，但部分描述冗余，自引用过多（68篇参考文献中约20篇自引）
价值: ⭐⭐⭐⭐ 在遥感SOD子领域有实际价值，动态卷积核选择的思路有一定通用性