跳转至

RSONet: Region-guided Selective Optimization Network for RGB-T Salient Object Detection

会议: CVPR 2026
arXiv: 2603.12685
代码: 无
领域: 目标检测 / RGB-T显著性检测
关键词: RGB-T显著性检测, 模态选择, 区域引导, 选择性优化, SwinTransformer

一句话总结

提出RSONet两阶段RGB-T显著性检测框架:先通过三分支并行编码器生成区域引导图并基于相似度比较选择主导模态,再通过选择性优化模块融合双模态特征,在VT5000/VT1000/VT821上MAE达0.020/0.014/0.021,超越27个SOTA方法。

背景与动机

RGB图像在复杂背景/低对比度场景下检测困难,热红外图像提供互补信息但也可能因环境条件退化。现有RGB-T融合方法(加法/乘法/拼接/注意力)隐式假设两个模态同等重要,当模态间信息差异大时会引入大量噪声。

核心问题

RGB和热红外图像中显著区域分布不一致——一个模态可能包含准确目标信息而另一个被噪声/背景主导。需要自适应判断哪个模态更可靠,有选择地融合。

方法详解

整体框架

两阶段设计:(1)区域引导阶段——RGB/Thermal/RGB+T三个并行编码器-解码器分支(共享SwinTransformer backbone)各生成引导图,计算相似度分数选择主导模态;(2)显著性生成阶段——选择性优化(SO)模块融合主导模态特征,DDE解码器处理低层细节,MIS解码器处理高层语义。

关键设计

  1. 上下文交互(CI)+空间感知融合(SF)+相似度计算: CI用层自适应卷积核(低层1×1~7×7,高层只用1×1/3×3),SF通过全局max pooling+1×1 conv+sigmoid生成空间权重。相似度比较:\(|M_R - M_{RT}|\) vs \(|M_T - M_{RT}|\),差异更小的模态为主导模态。

  2. 选择性优化(SO)模块: 双模态特征先乘加\(G_{RT}\)增强。各做通道注意力(1×1 conv→GAP→sigmoid)。主导模态的空间注意力施加到非主导模态特征上,再求和得融合输出。

  3. DDE(密集细节增强)+MIS(互交互语义): DDE用4分支空洞卷积(d=1,3,5,7)做密集连接+4个VSS块处理低层特征;MIS用3主分支×3子分支(d=1,2,3)的互交互结构处理高层特征。

损失函数 / 训练策略

BCE + boundary IoU + F-measure损失,5个显著图深监督。SwinTransformer ImageNet预训练,RMSprop (lr=1e-4),384×384输入,单卡RTX 4080。

实验关键数据

数据集 MAE↓ Fβ↑ Eξ↑ Sα↑
VT5000 0.020 0.910 0.926 0.963
VT1000 0.014 0.923 0.946 0.972
VT821 0.021 0.883 0.921 0.946

vs PATNet(KBS24): VT5000 Fβ +3.4%, Eξ +1.2% vs ContriNet(TPAMI25): VT5000 Fβ +3.6%, Sα +2.4%

速度: ~8.8 FPS (101.3M参数),远慢于CGFNet 52.3 FPS。

消融实验要点

  • SO模块替换为简单加法/乘法/拼接:MAE从0.0197升至0.0208-0.0217
  • 去掉相似度引导的模态选择(固定R→T或T→R):MAE升至0.0215,Fβ降至0.8896
  • DDE和MIS互补——同时去掉MAE升至0.0217
  • SwinTransformer远优于ResNet系列(Fβ 0.9071 vs 0.7965-0.8146)

亮点

  • 自适应模态选择思路——根据每张图片的实际情况选择主导模态而非等权融合
  • 层自适应卷积核设计巧妙——低层大感受野+高层小感受野适配特征特性
  • 27个对比方法的全面评估

局限性 / 可改进方向

  • 8.8 FPS速度过慢,三分支并行编码器开销大
  • 相似度计算过于简单(全图像素值求和比较),无法捕获空间分布差异
  • 极小/细对象和双模态同时退化时失效

与相关工作的对比

  • SAMSOD: SAM-based RGB-T SOD,通过梯度去冲突处理模态不平衡,VT5000 MAE 0.021 vs 本文0.020
  • Samba(CVPR25): 纯Mamba框架,VT5000 Fβ 0.894 vs 本文0.910
  • ContriNet(TPAMI25): 三流分治汇流设计,VT5000 Fβ 0.878 vs 本文0.910

启发与关联

  • 模态选择策略可推广到任何多模态融合任务——不一定等权融合
  • VSS块在低层特征的细节增强中表现好,值得在其他dense prediction任务中尝试

评分

  • 新颖性: ⭐⭐⭐⭐ 区域引导模态选择有新意,但整体还是encoder-decoder+注意力套路
  • 实验充分度: ⭐⭐⭐⭐⭐ 27个对比方法、3个数据集、4个指标、多维度消融
  • 写作质量: ⭐⭐⭐ 方法描述详细但结构较复杂
  • 价值: ⭐⭐⭐⭐ 在RGB-T SOD子领域有实用价值