Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance¶
会议: CVPR 2026
arXiv: 2603.07570
代码: 待确认
领域: RGB-D 场景理解 / 多任务学习 / 全景分割
关键词: multi-task learning, RGB-D fusion, panoptic segmentation, adaptive loss, cross-dimensional guidance
一句话总结¶
提出一种高效 RGB-D 多任务场景理解网络,通过部分通道卷积融合编码器、归一化焦点通道层(NFCL)、上下文特征交互层(CFIL)和多任务自适应损失,在 NYUv2 上以 20+ FPS 同时完成语义/实例/全景分割、方向估计和场景分类。
背景与动机¶
机器人场景理解需要同时执行多个视觉任务(语义分割、实例分割、方向估计、场景分类等),现有方法存在三个痛点:(1) 双编码器结构(如 EMSANet)虽能融合 RGB-D,但计算量大、速度慢;(2) Transformer 编码器(如 EMSAFormer 用 Swin v2)矩阵运算密集,内存访问频繁;(3) MLP decoder 结构简单但浅层特征会误导,固定的多任务损失权重无法适应动态场景变化。本文的核心动机是在保持多任务性能的同时大幅提升推理速度。
核心问题¶
如何设计一个高效的 RGB-D 多任务网络,既能充分融合 RGB 与深度的互补信息,又能自适应地平衡多任务学习?
方法详解¶
整体框架¶
网络接受 RGBD 4 通道输入,通过一个融合编码器提取特征后分三支:(1) 场景分类头(全连接层);(2) 语义分割 decoder(MLP + NFCL + CFIL);(3) 实例分割 decoder(non-bottleneck 1D 模块,输出实例中心、偏移和方向)。语义分割提供前景 mask 给实例分割,二者组合形成全景分割。
关键设计¶
-
部分通道融合编码器:基于 FasterNet-M,4 阶段(3/4/18/3 个融合块),每个融合块仅取 1/4 通道做 Conv2D 特征提取,其余 3/4 通道直接拼接。FLOPs 降至完整卷积的 1/16。之后两个 pointwise conv 提取通道关系,并加残差连接。深度权重初始化为 D=(R+G+B)/2 以复用 ImageNet 预训练。
-
归一化焦点通道层 (NFCL):放置在语义 decoder 的 skip connection 中(第 1/2/3 层),利用 BN 的可学习缩放因子 γ 作为通道重要性度量。通过 |γᵢ|/Σ|γⱼ| 归一化得到通道权重,乘以特征后经 sigmoid 门控过滤浅层噪声信息。
-
上下文特征交互层 (CFIL):弥补 MLP decoder 在局部-全局特征融合上的不足。对 NFCL+conv 输出做 1×1 和 5×5 两种尺度的自适应平均池化,通道压缩至 C/2,上采样后与原始特征拼接,再通过 conv 恢复通道数。
-
Non-bottleneck 1D 实例 decoder:将 3×3 conv 分解为 3×1 + ReLU + 1×3,参数减少 30%,同时通过非线性激活增强表达力。三层结构,每层包含 3 个 non-bottleneck 1D 模块 + 上采样。
损失函数 / 训练策略¶
多任务自适应损失:batch 级动态调整各任务权重: - 每 batch 计算各任务相对损失 RL_k = L_k / ΣL_t - 维护历史平均 AvgRL_k,更新权重 W_k = max(W̄_k × (AvgRL_k)^α, W_min) - α=0.01 控制敏感度,W_min=0.1 防止任务被忽略 - 语义分割:cross-entropy;实例中心:MSE;实例偏移:MAE;方向估计:von Mises 分布损失 L_or = 1 - e^{κ(f·t-1)};场景分类:cross-entropy - SGD, lr=0.03, weight decay=1e-4, momentum=0.9, RTX 3090 Ti
实验关键数据¶
NYUv2:
| 方法 | 语义 mIoU | 实例 PQ | 全景 PQ | FPS | 参数量 |
|---|---|---|---|---|---|
| EMSAFormer (Swin v2) | 49.76 | 58.49 | 43.08 | 16.32 | 72.08M |
| 本文 | 49.82 | 59.90 | 43.21 | 20.33 | 71.82M |
- FPS 20.33,比 EMSAFormer 快 24%,比 MPViT (9.94) 快 2 倍
- SUN RGB-D: 语义 mIoU 45.56%,超越 CI-Net (44.30%)
- Cityscapes: 语义 mIoU 65.11%,超越 PSPNet/DeepLab 等
消融实验要点¶
- 融合编码器 vs Swin v2:参数更少(71.82M vs 72.08M),速度更快,实例 PQ 58.59 vs 58.49
- CFIL 放语义 decoder 效果最佳(全景 mIoU 50.16%)
- NFCL 在第 1/2/3 层最优(mIoU 49.82%),第 4 层编码器特征已充分
- Non-bottleneck 1D vs Bottleneck:PQ 59.25% vs 57.97%
- 自适应损失 vs 固定权重:mIoU 46.83→47.72,训练方差更小
- 调节因子 α=0.01 最优,过大(0.1)或过小均不佳
亮点¶
- 部分通道卷积利用通道冗余性以 1/16 FLOPs 实现高效特征提取
- NFCL 复用 BN 的 γ 参数作为通道重要性度量,零额外开销
- 多任务自适应损失是 batch 级实时调整,比 epoch 级方法响应更快
- 从头到尾贯彻"高效"理念,在速度和精度间取得出色平衡
局限性 / 可改进方向¶
- 部分通道比例 1/4 固定,可考虑自适应选择
- 仅在 RGB-D 验证,未扩展到热成像、点云等模态
- 逐帧处理,未利用视频时序一致性(作者在讨论中承认)
- 自适应损失中 α 和 W_min 为手动设置
- 高分辨率输入下的可扩展性未验证
与相关工作的对比¶
- vs EMSAFormer:同做 RGB-D 多任务,本文用 CNN 替代 Swin Transformer 实现更快速度和可比精度
- vs EMSANet:双编码器融合不互补,本文单编码器直接处理 RGBD
- vs SegFormer:MLP decoder 的局限通过 NFCL+CFIL 弥补
- vs OneFormer:后者用 task token 联合训练,本文用自适应损失实现类似目标
启发与关联¶
- 部分通道卷积思想来自 FasterNet,证明在密集预测任务中同样有效
- NFCL 与 SENet/NAM 类似但更轻量:直接复用 BN 参数
- 多任务自适应损失可推广到其他多任务学习场景
评分¶
- 新颖性: ⭐⭐⭐ 各组件有一定新意但多为已有技术的整合优化
- 实验充分度: ⭐⭐⭐⭐ 三个数据集、详尽消融、可视化丰富
- 写作质量: ⭐⭐⭐ 结构完整但部分描述略显冗余
- 价值: ⭐⭐⭐⭐ 对机器人场景理解有实用价值,速度精度平衡出色