跳转至

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

会议: CVPR 2026
arXiv: 2603.07570
代码: 待确认
领域: RGB-D 场景理解 / 多任务学习 / 全景分割
关键词: multi-task learning, RGB-D fusion, panoptic segmentation, adaptive loss, cross-dimensional guidance

一句话总结

提出一种高效 RGB-D 多任务场景理解网络,通过部分通道卷积融合编码器、归一化焦点通道层(NFCL)、上下文特征交互层(CFIL)和多任务自适应损失,在 NYUv2 上以 20+ FPS 同时完成语义/实例/全景分割、方向估计和场景分类。

背景与动机

机器人场景理解需要同时执行多个视觉任务(语义分割、实例分割、方向估计、场景分类等),现有方法存在三个痛点:(1) 双编码器结构(如 EMSANet)虽能融合 RGB-D,但计算量大、速度慢;(2) Transformer 编码器(如 EMSAFormer 用 Swin v2)矩阵运算密集,内存访问频繁;(3) MLP decoder 结构简单但浅层特征会误导,固定的多任务损失权重无法适应动态场景变化。本文的核心动机是在保持多任务性能的同时大幅提升推理速度。

核心问题

如何设计一个高效的 RGB-D 多任务网络,既能充分融合 RGB 与深度的互补信息,又能自适应地平衡多任务学习?

方法详解

整体框架

网络接受 RGBD 4 通道输入,通过一个融合编码器提取特征后分三支:(1) 场景分类头(全连接层);(2) 语义分割 decoder(MLP + NFCL + CFIL);(3) 实例分割 decoder(non-bottleneck 1D 模块,输出实例中心、偏移和方向)。语义分割提供前景 mask 给实例分割,二者组合形成全景分割。

关键设计

  1. 部分通道融合编码器:基于 FasterNet-M,4 阶段(3/4/18/3 个融合块),每个融合块仅取 1/4 通道做 Conv2D 特征提取,其余 3/4 通道直接拼接。FLOPs 降至完整卷积的 1/16。之后两个 pointwise conv 提取通道关系,并加残差连接。深度权重初始化为 D=(R+G+B)/2 以复用 ImageNet 预训练。

  2. 归一化焦点通道层 (NFCL):放置在语义 decoder 的 skip connection 中(第 1/2/3 层),利用 BN 的可学习缩放因子 γ 作为通道重要性度量。通过 |γᵢ|/Σ|γⱼ| 归一化得到通道权重,乘以特征后经 sigmoid 门控过滤浅层噪声信息。

  3. 上下文特征交互层 (CFIL):弥补 MLP decoder 在局部-全局特征融合上的不足。对 NFCL+conv 输出做 1×1 和 5×5 两种尺度的自适应平均池化,通道压缩至 C/2,上采样后与原始特征拼接,再通过 conv 恢复通道数。

  4. Non-bottleneck 1D 实例 decoder:将 3×3 conv 分解为 3×1 + ReLU + 1×3,参数减少 30%,同时通过非线性激活增强表达力。三层结构,每层包含 3 个 non-bottleneck 1D 模块 + 上采样。

损失函数 / 训练策略

多任务自适应损失:batch 级动态调整各任务权重: - 每 batch 计算各任务相对损失 RL_k = L_k / ΣL_t - 维护历史平均 AvgRL_k,更新权重 W_k = max(W̄_k × (AvgRL_k)^α, W_min) - α=0.01 控制敏感度,W_min=0.1 防止任务被忽略 - 语义分割:cross-entropy;实例中心:MSE;实例偏移:MAE;方向估计:von Mises 分布损失 L_or = 1 - e^{κ(f·t-1)};场景分类:cross-entropy - SGD, lr=0.03, weight decay=1e-4, momentum=0.9, RTX 3090 Ti

实验关键数据

NYUv2

方法 语义 mIoU 实例 PQ 全景 PQ FPS 参数量
EMSAFormer (Swin v2) 49.76 58.49 43.08 16.32 72.08M
本文 49.82 59.90 43.21 20.33 71.82M
  • FPS 20.33,比 EMSAFormer 快 24%,比 MPViT (9.94) 快 2 倍
  • SUN RGB-D: 语义 mIoU 45.56%,超越 CI-Net (44.30%)
  • Cityscapes: 语义 mIoU 65.11%,超越 PSPNet/DeepLab 等

消融实验要点

  • 融合编码器 vs Swin v2:参数更少(71.82M vs 72.08M),速度更快,实例 PQ 58.59 vs 58.49
  • CFIL 放语义 decoder 效果最佳(全景 mIoU 50.16%)
  • NFCL 在第 1/2/3 层最优(mIoU 49.82%),第 4 层编码器特征已充分
  • Non-bottleneck 1D vs Bottleneck:PQ 59.25% vs 57.97%
  • 自适应损失 vs 固定权重:mIoU 46.83→47.72,训练方差更小
  • 调节因子 α=0.01 最优,过大(0.1)或过小均不佳

亮点

  • 部分通道卷积利用通道冗余性以 1/16 FLOPs 实现高效特征提取
  • NFCL 复用 BN 的 γ 参数作为通道重要性度量,零额外开销
  • 多任务自适应损失是 batch 级实时调整,比 epoch 级方法响应更快
  • 从头到尾贯彻"高效"理念,在速度和精度间取得出色平衡

局限性 / 可改进方向

  • 部分通道比例 1/4 固定,可考虑自适应选择
  • 仅在 RGB-D 验证,未扩展到热成像、点云等模态
  • 逐帧处理,未利用视频时序一致性(作者在讨论中承认)
  • 自适应损失中 α 和 W_min 为手动设置
  • 高分辨率输入下的可扩展性未验证

与相关工作的对比

  • vs EMSAFormer:同做 RGB-D 多任务,本文用 CNN 替代 Swin Transformer 实现更快速度和可比精度
  • vs EMSANet:双编码器融合不互补,本文单编码器直接处理 RGBD
  • vs SegFormer:MLP decoder 的局限通过 NFCL+CFIL 弥补
  • vs OneFormer:后者用 task token 联合训练,本文用自适应损失实现类似目标

启发与关联

  • 部分通道卷积思想来自 FasterNet,证明在密集预测任务中同样有效
  • NFCL 与 SENet/NAM 类似但更轻量:直接复用 BN 参数
  • 多任务自适应损失可推广到其他多任务学习场景

评分

  • 新颖性: ⭐⭐⭐ 各组件有一定新意但多为已有技术的整合优化
  • 实验充分度: ⭐⭐⭐⭐ 三个数据集、详尽消融、可视化丰富
  • 写作质量: ⭐⭐⭐ 结构完整但部分描述略显冗余
  • 价值: ⭐⭐⭐⭐ 对机器人场景理解有实用价值,速度精度平衡出色