跳转至

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

会议: CVPR2026
arXiv: 2603.07570
代码: 暂未开源
领域: 语义分割 / 全景分割 / 多任务学习
关键词: RGB-D 场景理解, 多任务自适应学习, 跨维度特征引导, 全景分割, 融合编码器

一句话总结

提出一种高效 RGB-D 多任务场景理解网络,通过改进的融合编码器利用通道冗余加速特征提取,设计归一化聚焦通道层(NFCL)和上下文特征交互层(CFIL)进行跨维度特征引导,并引入批级别多任务自适应损失函数动态调整各任务学习权重,在 NYUv2/SUN RGB-D/Cityscapes 上同时完成语义分割、实例分割、朝向估计、全景分割和场景分类五项任务,取得精度与速度的双重优势。

背景与动机

  1. 单任务局限:传统场景理解方法多聚焦单一任务,无法让机器人全面感知环境;多任务学习通过信息共享可实现协同优化,但任务间复杂度差异大、固定学习策略难以适应。
  2. 双编码器效率低:EMSANet 等方法用双编码器分别处理 RGB/Depth,未充分融合互补信息;EMSAFormer 用单一 Swin Transformer 联合提取,但矩阵计算量大、内存访问频繁,推理速度受限。
  3. 浅层特征误导 MLP 解码器:基于 MLP 的轻量语义解码器结构简单、推理快,但编码器浅层的噪声和错误信息容易误导 MLP,影响局部细节表达。
  4. 局部-全局融合不足:MLP 解码器擅长全局特征映射,但对局部信息和多尺度上下文的融合能力不足,导致复杂场景中边界分割不准。
  5. 实例解码器参数效率问题:Bottleneck 结构通过降维减少参数但损失特征多样性;深度可分离卷积内存访问频繁影响速度;需要在参数效率与非线性表达之间取得更好平衡。
  6. 固定损失权重不适应动态场景:现有多任务学习方法要么随机分配权重导致不稳定,要么仅基于首批数据调整缺乏实时性,无法随训练过程动态适配任务重要性变化。

方法详解

整体框架

网络由三部分组成:改进的融合编码器(处理 RGBD 4 通道输入)、语义解码器(含 NFCL + CFIL)、实例解码器(non-bottleneck 1D 架构)。语义分割提供前景掩码,实例分割生成实例中心和偏移,两者结合实现全景分割。场景分类由全连接层完成。训练时使用多任务自适应损失函数。

高效融合编码器

  • 采用 4 阶段结构,每阶段用 4×4 卷积进行通道扩展和下采样,后接多个融合块
  • 阶段 1-4 分别包含 3, 4, 18, 3 个融合块
  • 核心思想:利用通道间特征的高相似性,仅对 1/4 通道做卷积提取,再拼接剩余通道,FLOPs 降至常规卷积的 1/16
  • 两个逐点卷积提取通道关系,先扩展再恢复通道数,加残差连接
  • ImageNet 预训练权重复用:将 RGB 三通道权重求和作为深度通道权重 D = (R+G+B)/2
  • 基于 FasterNet-M 骨干,减少内存访问换取推理速度提升

归一化聚焦通道层(NFCL)

  • 目标:增强编码器浅层特征在通道维度的表达,缓解浅层噪声对 MLP 的误导
  • 通过 BN 的缩放因子 γ 的绝对值归一化得到通道权重:\(W_i = |\gamma_i| / \sum_j |\gamma_j|\)
  • 将特征重排为 B×H×W×C,逐像素乘以通道权重,再经 Sigmoid 激活与原始输入逐像素相乘
  • 放置在语义解码器跳连的第 1、2、3 层(第 4 层编码器特征已足够好,无需额外引导)

上下文特征交互层(CFIL)

  • 目标:弥补 MLP 解码器在局部-全局信息融合上的不足
  • 对输入特征做自适应平均池化(1×1 和 5×5 两种尺度)提取多尺度上下文
  • 卷积层将通道从 C 压缩至 C/2,双线性插值上采样统一分辨率
  • 拼接多尺度特征与原始输入,再通过卷积恢复至原始通道维度
  • 放置在语义解码器的多层特征融合阶段

Non-bottleneck 1D 实例解码器

  • 将 3×3 二维卷积分解为 3×1 和 1×3 两个一维卷积,中间插入 ReLU 激活
  • 核大小为 3 时参数量减少 30%,同时增强非线性决策能力
  • 实例解码器 3 层结构,每层 3×3 卷积 + 3 个 non-bottleneck 1D 模块 + 上采样
  • 输出实例中心、像素偏移和原始朝向,每层加金字塔监督

多任务自适应损失函数

  • 每个 batch 结束时计算各任务的相对损失:\(RL_k = L_k / \sum_t L_t\)
  • 维护历史相对损失的均值:\(AvgRL_k = \sum_i RL_k^{(i)} / n_k\)
  • 动态更新权重:\(W_k = \max(\bar{W}_k \times (AvgRL_k)^\alpha, W_{min})\)
  • 调节因子 α = 0.01(微调),最小阈值 \(W_{min} = 0.1\)(防止任务被忽略)
  • 各任务损失:语义分割用交叉熵、实例中心用 MSE、实例偏移用 MAE、朝向估计用余弦-正弦概率分布损失、场景分类用交叉熵

实验关键数据

NYUv2 数据集 SOTA 对比

方法 模态 骨干 Semantic mIoU
EMSAFormer RGB-D Swin v2 49.76
MMANet RGB-D R34-NBt1D 49.62
Malleable 2.5D RGB-D ResNet50 49.70
Ours RGB-D FasterNet-M 49.82

多数据集语义 mIoU 汇总

数据集 EMSAFormer Ours 提升
NYUv2 49.76 49.82 +0.06
SUN RGB-D 44.13 45.56 +1.43
Cityscapes 60.76 65.11 +4.35

模型复杂度对比

方法 参数量 FLOPs FPS 显存
EMSAFormer (Swin v2) 72.08M 50.66G 16.32 3188 MiB
MPViT 92.76M 235.24G 9.94 5266 MiB
Ours 71.82M 75.28G 20.33 3293 MiB

消融实验(NYUv2)

  • 融合编码器 → Instance PQ 58.59(相比 Swin v2 baseline 速度大幅提升)
  • +自适应损失 → Instance PQ 59.37,6 项指标提升
  • +CFIL → Semantic mIoU 49.72(+2.0),8 项指标提升
  • +NFCL → Panoptic PQ 43.21,全模型最终 Semantic mIoU 49.82, Instance PQ 59.90
  • 调节因子对比:α=0.01 时 panoptic PQ 最优(41.81),过大(0.1)反而不稳定
  • CFIL 放置位置:语义解码器效果最佳(panoptic mIoU 50.16)
  • NFCL 放置层数:第 1/2/3 层最优(semantic mIoU 49.82),第 4 层特征已充分不需引导

亮点

  1. 通道冗余利用:仅对 1/4 通道卷积即可有效特征提取,FLOPs 降至 1/16,思路简洁高效
  2. BN γ 作为通道注意力:无需额外参数、无 SE 模块开销,利用已有 BN 层的学习参数获取通道重要性
  3. 批级别实时自适应损失:相比 epoch 级或随机权重,每个 batch 都动态调整,训练更稳定收敛更快
  4. 统一框架五任务:语义分割、实例分割、朝向估计、全景分割、场景分类在一个网络中完成
  5. 速度优势明显:71.82M 参数、20.33 FPS,超过 Swin v2 的 16.32 FPS,适合机器人部署

局限性 / 可改进方向

  1. 精度提升有限:NYUv2 上 semantic mIoU 仅比 EMSAFormer 高 0.06,优势不明显
  2. 高分辨率可扩展性:当前实现难以处理超高分辨率图像/视频,计算复杂度随分辨率增长
  3. 深度传感器噪声假设理想:模型假设 RGB-D 输入已标定且无噪声,消费级深度传感器的反射、透明表面、边界稀疏等问题未处理
  4. 无时序一致性:逐帧独立处理,不考虑视频流的时序连贯性,动态场景中可能出现分割闪烁
  5. 融合编码器仅用 1/4 通道:虽然 FLOPs 降低但可能丢失部分通道间的细粒度交互信息
  6. 未探索更多模态:如热成像、点云等,限制了在多样化环境中的鲁棒性

与相关工作的对比

  • vs EMSAFormer:替换 Swin v2 为 FasterNet-M 融合编码器,参数更少(71.82M vs 72.08M)、速度快 24%(20.33 vs 16.32 FPS),精度相当或略优
  • vs EMSANet:共享 non-bottleneck 1D 设计理念,但本文将其专用于实例解码器,并增加 NFCL/CFIL 跨维度引导
  • vs SegFormer:继承 MLP 解码器轻量设计,但指出其浅层特征误导问题并用 NFCL 修复
  • vs FasterNet:直接用其部分卷积思想构建融合编码器,扩展到 RGBD 4 通道场景

评分

  • 新颖性: ⭐⭐⭐ — 各组件思路合理但均为已有技术的组合改进(通道冗余+BN注意力+自适应损失),缺乏根本性创新
  • 实验充分度: ⭐⭐⭐⭐ — 三个数据集、详尽的消融实验(编码器/CFIL 位置/NFCL 层数/损失调节因子/模块对比),复杂度分析完整
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰、图表丰富、公式推导完整,可读性好
  • 价值: ⭐⭐⭐ — 工程实用性强,适合资源受限的机器人部署场景,但学术贡献相对增量式