跳转至

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

会议: CVPR 2025
arXiv: 2603.07570
代码: 待确认
领域: 图像分割 / RGB-D场景理解 / 多任务学习
关键词: RGB-D 场景理解, 多任务自适应学习, 跨维度特征引导, 全景分割, 高效融合编码器

一句话总结

提出一个高效 RGB-D 多任务场景理解网络,通过改进融合编码器利用冗余特征加速推理,引入归一化聚焦通道层 (NFCL) 和上下文特征交互层 (CFIL) 进行跨维度特征引导,并设计多任务自适应损失函数动态调整任务权重,在 NYUv2/SUN RGB-D/Cityscapes 上达到 SOTA。

研究背景与动机

1. 领域背景

场景理解使机器人能够准确感知环境、识别物体和分类场景,是机器人自主决策的基础。多任务学习通过共享信息和学习机制实现多任务间的互增强和协同优化。

2. 现有方法的不足

  • 双编码器效率问题:Seichter et al. 用双编码器分别提取 RGB 和深度特征,但未充分整合互补信息
  • Transformer 编码器速度问题:Fischedick et al. 用 Swin Transformer v2 联合提取 RGBD 信息,但矩阵计算和内存访问开销大,推理速度慢
  • MLP 解码器局限:MLP 解码器结构简单但浅层特征的错误信息会误导它,且主要关注全局特征忌略局部信息
  • 固定损失权重问题:不同任务的学习难度、数据分布差异大,固定权重无法适应训练过程中动态变化的任务关系

3. 关键挑战

如何在保证速度的前提下高效融合 RGB-D 信息,如何引导跨维度特征整合局部和全局信息,如何自适应调整多任务学习优先级。

4. 核心思路

三个创新点:(1) 利用通道冗余性的高效融合编码器;(2) NFCL+CFIL 跨维度特征引导;(3) 基于历史性能的多任务自适应损失。

5. 前人尝试与局限

  • Lin et al. 用随机损失和权重避免人为偏见,但引入性能不稳定性
  • Liu et al. 基于训练损失计算任务权重提高稳定性,但仅在每次迭代的第一个 batch 调整权重,缺乏实时适应性
  • Bottleneck 模块因降维导致信息丢失和特征多样性下降

6. 解决方案概述

设计统一的多任务网络处理语义分割、实例分割、方向估计、全景分割和场景分类五个任务,通过融合编码器、NFCL、CFIL 和自适应损失协同优化。

方法详解

整体框架

RGBD 输入 → 改进融合编码器(4 阶段,基于 FasterNet-M)→ 三路输出:场景分类头(全连接层)、语义解码器(MLP + NFCL + CFIL)、实例解码器(Non-bottleneck 1D 三层结构)。语义分割提供前景掩码给实例分割,两者结合实现全景分割。训练时使用多任务自适应损失。

关键设计一:高效融合编码器

  • 做什么:同时从 RGB 和深度数据中提取互补特征,提高推理速度
  • 核心思路:利用通道间特征的高相似性(冗余性),仅对 1/4 通道进行卷积提取,然后与剩余通道拼接,FLOPs 降低到常规卷积的 1/16
  • 设计动机:不同通道特征高度相似,无需对所有通道做卷积;减少内存访问次数可显著提升推理速度
  • 深度权重初始化:将 ImageNet 预训练的 RGB 三通道权重求和作为深度权重 D=(R+G+B)/2,避免额外预训练
  • 4 阶段设计:各阶段分别包含 3/4/18/3 个融合块,后期阶段图像尺寸小可增加块数

关键设计二:归一化聚焦通道层 (NFCL)

  • 做什么:增强语义解码器中浅层编码器特征的表达能力
  • 核心思路:利用 BatchNorm 中学习的缩放因子 γ 的绝对值作为通道重要性指标,归一化后加权重排通道特征
  • 设计动机:MLP 解码器容易被浅层特征中的噪声/错误信息误导,NFCL 通过 BN 的 γ 参数自动识别重要通道(γ 大 = 变化大 = 含更多重要信息)
  • 放置位置:应用于语义解码器 skip connection 的前 3 层(第 4 层编码器特征已足够好无需额外引导)

关键设计三:上下文特征交互层 (CFIL)

  • 做什么:弥补 MLP 语义解码器在融合局部和全局信息方面的不足
  • 核心思路:用多尺度自适应平均池化 (1×1 和 5×5) 捕获不同尺度上下文信息,通道压缩到 C/2 后双线性上采样统一分辨率,与原始特征拼接融合
  • 设计动机:MLP 解码器擅长非线性映射但主要关注全局特征,CFIL 通过多尺度池化整合不同分辨率特征,提升对精细结构和边界的分辨能力

关键设计四:Non-bottleneck 1D 实例解码器

  • 做什么:实例分割和方向估计的特征提取
  • 核心思路:将 3×3 2D 卷积分解为 3×1 + 1×3 两个 1D 卷积,中间插入非线性激活函数
  • 设计动机:3D decomposition 参数减少 30%(核大小为 3 时),同时增加非线性能力

关键设计五:多任务自适应损失

  • 做什么:动态调整各任务损失权重
  • 核心思路:每个 batch 结束后计算各任务的相对损失 RL_k = L_k/ΣL_t,维护历史相对损失的平均 AvgRL_k,通过调整因子 α 更新权重 W_k = max(W̄_k × (AvgRL_k)^α, W_min)
  • 设计动机:不同任务学习难度动态变化,固定权重无法适应;α=0.01 实现精细调整,W_min=0.1 防止任务被完全忽略

损失函数

  • 语义分割:交叉熵损失
  • 实例中心:MSE 损失
  • 实例偏移:MAE 损失
  • 方向估计:基于 cos/sin 向量的连续概率分布损失
  • 场景分类:交叉熵损失
  • 全景分割:不计算额外损失,验证时评估

实验关键数据

编码器对比 (Table 1, NYUv2)

编码器 Instance PQ↑ MAAE↓ Semantic mIoU↑ 推理速度
Swin v2 58.49 21.09 49.76
ConvNeXt v2 41.04 31.24 27.69
MPViT 57.77 21.18 47.44 较慢
MetaFormer 53.31 23.69 43.27
Ours 58.59 18.67 46.83

模型复杂度对比 (Table 8)

方法 参数量 FLOPs FPS VRAM Sem. mIoU Inst. PQ
EMSAFormer 72.08M 50.66G 16.32 3188M 49.76 58.49
Ours 71.82M 75.28G 20.33 3293M 49.82 59.90

语义分割 SOTA 对比

数据集 方法 Backbone mIoU↑
NYUv2 EMSAFormer Swin v2 49.76
NYUv2 Ours FasterNet-M 49.82
SUN RGB-D EMSAFormer Swin v2 44.13
SUN RGB-D Ours FasterNet-M 45.56
Cityscapes EMSAFormer Swin v2 60.76
Cityscapes Ours FasterNet-M 65.11

消融实验 (Table 7, 框架逐步添加组件)

配置 Inst. PQ↑ Pan. mIoU↑ Sem. mIoU↑ bAcc↑
Baseline (Swin v2) 58.49 50.51 49.76 77.11
+ Fusion Encoder 58.59 47.37 46.83 74.67
+ Adaptive Loss 59.37 48.39 47.72 76.23
+ CFIL 59.25 50.16 49.72 77.00
+ NFCL 59.90 50.21 49.82 76.57

关键发现

  1. 融合编码器比 Swin v2 快 24.6%:FPS 从 16.32 提升到 20.33,参数量更少 (71.82M vs 72.08M)
  2. CFIL 效果显著:语义 mIoU 提升 2.0 个点(从 47.72% 到 49.72%),优于 ASPP、SPPELAN、RFB 等上下文模块
  3. NFCL 应用于前 3 层最优:第 4 层编码器特征已足够好,不需额外引导
  4. 多任务自适应损失优于固定权重:调整因子 α=0.01 时模型最均衡;自适应损失收敛更快更稳定
  5. Non-bottleneck 1D 优于其他提取模块:Instance PQ 59.25%,优于 BasicBlock、Bottleneck、MobileBottleneck 和 GhostBottleneck
  6. 室内→室外泛化:在 Cityscapes 上 mIoU 65.11%,超越 Lovász (63.06%) 和 EMSAFormer (60.76%)

亮点与洞察

  1. 通道冗余利用的思路简洁高效:仅对 1/4 通道做卷积,FLOPs 降 16 倍,推理速度显著提升
  2. BN γ 做通道重要性的设计巧妙:不引入额外参数,复用已有 BN 层的学习结果
  3. 自适应损失基于历史性能而非单 batch,比 Liu et al. 的方案更稳定
  4. 多任务统一框架同时处理 5 个任务(语义分割、实例分割、方向估计、全景分割、场景分类),实用性强
  5. 深度权重初始化 D=(R+G+B)/2 简单但有效地利用 ImageNet 预训练

局限性 / 可改进方向

  1. 精度与速度的平衡:融合编码器仅采样 1/4 通道可能丢失信息,如何自动选择最优比例值得探索(NAS)
  2. 高分辨率扩展性:当前实现难以处理超高分辨率图像/视频
  3. 假设 RGB-D 输入质量良好:消费级深度传感器的反射、透明面、边界稀疏等噪声未处理
  4. 逐帧独立处理:未利用时序一致性,视频场景中可能导致分割闪烁
  5. 各任务对融合编码器的需求可能存在冲突,当前共享编码器方案可能不是最优

相关工作与启发

  • 与 EMSAFormer 的关系:本文以 EMSAFormer 为主要基线,替换其 Swin v2 编码器为更快的融合编码器,并添加 NFCL/CFIL/自适应损失
  • 与 FasterNet 的关系:融合编码器基于 FasterNet-M 的部分卷积思想,将其扩展到 RGBD 融合场景
  • NFCL 利用 BN γ 的思路受 Network Slimming (channel pruning) 启发,但应用场景不同(特征增强 vs 剪枝)

评分

  • 新颖性: ⭐⭐⭐ (各组件设计合理但创新幅度有限,通道冗余利用、BN γ 做通道权重、自适应损失等思路已有前人探索)
  • 实验充分度: ⭐⭐⭐⭐ (三个数据集验证,消融实验覆盖编码器/CFIL/NFCL/解码器/损失;但多任务基线对比方法偏少)
  • 写作质量: ⭐⭐⭐⭐ (结构完整清晰,公式严谨,讨论了伦理和局限性;部分内容可更简洁)
  • 价值: ⭐⭐⭐⭐ (提供实用的多任务 RGB-D 场景理解方案,兼顾速度与精度,在三个数据集上全面超越基线)