Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance¶
会议: CVPR2026
arXiv: 2603.07570
代码: 暂未开源
领域: 语义分割 / 全景分割 / 多任务学习
关键词: RGB-D 场景理解, 多任务自适应学习, 跨维度特征引导, 全景分割, 融合编码器
一句话总结¶
提出一种高效 RGB-D 多任务场景理解网络,通过改进的融合编码器利用通道冗余加速特征提取,设计归一化聚焦通道层(NFCL)和上下文特征交互层(CFIL)进行跨维度特征引导,并引入批级别多任务自适应损失函数动态调整各任务学习权重,在 NYUv2/SUN RGB-D/Cityscapes 上同时完成语义分割、实例分割、朝向估计、全景分割和场景分类五项任务,取得精度与速度的双重优势。
背景与动机¶
- 单任务局限:传统场景理解方法多聚焦单一任务,无法让机器人全面感知环境;多任务学习通过信息共享可实现协同优化,但任务间复杂度差异大、固定学习策略难以适应。
- 双编码器效率低:EMSANet 等方法用双编码器分别处理 RGB/Depth,未充分融合互补信息;EMSAFormer 用单一 Swin Transformer 联合提取,但矩阵计算量大、内存访问频繁,推理速度受限。
- 浅层特征误导 MLP 解码器:基于 MLP 的轻量语义解码器结构简单、推理快,但编码器浅层的噪声和错误信息容易误导 MLP,影响局部细节表达。
- 局部-全局融合不足:MLP 解码器擅长全局特征映射,但对局部信息和多尺度上下文的融合能力不足,导致复杂场景中边界分割不准。
- 实例解码器参数效率问题:Bottleneck 结构通过降维减少参数但损失特征多样性;深度可分离卷积内存访问频繁影响速度;需要在参数效率与非线性表达之间取得更好平衡。
- 固定损失权重不适应动态场景:现有多任务学习方法要么随机分配权重导致不稳定,要么仅基于首批数据调整缺乏实时性,无法随训练过程动态适配任务重要性变化。
方法详解¶
整体框架¶
网络由三部分组成:改进的融合编码器(处理 RGBD 4 通道输入)、语义解码器(含 NFCL + CFIL)、实例解码器(non-bottleneck 1D 架构)。语义分割提供前景掩码,实例分割生成实例中心和偏移,两者结合实现全景分割。场景分类由全连接层完成。训练时使用多任务自适应损失函数。
高效融合编码器¶
- 采用 4 阶段结构,每阶段用 4×4 卷积进行通道扩展和下采样,后接多个融合块
- 阶段 1-4 分别包含 3, 4, 18, 3 个融合块
- 核心思想:利用通道间特征的高相似性,仅对 1/4 通道做卷积提取,再拼接剩余通道,FLOPs 降至常规卷积的 1/16
- 两个逐点卷积提取通道关系,先扩展再恢复通道数,加残差连接
- ImageNet 预训练权重复用:将 RGB 三通道权重求和作为深度通道权重 D = (R+G+B)/2
- 基于 FasterNet-M 骨干,减少内存访问换取推理速度提升
归一化聚焦通道层(NFCL)¶
- 目标:增强编码器浅层特征在通道维度的表达,缓解浅层噪声对 MLP 的误导
- 通过 BN 的缩放因子 γ 的绝对值归一化得到通道权重:\(W_i = |\gamma_i| / \sum_j |\gamma_j|\)
- 将特征重排为 B×H×W×C,逐像素乘以通道权重,再经 Sigmoid 激活与原始输入逐像素相乘
- 放置在语义解码器跳连的第 1、2、3 层(第 4 层编码器特征已足够好,无需额外引导)
上下文特征交互层(CFIL)¶
- 目标:弥补 MLP 解码器在局部-全局信息融合上的不足
- 对输入特征做自适应平均池化(1×1 和 5×5 两种尺度)提取多尺度上下文
- 卷积层将通道从 C 压缩至 C/2,双线性插值上采样统一分辨率
- 拼接多尺度特征与原始输入,再通过卷积恢复至原始通道维度
- 放置在语义解码器的多层特征融合阶段
Non-bottleneck 1D 实例解码器¶
- 将 3×3 二维卷积分解为 3×1 和 1×3 两个一维卷积,中间插入 ReLU 激活
- 核大小为 3 时参数量减少 30%,同时增强非线性决策能力
- 实例解码器 3 层结构,每层 3×3 卷积 + 3 个 non-bottleneck 1D 模块 + 上采样
- 输出实例中心、像素偏移和原始朝向,每层加金字塔监督
多任务自适应损失函数¶
- 每个 batch 结束时计算各任务的相对损失:\(RL_k = L_k / \sum_t L_t\)
- 维护历史相对损失的均值:\(AvgRL_k = \sum_i RL_k^{(i)} / n_k\)
- 动态更新权重:\(W_k = \max(\bar{W}_k \times (AvgRL_k)^\alpha, W_{min})\)
- 调节因子 α = 0.01(微调),最小阈值 \(W_{min} = 0.1\)(防止任务被忽略)
- 各任务损失:语义分割用交叉熵、实例中心用 MSE、实例偏移用 MAE、朝向估计用余弦-正弦概率分布损失、场景分类用交叉熵
实验关键数据¶
NYUv2 数据集 SOTA 对比¶
| 方法 | 模态 | 骨干 | Semantic mIoU |
|---|---|---|---|
| EMSAFormer | RGB-D | Swin v2 | 49.76 |
| MMANet | RGB-D | R34-NBt1D | 49.62 |
| Malleable 2.5D | RGB-D | ResNet50 | 49.70 |
| Ours | RGB-D | FasterNet-M | 49.82 |
多数据集语义 mIoU 汇总¶
| 数据集 | EMSAFormer | Ours | 提升 |
|---|---|---|---|
| NYUv2 | 49.76 | 49.82 | +0.06 |
| SUN RGB-D | 44.13 | 45.56 | +1.43 |
| Cityscapes | 60.76 | 65.11 | +4.35 |
模型复杂度对比¶
| 方法 | 参数量 | FLOPs | FPS | 显存 |
|---|---|---|---|---|
| EMSAFormer (Swin v2) | 72.08M | 50.66G | 16.32 | 3188 MiB |
| MPViT | 92.76M | 235.24G | 9.94 | 5266 MiB |
| Ours | 71.82M | 75.28G | 20.33 | 3293 MiB |
消融实验(NYUv2)¶
- 融合编码器 → Instance PQ 58.59(相比 Swin v2 baseline 速度大幅提升)
- +自适应损失 → Instance PQ 59.37,6 项指标提升
- +CFIL → Semantic mIoU 49.72(+2.0),8 项指标提升
- +NFCL → Panoptic PQ 43.21,全模型最终 Semantic mIoU 49.82, Instance PQ 59.90
- 调节因子对比:α=0.01 时 panoptic PQ 最优(41.81),过大(0.1)反而不稳定
- CFIL 放置位置:语义解码器效果最佳(panoptic mIoU 50.16)
- NFCL 放置层数:第 1/2/3 层最优(semantic mIoU 49.82),第 4 层特征已充分不需引导
亮点¶
- 通道冗余利用:仅对 1/4 通道卷积即可有效特征提取,FLOPs 降至 1/16,思路简洁高效
- BN γ 作为通道注意力:无需额外参数、无 SE 模块开销,利用已有 BN 层的学习参数获取通道重要性
- 批级别实时自适应损失:相比 epoch 级或随机权重,每个 batch 都动态调整,训练更稳定收敛更快
- 统一框架五任务:语义分割、实例分割、朝向估计、全景分割、场景分类在一个网络中完成
- 速度优势明显:71.82M 参数、20.33 FPS,超过 Swin v2 的 16.32 FPS,适合机器人部署
局限性 / 可改进方向¶
- 精度提升有限:NYUv2 上 semantic mIoU 仅比 EMSAFormer 高 0.06,优势不明显
- 高分辨率可扩展性:当前实现难以处理超高分辨率图像/视频,计算复杂度随分辨率增长
- 深度传感器噪声假设理想:模型假设 RGB-D 输入已标定且无噪声,消费级深度传感器的反射、透明表面、边界稀疏等问题未处理
- 无时序一致性:逐帧独立处理,不考虑视频流的时序连贯性,动态场景中可能出现分割闪烁
- 融合编码器仅用 1/4 通道:虽然 FLOPs 降低但可能丢失部分通道间的细粒度交互信息
- 未探索更多模态:如热成像、点云等,限制了在多样化环境中的鲁棒性
与相关工作的对比¶
- vs EMSAFormer:替换 Swin v2 为 FasterNet-M 融合编码器,参数更少(71.82M vs 72.08M)、速度快 24%(20.33 vs 16.32 FPS),精度相当或略优
- vs EMSANet:共享 non-bottleneck 1D 设计理念,但本文将其专用于实例解码器,并增加 NFCL/CFIL 跨维度引导
- vs SegFormer:继承 MLP 解码器轻量设计,但指出其浅层特征误导问题并用 NFCL 修复
- vs FasterNet:直接用其部分卷积思想构建融合编码器,扩展到 RGBD 4 通道场景
评分¶
- 新颖性: ⭐⭐⭐ — 各组件思路合理但均为已有技术的组合改进(通道冗余+BN注意力+自适应损失),缺乏根本性创新
- 实验充分度: ⭐⭐⭐⭐ — 三个数据集、详尽的消融实验(编码器/CFIL 位置/NFCL 层数/损失调节因子/模块对比),复杂度分析完整
- 写作质量: ⭐⭐⭐⭐ — 结构清晰、图表丰富、公式推导完整,可读性好
- 价值: ⭐⭐⭐ — 工程实用性强,适合资源受限的机器人部署场景,但学术贡献相对增量式