Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance¶

会议: CVPR 2026
arXiv: 2603.07570
代码: 待确认
领域: RGB-D 场景理解 / 多任务学习 / 全景分割
关键词: multi-task learning, RGB-D fusion, panoptic segmentation, adaptive loss, cross-dimensional guidance

一句话总结¶

提出一种高效 RGB-D 多任务场景理解网络，通过部分通道卷积融合编码器、归一化焦点通道层(NFCL)、上下文特征交互层(CFIL)和多任务自适应损失，在 NYUv2 上以 20+ FPS 同时完成语义/实例/全景分割、方向估计和场景分类。

背景与动机¶

机器人场景理解需要同时执行多个视觉任务（语义分割、实例分割、方向估计、场景分类等），现有方法存在三个痛点：(1) 双编码器结构（如 EMSANet）虽能融合 RGB-D，但计算量大、速度慢；(2) Transformer 编码器（如 EMSAFormer 用 Swin v2）矩阵运算密集，内存访问频繁；(3) MLP decoder 结构简单但浅层特征会误导，固定的多任务损失权重无法适应动态场景变化。本文的核心动机是在保持多任务性能的同时大幅提升推理速度。

核心问题¶

如何设计一个高效的 RGB-D 多任务网络，既能充分融合 RGB 与深度的互补信息，又能自适应地平衡多任务学习？

方法详解¶

整体框架¶

网络接受 RGBD 4 通道输入，通过一个融合编码器提取特征后分三支：(1) 场景分类头（全连接层）；(2) 语义分割 decoder（MLP + NFCL + CFIL）；(3) 实例分割 decoder（non-bottleneck 1D 模块，输出实例中心、偏移和方向）。语义分割提供前景 mask 给实例分割，二者组合形成全景分割。

关键设计¶

部分通道融合编码器：基于 FasterNet-M，4 阶段（3/4/18/3 个融合块），每个融合块仅取 1/4 通道做 Conv2D 特征提取，其余 3/4 通道直接拼接。FLOPs 降至完整卷积的 1/16。之后两个 pointwise conv 提取通道关系，并加残差连接。深度权重初始化为 D=(R+G+B)/2 以复用 ImageNet 预训练。
归一化焦点通道层 (NFCL)：放置在语义 decoder 的 skip connection 中（第 1/2/3 层），利用 BN 的可学习缩放因子 γ 作为通道重要性度量。通过 |γᵢ|/Σ|γⱼ| 归一化得到通道权重，乘以特征后经 sigmoid 门控过滤浅层噪声信息。
上下文特征交互层 (CFIL)：弥补 MLP decoder 在局部-全局特征融合上的不足。对 NFCL+conv 输出做 1×1 和 5×5 两种尺度的自适应平均池化，通道压缩至 C/2，上采样后与原始特征拼接，再通过 conv 恢复通道数。
Non-bottleneck 1D 实例 decoder：将 3×3 conv 分解为 3×1 + ReLU + 1×3，参数减少 30%，同时通过非线性激活增强表达力。三层结构，每层包含 3 个 non-bottleneck 1D 模块 + 上采样。

损失函数 / 训练策略¶

多任务自适应损失：batch 级动态调整各任务权重： - 每 batch 计算各任务相对损失 RL_k = L_k / ΣL_t - 维护历史平均 AvgRL_k，更新权重 W_k = max(W̄_k × (AvgRL_k)^α, W_min) - α=0.01 控制敏感度，W_min=0.1 防止任务被忽略 - 语义分割：cross-entropy；实例中心：MSE；实例偏移：MAE；方向估计：von Mises 分布损失 L_or = 1 - e^{κ(f·t-1)}；场景分类：cross-entropy - SGD, lr=0.03, weight decay=1e-4, momentum=0.9, RTX 3090 Ti

实验关键数据¶

NYUv2：

方法	语义 mIoU	实例 PQ	全景 PQ	FPS	参数量
EMSAFormer (Swin v2)	49.76	58.49	43.08	16.32	72.08M
本文	49.82	59.90	43.21	20.33	71.82M

FPS 20.33，比 EMSAFormer 快 24%，比 MPViT (9.94) 快 2 倍
SUN RGB-D: 语义 mIoU 45.56%，超越 CI-Net (44.30%)
Cityscapes: 语义 mIoU 65.11%，超越 PSPNet/DeepLab 等

消融实验要点¶

融合编码器 vs Swin v2：参数更少（71.82M vs 72.08M），速度更快，实例 PQ 58.59 vs 58.49
CFIL 放语义 decoder 效果最佳（全景 mIoU 50.16%）
NFCL 在第 1/2/3 层最优（mIoU 49.82%），第 4 层编码器特征已充分
Non-bottleneck 1D vs Bottleneck：PQ 59.25% vs 57.97%
自适应损失 vs 固定权重：mIoU 46.83→47.72，训练方差更小
调节因子 α=0.01 最优，过大(0.1)或过小均不佳

亮点¶

部分通道卷积利用通道冗余性以 1/16 FLOPs 实现高效特征提取
NFCL 复用 BN 的 γ 参数作为通道重要性度量，零额外开销
多任务自适应损失是 batch 级实时调整，比 epoch 级方法响应更快
从头到尾贯彻"高效"理念，在速度和精度间取得出色平衡

局限性 / 可改进方向¶

部分通道比例 1/4 固定，可考虑自适应选择
仅在 RGB-D 验证，未扩展到热成像、点云等模态
逐帧处理，未利用视频时序一致性（作者在讨论中承认）
自适应损失中 α 和 W_min 为手动设置
高分辨率输入下的可扩展性未验证

与相关工作的对比¶

vs EMSAFormer：同做 RGB-D 多任务，本文用 CNN 替代 Swin Transformer 实现更快速度和可比精度
vs EMSANet：双编码器融合不互补，本文单编码器直接处理 RGBD
vs SegFormer：MLP decoder 的局限通过 NFCL+CFIL 弥补
vs OneFormer：后者用 task token 联合训练，本文用自适应损失实现类似目标

启发与关联¶

部分通道卷积思想来自 FasterNet，证明在密集预测任务中同样有效
NFCL 与 SENet/NAM 类似但更轻量：直接复用 BN 参数
多任务自适应损失可推广到其他多任务学习场景

评分¶

新颖性: ⭐⭐⭐ 各组件有一定新意但多为已有技术的整合优化
实验充分度: ⭐⭐⭐⭐ 三个数据集、详尽消融、可视化丰富
写作质量: ⭐⭐⭐ 结构完整但部分描述略显冗余
价值: ⭐⭐⭐⭐ 对机器人场景理解有实用价值，速度精度平衡出色