Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance¶

会议: CVPR2026
arXiv: 2603.07570
代码: 暂未开源
领域: 语义分割 / 全景分割 / 多任务学习
关键词: RGB-D 场景理解, 多任务自适应学习, 跨维度特征引导, 全景分割, 融合编码器

一句话总结¶

提出一种高效 RGB-D 多任务场景理解网络，通过改进的融合编码器利用通道冗余加速特征提取，设计归一化聚焦通道层（NFCL）和上下文特征交互层（CFIL）进行跨维度特征引导，并引入批级别多任务自适应损失函数动态调整各任务学习权重，在 NYUv2/SUN RGB-D/Cityscapes 上同时完成语义分割、实例分割、朝向估计、全景分割和场景分类五项任务，取得精度与速度的双重优势。

背景与动机¶

单任务局限：传统场景理解方法多聚焦单一任务，无法让机器人全面感知环境；多任务学习通过信息共享可实现协同优化，但任务间复杂度差异大、固定学习策略难以适应。
双编码器效率低：EMSANet 等方法用双编码器分别处理 RGB/Depth，未充分融合互补信息；EMSAFormer 用单一 Swin Transformer 联合提取，但矩阵计算量大、内存访问频繁，推理速度受限。
浅层特征误导 MLP 解码器：基于 MLP 的轻量语义解码器结构简单、推理快，但编码器浅层的噪声和错误信息容易误导 MLP，影响局部细节表达。
局部-全局融合不足：MLP 解码器擅长全局特征映射，但对局部信息和多尺度上下文的融合能力不足，导致复杂场景中边界分割不准。
实例解码器参数效率问题：Bottleneck 结构通过降维减少参数但损失特征多样性；深度可分离卷积内存访问频繁影响速度；需要在参数效率与非线性表达之间取得更好平衡。
固定损失权重不适应动态场景：现有多任务学习方法要么随机分配权重导致不稳定，要么仅基于首批数据调整缺乏实时性，无法随训练过程动态适配任务重要性变化。

方法详解¶

整体框架¶

网络由三部分组成：改进的融合编码器（处理 RGBD 4 通道输入）、语义解码器（含 NFCL + CFIL）、实例解码器（non-bottleneck 1D 架构）。语义分割提供前景掩码，实例分割生成实例中心和偏移，两者结合实现全景分割。场景分类由全连接层完成。训练时使用多任务自适应损失函数。

高效融合编码器¶

采用 4 阶段结构，每阶段用 4×4 卷积进行通道扩展和下采样，后接多个融合块
阶段 1-4 分别包含 3, 4, 18, 3 个融合块
核心思想：利用通道间特征的高相似性，仅对 1/4 通道做卷积提取，再拼接剩余通道，FLOPs 降至常规卷积的 1/16
两个逐点卷积提取通道关系，先扩展再恢复通道数，加残差连接
ImageNet 预训练权重复用：将 RGB 三通道权重求和作为深度通道权重 D = (R+G+B)/2
基于 FasterNet-M 骨干，减少内存访问换取推理速度提升

归一化聚焦通道层（NFCL）¶

目标：增强编码器浅层特征在通道维度的表达，缓解浅层噪声对 MLP 的误导
通过 BN 的缩放因子 γ 的绝对值归一化得到通道权重：\(W_i = |\gamma_i| / \sum_j |\gamma_j|\)
将特征重排为 B×H×W×C，逐像素乘以通道权重，再经 Sigmoid 激活与原始输入逐像素相乘
放置在语义解码器跳连的第 1、2、3 层（第 4 层编码器特征已足够好，无需额外引导）

上下文特征交互层（CFIL）¶

目标：弥补 MLP 解码器在局部-全局信息融合上的不足
对输入特征做自适应平均池化（1×1 和 5×5 两种尺度）提取多尺度上下文
卷积层将通道从 C 压缩至 C/2，双线性插值上采样统一分辨率
拼接多尺度特征与原始输入，再通过卷积恢复至原始通道维度
放置在语义解码器的多层特征融合阶段

Non-bottleneck 1D 实例解码器¶

将 3×3 二维卷积分解为 3×1 和 1×3 两个一维卷积，中间插入 ReLU 激活
核大小为 3 时参数量减少 30%，同时增强非线性决策能力
实例解码器 3 层结构，每层 3×3 卷积 + 3 个 non-bottleneck 1D 模块 + 上采样
输出实例中心、像素偏移和原始朝向，每层加金字塔监督

多任务自适应损失函数¶

每个 batch 结束时计算各任务的相对损失：\(RL_k = L_k / \sum_t L_t\)
维护历史相对损失的均值：\(AvgRL_k = \sum_i RL_k^{(i)} / n_k\)
动态更新权重：\(W_k = \max(\bar{W}_k \times (AvgRL_k)^\alpha, W_{min})\)
调节因子 α = 0.01（微调），最小阈值 \(W_{min} = 0.1\)（防止任务被忽略）
各任务损失：语义分割用交叉熵、实例中心用 MSE、实例偏移用 MAE、朝向估计用余弦-正弦概率分布损失、场景分类用交叉熵

实验关键数据¶

NYUv2 数据集 SOTA 对比¶

方法	模态	骨干	Semantic mIoU
EMSAFormer	RGB-D	Swin v2	49.76
MMANet	RGB-D	R34-NBt1D	49.62
Malleable 2.5D	RGB-D	ResNet50	49.70
Ours	RGB-D	FasterNet-M	49.82

多数据集语义 mIoU 汇总¶

数据集	EMSAFormer	Ours	提升
NYUv2	49.76	49.82	+0.06
SUN RGB-D	44.13	45.56	+1.43
Cityscapes	60.76	65.11	+4.35

模型复杂度对比¶

方法	参数量	FLOPs	FPS	显存
EMSAFormer (Swin v2)	72.08M	50.66G	16.32	3188 MiB
MPViT	92.76M	235.24G	9.94	5266 MiB
Ours	71.82M	75.28G	20.33	3293 MiB

消融实验（NYUv2）¶

融合编码器 → Instance PQ 58.59（相比 Swin v2 baseline 速度大幅提升）
+自适应损失 → Instance PQ 59.37，6 项指标提升
+CFIL → Semantic mIoU 49.72（+2.0），8 项指标提升
+NFCL → Panoptic PQ 43.21，全模型最终 Semantic mIoU 49.82, Instance PQ 59.90
调节因子对比：α=0.01 时 panoptic PQ 最优（41.81），过大（0.1）反而不稳定
CFIL 放置位置：语义解码器效果最佳（panoptic mIoU 50.16）
NFCL 放置层数：第 1/2/3 层最优（semantic mIoU 49.82），第 4 层特征已充分不需引导

亮点¶

通道冗余利用：仅对 1/4 通道卷积即可有效特征提取，FLOPs 降至 1/16，思路简洁高效
BN γ 作为通道注意力：无需额外参数、无 SE 模块开销，利用已有 BN 层的学习参数获取通道重要性
批级别实时自适应损失：相比 epoch 级或随机权重，每个 batch 都动态调整，训练更稳定收敛更快
统一框架五任务：语义分割、实例分割、朝向估计、全景分割、场景分类在一个网络中完成
速度优势明显：71.82M 参数、20.33 FPS，超过 Swin v2 的 16.32 FPS，适合机器人部署

局限性 / 可改进方向¶

精度提升有限：NYUv2 上 semantic mIoU 仅比 EMSAFormer 高 0.06，优势不明显
高分辨率可扩展性：当前实现难以处理超高分辨率图像/视频，计算复杂度随分辨率增长
深度传感器噪声假设理想：模型假设 RGB-D 输入已标定且无噪声，消费级深度传感器的反射、透明表面、边界稀疏等问题未处理
无时序一致性：逐帧独立处理，不考虑视频流的时序连贯性，动态场景中可能出现分割闪烁
融合编码器仅用 1/4 通道：虽然 FLOPs 降低但可能丢失部分通道间的细粒度交互信息
未探索更多模态：如热成像、点云等，限制了在多样化环境中的鲁棒性

与相关工作的对比¶

vs EMSAFormer：替换 Swin v2 为 FasterNet-M 融合编码器，参数更少（71.82M vs 72.08M）、速度快 24%（20.33 vs 16.32 FPS），精度相当或略优
vs EMSANet：共享 non-bottleneck 1D 设计理念，但本文将其专用于实例解码器，并增加 NFCL/CFIL 跨维度引导
vs SegFormer：继承 MLP 解码器轻量设计，但指出其浅层特征误导问题并用 NFCL 修复
vs FasterNet：直接用其部分卷积思想构建融合编码器，扩展到 RGBD 4 通道场景

评分¶

新颖性: ⭐⭐⭐ — 各组件思路合理但均为已有技术的组合改进（通道冗余+BN注意力+自适应损失），缺乏根本性创新
实验充分度: ⭐⭐⭐⭐ — 三个数据集、详尽的消融实验（编码器/CFIL 位置/NFCL 层数/损失调节因子/模块对比），复杂度分析完整
写作质量: ⭐⭐⭐⭐ — 结构清晰、图表丰富、公式推导完整，可读性好
价值: ⭐⭐⭐ — 工程实用性强，适合资源受限的机器人部署场景，但学术贡献相对增量式