DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation¶

会议: CVPR 2025
arXiv: 2504.04701
代码: https://github.com/VCIP-RGBD/DFormer
领域: 分割
关键词: RGBD分割、几何先验、深度图、自注意力改进、语义分割

一句话总结¶

提出将深度图作为几何先验而非通过神经网络编码，设计几何自注意力（GSA）将深度距离和空间距离融合为衰减因子调制注意力权重，以约一半 FLOPs 匹配或超越双编码器 RGBD 分割方法。

领域现状：RGBD 语义分割通常用双编码器分别处理 RGB 和 Depth 然后融合。深度图经过完整的 backbone 编码，参数和计算量几乎翻倍。

现有痛点：双编码器方案计算量大（GeminiFusion 256G FLOPs），且深度编码器学到的表征可能与 RGB 编码器不对齐。深度图本质上是几何信息，用神经网络"编码"是一种间接且浪费的利用方式。

核心矛盾：深度图提供了明确的3D几何关系（物体间距离、共面性），但经过神经网络编码后这种显式几何信息被隐式化了，模型需要重新"学习"本已显式的信息。

本文目标 直接利用深度图的几何信息作为注意力先验，而不是将其编码为特征。

切入角度：深度图可以直接告诉我们哪些 patch 在3D空间中接近（可能属于同一物体），哪些远离。将这种几何关系转化为自注意力的衰减因子——3D距离近的 patch 对注意力更强，远的更弱。

核心 idea：用深度距离和空间距离的融合先验作为注意力的几何衰减因子，无需深度编码器即可有效利用深度信息。

RGB 图像 → 单编码器 ViT + GSA（几何自注意力）→ 轻量解码头。深度图不经过编码器，直接在每层注意力中作为先验使用。

几何自注意力（GSA）:
- 功能：用深度几何信息调制标准自注意力
- 核心思路：\(\text{GeoAttn}(Q,K,V,G) = (\text{Softmax}(QK^T) \odot \beta^G)V\)，其中 \(G\) 是几何先验矩阵，\(\beta \in (0,1)\) 是可学习衰减基。几何先验大 → \(\beta^G\) 接近 0（抑制注意力），几何先验小 → \(\beta^G\) 接近 1（保持注意力）
- 设计动机：将深度信息从"特征"转变为"注意力权重调制"，不需要额外编码器参数
几何先验融合:
- 功能：结合深度距离和空间距离两种几何信号
- 核心思路：\(G\) 融合深度距离 \(D_{ij}\)（两个 patch 的深度值差异）和空间曼哈顿距离 \(S_{ij}\)（patch 在图像中的位置差异），通过可学习的 memory 权重进行融合。Memory 基融合比卷积融合、加法融合、逐元素乘法融合都更好（56.2 vs 55.8/54.6/54.9 mIoU）
- 设计动机：深度距离反映3D关系，空间距离反映2D邻近性，两者互补
轴分解（Axes Decomposition）:
- 功能：降低 GSA 的计算复杂度
- 核心思路：将 2D 几何先验分解为水平和垂直两个方向分别计算，计算量减半。效果轻微下降（56.0 vs 56.2 mIoU）但计算量显著减少
- 设计动机：标准全局 GSA 在高分辨率下不可扩展

标准交叉熵分割损失。RGB-D 预训练在 ImageNet-1K 上（深度由估计模型生成）。

模型	参数	FLOPs	NYU mIoU	SUN mIoU
GeminiFusion (MiT-B5)	137.2M	256.1G	57.7	53.3
DFormerv2-B	53.9M	67.2G	57.7	52.1
DFormerv2-L	95.5M	124.1G	58.4	53.3