跳转至

BuildMamba: 基于视觉状态空间模型的多任务建筑分割与高度估计

日期: 2026-03-09
arXiv: 2603.08523
代码: 无
领域: 3D 视觉 / 遥感图像分析
关键词: 建筑高度估计, 语义分割, 视觉状态空间模型, 多任务学习, Mamba

一句话总结

提出 BuildMamba,基于 VMamba 视觉状态空间模型构建统一多任务框架,通过 Mamba 注意力模块、空间感知 Mamba-FPN 和掩码感知高度精修模块,实现仅从单张 RGB 卫星图像同时进行建筑分割和高度估计,在三个基准上刷新 SOTA。

研究背景与动机

  1. 现状:从单视角 RGB 卫星图像进行建筑分割和高度估计是城市分析的基础任务,广泛用于城市规划、风险评估、人口映射等下游应用。
  2. 痛点:这是一个病态问题——从近顶视角,建筑主要呈现为 2D 辐射图案,高度必须从外观线索间接推断。现有方法存在边界模糊(boundary bleeding)、高层建筑系统性低估、域迁移泛化差等问题。
  3. 现有方案不足:多数方法改编单目深度估计架构,依赖外观驱动的回归;多模态方法(SAR、LiDAR)在推理时常不可用;多任务框架中高度估计通常作为次要输出,分割与高度的耦合不充分。
  4. Transformer 瓶颈:Transformer 虽能建模全局上下文但计算复杂度为 \(O(N^2)\),对高分辨率遥感图像不友好。
  5. 核心 idea:利用 VMamba 的线性复杂度全局建模能力,结合三个专门模块强化空间重校准、多尺度聚合和结构化耦合,在 RGB-only 设置下实现高效鲁棒的联合预测。

方法详解

整体框架

BuildMamba 采用双路径编码器架构:全局路径使用预训练 VMamba 骨干捕获长距离依赖,局部路径使用 CNN 模块建模局部特征。编码后特征经 Mamba-FPN 多尺度聚合,送入分割和高度估计两个独立解码器。高度预测结果通过掩码感知精修模块利用分割输出进行优化。

关键设计

模块 1:Mamba Attention Module (MAM)

  • 做什么:在 VMamba 编码器每阶段输出处集成空间注意力,动态重校准特征的空间重要性
  • 核心思路:沿高度和宽度维度分别进行自适应平均池化,通过全连接层变换后组合生成注意力图,再应用于输入特征并加上残差连接
  • 设计动机:VMamba 不使用注意力机制,MAM 为其补充了空间特征精修能力,增强信息区域并抑制噪声

模块 2:Spatial-Aware Mamba-FPN (S-MambaFPN)

  • 做什么:替代标准 FPN 的精修算子,在每个金字塔层级融合长距离依赖与局部空间线索
  • 核心思路:基线分支使用 VMamba block 的 SS2D 扫描实现长距离传播;空间感知分支使用 3×3 和 7×7 深度卷积提取局部/中距离线索,拼接融合后再经 SS2D 扫描;两分支通过逐元素相乘门控融合
  • 设计动机:标准 FPN 的精修是局部的,难以传播长距离依赖;单纯 Mamba 扫描又可能不足以捕获各向同性的局部上下文和中距离纹理

模块 3:Mask-Aware Height Refinement (MHR)

  • 做什么:利用语义分割输出作为结构先验来精修高度图,消除斑点噪声和边界模糊
  • 核心思路:将原始高度预测 \(H_{raw}\) 和软分割掩码 \(S\) 拼接输入轻量级残差网络,输出残差 \(\Delta H\),再通过门控函数 \(G(S, \Delta H) = (\varepsilon + (1-\varepsilon)S^\gamma)\Delta H\) 调制,高分割置信度区域获得更强修正
  • 设计动机:高度估计常出现低纹理区域的高频斑点和跨类别边界的出血;分割掩码收敛更快且编码了更可靠的目标支撑与边界信息

损失函数 / 训练策略

  • 分割损失\(\mathcal{L}_{seg} = \mathcal{L}_{ce} + \mathcal{L}_{dice} + 10\mathcal{L}_{edge}\),其中边界损失使用 Laplacian 核提取边缘图后计算 BCE
  • 高度回归损失:Huber loss,对小误差二次、大误差线性,避免极端高度值破坏梯度
  • 总损失\(\mathcal{L}_{total} = \mathcal{L}_{seg} + \mathcal{L}_{reg}\)
  • 训练细节:VMamba 骨干学习率 5e-5(微调),其他部分 5e-4;余弦退火带热重启调度器

实验关键数据

主实验 — 分割性能 (IoU / F1)

模型 DFC19 IoU DFC23 IoU Huawei BHE IoU
BuildFormer 0.79 0.78 0.42
ST-UNet 0.84 0.82 0.52
FarSeg++ 0.82 0.83 0.52
UANet 0.89 0.92 0.53
BuildMamba 0.90 0.93 0.60

主实验 — 高度估计 (RMSE, m)

模型 输入 DFC19 RMSE↓ DFC23 RMSE↓ Huawei BHE RMSE↓
LUMNet RGB+Mask 1.040 3.620 8.521
DSMNet RGB 3.880 3.389 10.413
IM2HEIGHT RGB 4.899 7.210 12.301
HTC-DC RGB 1.227 2.592 10.621
BuildMamba RGB 1.058 1.772 9.230

消融实验

  • MAM 模块对分割和高度均有提升
  • S-MambaFPN 相比标准 Mamba-FPN 进一步提升多尺度特征聚合质量
  • MHR 模块显著减少高度图中的斑点噪声和边界伪影
  • 边界感知损失对建筑轮廓清晰度有明显改善

关键发现

  • 在 DFC23 基准上,高度估计 RMSE 达 1.77m,比第二名 HTC-DC(2.59m)降低约 31.6%
  • Huawei BHE 数据集上分割 IoU 比第二名 UANet 高 7.0%(0.60 vs 0.53),高度 RMSE 改善 1.18m
  • 仅使用 RGB 输入即接近甚至超过使用额外模态(RGB+Mask)的方法
  • 在弱标注、跨城市/传感器的 Huawei BHE 数据集上表现出优越鲁棒性

亮点与洞察

  1. 线性复杂度全局建模:VMamba 的 \(O(N)\) 复杂度使其特别适合高分辨率遥感图像,兼顾全局上下文与效率
  2. MHR 模块设计精巧:不是简单地用分割掩码裁剪高度,而是作为置信度先验引导残差修正,既保持高度估计的独立性又利用了分割的结构信息
  3. 边界感知损失:使用 Laplacian 核提取边缘的做法简单有效,直接约束建筑轮廓锐利度
  4. 跨数据集验证:在 3 个差异性很大的数据集上均取得 SOTA,展示了良好的泛化能力

局限性 / 可改进方向

  1. 仅支持单目 RGB 输入,未探索多时相或多视角信息的潜力
  2. 在超高建筑(>100m)的估计精度仍有待提升,数据长尾分布问题未完全解决
  3. 分割与高度估计的耦合是单向的(分割→高度),未探索双向信息流
  4. 训练需要 DSM/LiDAR 标注的高度真值,标注获取成本高
  5. 未探索实例级别的建筑分割,当前仅为语义级别

相关工作与启发

  • VMamba:视觉状态空间模型的基础,提供线性复杂度的全局建模能力
  • DSMNet / MFTSC:多任务建筑分析的早期工作
  • BinsFormer / AdaBins:自适应分箱策略处理高度分布,可能与 Mamba 结合
  • 启发:MHR 的设计思路(用一个任务的输出作为置信度引导另一个任务的精修)可推广到其他多任务场景

评分

  • ⭐⭐⭐ 新颖性:将 Mamba 引入遥感多任务框架,各模块有一定新意但组合创新为主
  • ⭐⭐⭐⭐ 实验充分度:3 个数据集、5+ 基线对比、定性定量分析齐全
  • ⭐⭐⭐⭐ 写作质量:结构清晰,公式推导完整,动机阐述到位
  • ⭐⭐⭐⭐ 价值:在 RGB-only 遥感建筑分析上建立了新的性能上界