BuildMamba: 基于视觉状态空间模型的多任务建筑分割与高度估计¶
日期: 2026-03-09
arXiv: 2603.08523
代码: 无
领域: 3D 视觉 / 遥感图像分析
关键词: 建筑高度估计, 语义分割, 视觉状态空间模型, 多任务学习, Mamba
一句话总结¶
提出 BuildMamba,基于 VMamba 视觉状态空间模型构建统一多任务框架,通过 Mamba 注意力模块、空间感知 Mamba-FPN 和掩码感知高度精修模块,实现仅从单张 RGB 卫星图像同时进行建筑分割和高度估计,在三个基准上刷新 SOTA。
研究背景与动机¶
- 现状:从单视角 RGB 卫星图像进行建筑分割和高度估计是城市分析的基础任务,广泛用于城市规划、风险评估、人口映射等下游应用。
- 痛点:这是一个病态问题——从近顶视角,建筑主要呈现为 2D 辐射图案,高度必须从外观线索间接推断。现有方法存在边界模糊(boundary bleeding)、高层建筑系统性低估、域迁移泛化差等问题。
- 现有方案不足:多数方法改编单目深度估计架构,依赖外观驱动的回归;多模态方法(SAR、LiDAR)在推理时常不可用;多任务框架中高度估计通常作为次要输出,分割与高度的耦合不充分。
- Transformer 瓶颈:Transformer 虽能建模全局上下文但计算复杂度为 \(O(N^2)\),对高分辨率遥感图像不友好。
- 核心 idea:利用 VMamba 的线性复杂度全局建模能力,结合三个专门模块强化空间重校准、多尺度聚合和结构化耦合,在 RGB-only 设置下实现高效鲁棒的联合预测。
方法详解¶
整体框架¶
BuildMamba 采用双路径编码器架构:全局路径使用预训练 VMamba 骨干捕获长距离依赖,局部路径使用 CNN 模块建模局部特征。编码后特征经 Mamba-FPN 多尺度聚合,送入分割和高度估计两个独立解码器。高度预测结果通过掩码感知精修模块利用分割输出进行优化。
关键设计¶
模块 1:Mamba Attention Module (MAM)
- 做什么:在 VMamba 编码器每阶段输出处集成空间注意力,动态重校准特征的空间重要性
- 核心思路:沿高度和宽度维度分别进行自适应平均池化,通过全连接层变换后组合生成注意力图,再应用于输入特征并加上残差连接
- 设计动机:VMamba 不使用注意力机制,MAM 为其补充了空间特征精修能力,增强信息区域并抑制噪声
模块 2:Spatial-Aware Mamba-FPN (S-MambaFPN)
- 做什么:替代标准 FPN 的精修算子,在每个金字塔层级融合长距离依赖与局部空间线索
- 核心思路:基线分支使用 VMamba block 的 SS2D 扫描实现长距离传播;空间感知分支使用 3×3 和 7×7 深度卷积提取局部/中距离线索,拼接融合后再经 SS2D 扫描;两分支通过逐元素相乘门控融合
- 设计动机:标准 FPN 的精修是局部的,难以传播长距离依赖;单纯 Mamba 扫描又可能不足以捕获各向同性的局部上下文和中距离纹理
模块 3:Mask-Aware Height Refinement (MHR)
- 做什么:利用语义分割输出作为结构先验来精修高度图,消除斑点噪声和边界模糊
- 核心思路:将原始高度预测 \(H_{raw}\) 和软分割掩码 \(S\) 拼接输入轻量级残差网络,输出残差 \(\Delta H\),再通过门控函数 \(G(S, \Delta H) = (\varepsilon + (1-\varepsilon)S^\gamma)\Delta H\) 调制,高分割置信度区域获得更强修正
- 设计动机:高度估计常出现低纹理区域的高频斑点和跨类别边界的出血;分割掩码收敛更快且编码了更可靠的目标支撑与边界信息
损失函数 / 训练策略¶
- 分割损失:\(\mathcal{L}_{seg} = \mathcal{L}_{ce} + \mathcal{L}_{dice} + 10\mathcal{L}_{edge}\),其中边界损失使用 Laplacian 核提取边缘图后计算 BCE
- 高度回归损失:Huber loss,对小误差二次、大误差线性,避免极端高度值破坏梯度
- 总损失:\(\mathcal{L}_{total} = \mathcal{L}_{seg} + \mathcal{L}_{reg}\)
- 训练细节:VMamba 骨干学习率 5e-5(微调),其他部分 5e-4;余弦退火带热重启调度器
实验关键数据¶
主实验 — 分割性能 (IoU / F1)¶
| 模型 | DFC19 IoU | DFC23 IoU | Huawei BHE IoU |
|---|---|---|---|
| BuildFormer | 0.79 | 0.78 | 0.42 |
| ST-UNet | 0.84 | 0.82 | 0.52 |
| FarSeg++ | 0.82 | 0.83 | 0.52 |
| UANet | 0.89 | 0.92 | 0.53 |
| BuildMamba | 0.90 | 0.93 | 0.60 |
主实验 — 高度估计 (RMSE, m)¶
| 模型 | 输入 | DFC19 RMSE↓ | DFC23 RMSE↓ | Huawei BHE RMSE↓ |
|---|---|---|---|---|
| LUMNet | RGB+Mask | 1.040 | 3.620 | 8.521 |
| DSMNet | RGB | 3.880 | 3.389 | 10.413 |
| IM2HEIGHT | RGB | 4.899 | 7.210 | 12.301 |
| HTC-DC | RGB | 1.227 | 2.592 | 10.621 |
| BuildMamba | RGB | 1.058 | 1.772 | 9.230 |
消融实验¶
- MAM 模块对分割和高度均有提升
- S-MambaFPN 相比标准 Mamba-FPN 进一步提升多尺度特征聚合质量
- MHR 模块显著减少高度图中的斑点噪声和边界伪影
- 边界感知损失对建筑轮廓清晰度有明显改善
关键发现¶
- 在 DFC23 基准上,高度估计 RMSE 达 1.77m,比第二名 HTC-DC(2.59m)降低约 31.6%
- Huawei BHE 数据集上分割 IoU 比第二名 UANet 高 7.0%(0.60 vs 0.53),高度 RMSE 改善 1.18m
- 仅使用 RGB 输入即接近甚至超过使用额外模态(RGB+Mask)的方法
- 在弱标注、跨城市/传感器的 Huawei BHE 数据集上表现出优越鲁棒性
亮点与洞察¶
- 线性复杂度全局建模:VMamba 的 \(O(N)\) 复杂度使其特别适合高分辨率遥感图像,兼顾全局上下文与效率
- MHR 模块设计精巧:不是简单地用分割掩码裁剪高度,而是作为置信度先验引导残差修正,既保持高度估计的独立性又利用了分割的结构信息
- 边界感知损失:使用 Laplacian 核提取边缘的做法简单有效,直接约束建筑轮廓锐利度
- 跨数据集验证:在 3 个差异性很大的数据集上均取得 SOTA,展示了良好的泛化能力
局限性 / 可改进方向¶
- 仅支持单目 RGB 输入,未探索多时相或多视角信息的潜力
- 在超高建筑(>100m)的估计精度仍有待提升,数据长尾分布问题未完全解决
- 分割与高度估计的耦合是单向的(分割→高度),未探索双向信息流
- 训练需要 DSM/LiDAR 标注的高度真值,标注获取成本高
- 未探索实例级别的建筑分割,当前仅为语义级别
相关工作与启发¶
- VMamba:视觉状态空间模型的基础,提供线性复杂度的全局建模能力
- DSMNet / MFTSC:多任务建筑分析的早期工作
- BinsFormer / AdaBins:自适应分箱策略处理高度分布,可能与 Mamba 结合
- 启发:MHR 的设计思路(用一个任务的输出作为置信度引导另一个任务的精修)可推广到其他多任务场景
评分¶
- ⭐⭐⭐ 新颖性:将 Mamba 引入遥感多任务框架,各模块有一定新意但组合创新为主
- ⭐⭐⭐⭐ 实验充分度:3 个数据集、5+ 基线对比、定性定量分析齐全
- ⭐⭐⭐⭐ 写作质量:结构清晰,公式推导完整,动机阐述到位
- ⭐⭐⭐⭐ 价值:在 RGB-only 遥感建筑分析上建立了新的性能上界