BuildMamba: 基于视觉状态空间模型的多任务建筑分割与高度估计¶

日期: 2026-03-09
arXiv: 2603.08523
代码: 无
领域: 3D 视觉 / 遥感图像分析
关键词: 建筑高度估计, 语义分割, 视觉状态空间模型, 多任务学习, Mamba

一句话总结¶

提出 BuildMamba，基于 VMamba 视觉状态空间模型构建统一多任务框架，通过 Mamba 注意力模块、空间感知 Mamba-FPN 和掩码感知高度精修模块，实现仅从单张 RGB 卫星图像同时进行建筑分割和高度估计，在三个基准上刷新 SOTA。

现状：从单视角 RGB 卫星图像进行建筑分割和高度估计是城市分析的基础任务，广泛用于城市规划、风险评估、人口映射等下游应用。
痛点：这是一个病态问题——从近顶视角，建筑主要呈现为 2D 辐射图案，高度必须从外观线索间接推断。现有方法存在边界模糊（boundary bleeding）、高层建筑系统性低估、域迁移泛化差等问题。
现有方案不足：多数方法改编单目深度估计架构，依赖外观驱动的回归；多模态方法（SAR、LiDAR）在推理时常不可用；多任务框架中高度估计通常作为次要输出，分割与高度的耦合不充分。
Transformer 瓶颈：Transformer 虽能建模全局上下文但计算复杂度为 \(O(N^2)\)，对高分辨率遥感图像不友好。
核心 idea：利用 VMamba 的线性复杂度全局建模能力，结合三个专门模块强化空间重校准、多尺度聚合和结构化耦合，在 RGB-only 设置下实现高效鲁棒的联合预测。

BuildMamba 采用双路径编码器架构：全局路径使用预训练 VMamba 骨干捕获长距离依赖，局部路径使用 CNN 模块建模局部特征。编码后特征经 Mamba-FPN 多尺度聚合，送入分割和高度估计两个独立解码器。高度预测结果通过掩码感知精修模块利用分割输出进行优化。

模块 1：Mamba Attention Module (MAM)

模块 2：Spatial-Aware Mamba-FPN (S-MambaFPN)

做什么：替代标准 FPN 的精修算子，在每个金字塔层级融合长距离依赖与局部空间线索
核心思路：基线分支使用 VMamba block 的 SS2D 扫描实现长距离传播；空间感知分支使用 3×3 和 7×7 深度卷积提取局部/中距离线索，拼接融合后再经 SS2D 扫描；两分支通过逐元素相乘门控融合
设计动机：标准 FPN 的精修是局部的，难以传播长距离依赖；单纯 Mamba 扫描又可能不足以捕获各向同性的局部上下文和中距离纹理

模块 3：Mask-Aware Height Refinement (MHR)

做什么：利用语义分割输出作为结构先验来精修高度图，消除斑点噪声和边界模糊
核心思路：将原始高度预测 \(H_{raw}\) 和软分割掩码 \(S\) 拼接输入轻量级残差网络，输出残差 \(\Delta H\)，再通过门控函数 \(G(S, \Delta H) = (\varepsilon + (1-\varepsilon)S^\gamma)\Delta H\) 调制，高分割置信度区域获得更强修正
设计动机：高度估计常出现低纹理区域的高频斑点和跨类别边界的出血；分割掩码收敛更快且编码了更可靠的目标支撑与边界信息

分割损失：\(\mathcal{L}_{seg} = \mathcal{L}_{ce} + \mathcal{L}_{dice} + 10\mathcal{L}_{edge}\)，其中边界损失使用 Laplacian 核提取边缘图后计算 BCE
高度回归损失：Huber loss，对小误差二次、大误差线性，避免极端高度值破坏梯度
总损失：\(\mathcal{L}_{total} = \mathcal{L}_{seg} + \mathcal{L}_{reg}\)
训练细节：VMamba 骨干学习率 5e-5（微调），其他部分 5e-4；余弦退火带热重启调度器

模型	DFC19 IoU	DFC23 IoU	Huawei BHE IoU
BuildFormer	0.79	0.78	0.42
ST-UNet	0.84	0.82	0.52
FarSeg++	0.82	0.83	0.52
UANet	0.89	0.92	0.53
BuildMamba	0.90	0.93	0.60

模型	输入	DFC19 RMSE↓	DFC23 RMSE↓	Huawei BHE RMSE↓
LUMNet	RGB+Mask	1.040	3.620	8.521
DSMNet	RGB	3.880	3.389	10.413
IM2HEIGHT	RGB	4.899	7.210	12.301
HTC-DC	RGB	1.227	2.592	10.621
BuildMamba	RGB	1.058	1.772	9.230