BANet: Bilateral Aggregation Network for Mobile Stereo Matching¶

会议: ICCV 2025
arXiv: 2503.03259
代码: https://github.com/gangweix/BANet (有)
领域: 3D视觉 / 立体匹配
关键词: 立体匹配, 移动端部署, 双边聚合, 代价体, 2D卷积

一句话总结¶

提出双边聚合网络BANet，通过将代价体分离为高频细节体和低频平滑体分别聚合再融合，仅使用2D卷积即可在移动设备上实现实时高精度立体匹配（骁龙8 Gen 3上45ms，KITTI 2015 D1-all=1.83%，比MobileStereoNet-2D精度高35.3%）。

如何设计一个仅使用移动端友好操作（纯2D卷积）的立体匹配网络，同时保持高精度（清晰边缘+细节保留+无纹理区域准确匹配）？

四步流程：特征提取（MobileNetV2 backbone）→ 相关代价体构建（1/4分辨率）→ 双边聚合（核心创新）→ 视差预测（softmax回归 + 超像素上采样）

双边聚合 (Bilateral Aggregation):
使用空间注意力图 $\mathbf{A}$ 将完整相关代价体 $\mathbf{C}_{cor}$ 分离为两部分：
- 细节代价体：$\mathbf{C}_d = \mathbf{A} \odot \mathbf{C}_{cor}$（高频区域）
- 平滑代价体：$\mathbf{C}_s = (1-\mathbf{A}) \odot \mathbf{C}_{cor}$（低频区域）
分别用独立的聚合分支 $\mathbf{G}_d$ 和 $\mathbf{G}_s$ 处理（结构相同但不共享权重）
最终融合：$\mathbf{C}_{agg} = \mathbf{A} \odot \mathbf{C}'_d + (1-\mathbf{A}) \odot \mathbf{C}'_s$
每个分支由MobileNetV2 inverted residual blocks构成：1/4分辨率4块、1/8分辨率6块、1/16分辨率8块，扩展因子为4
尺度感知空间注意力 (Scale-aware Spatial Attention, SSA):
利用多尺度特征（1/4、1/8、1/16）的感知差异：细尺度感知高频细节，粗尺度感知低频平滑信息
将多尺度特征上采样至1/4分辨率后，各自通过卷积层、拼接、再通过卷积+sigmoid生成注意力图
公式：$\mathbf{S} = Concat[Conv(\mathbf{F}^{up}_{l,16}), Conv(\mathbf{F}^{up}_{l,8}), Conv(\mathbf{F}_{l,4})]$，$\mathbf{A} = \sigma(Conv(\mathbf{S}))$
3D版本扩展 (BANet-3D):
将双边聚合概念应用于3D卷积聚合网络
3D聚合网络包含3个下采样块（2个3×3×3 3D卷积）和3个上采样块（4×4×4转置3D卷积 + 2个3×3×3 3D卷积）
在高端GPU上实现所有已发表实时方法中的最高精度

损失函数：双层Smooth L1 Loss $$\mathcal{L} = \lambda_0 \cdot SmoothL1(\mathbf{d}_0 - \mathbf{d}_{gt}) + \lambda_1 \cdot SmoothL1(\mathbf{d}_1 - \mathbf{d}_{gt})$$
$\lambda_0=0.3$（1/4分辨率视差），$\lambda_1=1.0$（全分辨率视差）
训练策略：Scene Flow 200k步（batch 16）→ KITTI混合微调 50k步，裁剪256×512
优化器：AdamW，one-cycle学习率，最大LR=8e-4
$D_{max}=192$

数据集	指标	BANet-2D	BANet-3D	MobileStereoNet-2D	Fast-ACVNet+	HITNet
Scene Flow	EPE (px)	0.57	0.51	1.11	0.59	-
Scene Flow	Bad 3.0 (%)	2.49	2.21	-	2.70	-
KITTI 2015	D1-all (%)	1.83	1.77	2.83	2.01	1.98
KITTI 2015	D1-bg (%)	1.59	1.52	2.49	1.70	1.74
KITTI 2015	D1-fg (%)	3.03	3.02	4.53	3.53	3.20
KITTI 2012	3-noc (%)	1.38	1.27	-	1.45	1.41
—	MACs (G)	36	78	127	85	47

移动端延迟（骁龙8 Gen 3，512×512输入）：BANet-2D仅需45ms（不到MobileStereoNet-2D的1/3） - 延迟分解：特征提取16ms + 代价体构建6.5ms + 双边聚合22.5ms

双边聚合 (BA) 的效果：
2D基线 EPE 0.63 → +BA 0.59 → +SSA 0.57（Scene Flow）
3D基线 EPE 0.56 → +BA 0.53 → +SSA 0.51
KITTI前景区域D1-fg提升：2D聚合提升17%，3D聚合提升22%
反射区域性能：BA使2D聚合在反射区域提升36.5%，3D聚合提升12.0%
通用性验证：BA插入PSMNet（EPE 1.09→0.77）、GwcNet（0.76→0.67）、Fast-ACVNet+（0.59→0.53），均有显著提升，Fast-ACVNet+的EPE提升10.2%

分治策略的通用性：将代价体按空间频率分离的思想可以推广到光流估计、多视角立体、甚至语义分割中的边缘处理
与自动驾驶代价体研究的关联：ideas目录中的"代价体稀疏占据预测"(ideas/autonomous_driving/20260317_cost_volume_sparse_occ.md)同样关注代价体的高效利用，BANet的高低频分离思路可启发稀疏体素采样中按区域重要性自适应采样
移动端轻量化范式：用MobileNetV2 inverted residual blocks + 任务特定注意力的组合，是移动端密集预测任务的有效设计模式
频率感知思想与bilateral filtering有异曲同工之妙，说明传统图像处理的先验在深度学习时代仍有重要指导意义