SA-Occ: Satellite-Assisted 3D Occupancy Prediction in Real World¶

会议: ICCV 2025
arXiv: 2503.16399
代码: https://github.com/chenchen235/SA-Occ
领域: 自动驾驶
关键词: 3D占用预测, 卫星图像, 跨视角融合, 自动驾驶, 多传感器融合

一句话总结¶

提出 SA-Occ，首个利用卫星图像辅助车载相机进行 3D 占用预测的方法，通过动态解耦融合、3D 投影引导和均匀采样对齐三个模块解决跨视角感知挑战，在 Occ3D-nuScenes 上以仅 6.93ms 额外延迟实现 39.05% mIoU（提升 6.97%）。

研究背景与动机¶

领域现状：3D 占用预测（Occupancy Prediction）是自动驾驶感知的核心任务，目标是将周围环境表示为密集的体素网格，每个体素标注语义类别。目前主流方法（如 BEVDet-Occ、FlashOCC、FB-OCC）完全依赖车载街景相机（surround-view cameras），通过 2D→3D 视图变换构建 BEV/3D 特征进行预测。

现有痛点：纯车载视角存在两个固有局限：(1) 遮挡问题——前方大车遮挡后面的物体，建筑物遮挡街角；(2) 远距退化——远处区域分辨率低，3D 投影精度下降严重。这些问题是车载视角的物理限制，无法通过算法完全解决。

核心矛盾：自动驾驶需要准确感知整个周围环境（包括被遮挡和远距区域），但车载相机的视角天然无法覆盖这些区域。

本文目标：引入一个互补视角（卫星俯视图）来弥补车载视角的固有不足。

切入角度：卫星图像提供了天然的鸟瞰视角——不受地面遮挡影响、远近分辨率均匀。虽然卫星图像是历史拍摄的（非实时），但通过 GPS 和 IMU 可以精确获取车辆当前位置对应的卫星区域，且道路的静态结构（建筑、道路、植被）在卫星图像与实时感知之间高度一致。

核心 idea：利用 GPS/IMU 将历史卫星图像与实时车载图像对齐，通过精心设计的跨视角融合模块将卫星的"上帝视角"信息注入 3D 占用预测，补充车载视角的遮挡和远距信息。

方法详解¶

整体框架¶

输入包含两部分：(1) 6 个车载环视相机图像（实时）；(2) 当前车辆 GPS 坐标对应的卫星图像裁剪区域（历史）。车载图像通过基线方法（FlashOCC/BEVDet-Occ）提取 BEV 特征；卫星图像通过专门的编码器提取俯视特征。三个核心模块——动态解耦融合、3D 投影引导、均匀采样对齐——将两种视角特征有效融合。最终的融合 BEV 特征送入占用预测头输出体素级语义标签。整体框架即插即用，可增强任何 BEV-based 占用预测方法。

关键设计¶

动态解耦融合（Dynamic-Decoupling Fusion, DDF）:
- 功能：解决卫星图像与车载图像在动态物体区域的时空不一致
- 核心思路：卫星图像是历史拍摄的，其中的动态物体（车辆、行人）的位置与当前实时场景不同。如果直接融合，动态区域的卫星信息会引入错误。DDF 模块通过一个动态-静态分离注意力机制解决：首先用车载 BEV 特征中的运动线索（或语义预测）生成一个动态区域掩码，将特征分为动态部分和静态部分；在动态区域，仅使用车载特征（卫星信息不可靠）；在静态区域，通过交叉注意力融合车载和卫星特征（卫星提供互补信息）。融合公式为 \(F_{fused} = M_{static} \cdot \text{CrossAttn}(F_{street}, F_{sat}) + M_{dynamic} \cdot F_{street}\)。
- 设计动机：时间异步是跨视角融合的核心挑战——不做解耦会在动态区域引入严重幻觉（如预测出不存在的车辆）。动态-静态解耦使模型在可靠区域充分利用卫星信息、在不可靠区域回退到车载感知。
3D 投影引导（3D-Proj Guidance）:
- 功能：从 2D 卫星图像中提取 3D 信息
- 核心思路：卫星图像是 2D 俯视图，天然缺少高度信息——但 3D 占用预测需要知道每个体素的高度。3D-Proj 模块利用车载图像的深度估计结果生成 3D 占点云，将其投影到卫星图像坐标系中，作为锚点引导卫星特征提取 3D 结构。具体做法：将车载深度估计的 3D 点云转换到卫星坐标下，对每个 BEV 网格，统计该网格内 3D 点的高度分布作为先验，用这个高度先验对卫星特征进行 weighted lifting（类似 Lift-Splat-Shoot 但权重来自车载深度）。
- 设计动机：卫星图像不包含高度信息是物理限制，不可能从纯卫星图像中恢复精确的 3D 结构。但车载图像有深度信息，将其作为引导信号"注入"卫星特征是巧妙的互补——卫星提供 XY 平面的完整覆盖，车载提供 Z 轴信息。
均匀采样对齐（Uniform Sampling Alignment, USA）:
- 功能：对齐车载和卫星特征在 BEV 网格上的采样密度
- 核心思路：车载相机的 BEV 特征在近处密集、远处稀疏（因为透视投影），而卫星图像的特征在所有距离上是均匀的。直接融合会导致远处区域权重失衡。USA 模块通过可变形注意力（deformable attention）机制，在 BEV 网格的每个位置上自适应调整采样偏移量，使得车载特征和卫星特征在所有距离上的有效采样密度尽可能接近。远处区域的车载采样点更稀疏，模块自动增加卫星采样点的权重以补偿。
- 设计动机：密度不一致是跨视角融合的隐性障碍——如果不做对齐，融合后的特征在远处主要反映卫星信息（因为车载信息太稀疏），在近处主要反映车载信息，导致过渡区域出现不连续性。

损失函数 / 训练策略¶

训练损失包括：(1) 主任务的体素级语义交叉熵损失 + lovász-softmax 损失（处理类别不平衡）；(2) 辅助的 BEV 语义分割损失（引导 BEV 特征学习）；(3) 深度估计辅助损失（监督车载深度预测，用于 3D-Proj Guidance）。训练时先冻结卫星编码器和主干网络联合训练基线，再解冻全部参数端到端微调。

实验关键数据¶

主实验¶

在 Occ3D-nuScenes 上的对比（单帧方法）：

方法	Backbone	帧数	mIoU(%)	额外延迟
BEVDetOCC	R50	1	31.60	-
FlashOCC (M1)	R50	1	32.08	-
SA-OCC (V1)	R50+R18(sat)	1	39.05	6.93ms
FlashOCC-4D-Stereo (M2)	R50	2	37.84	-
SA-OCC (V2)	R50+R18(sat)	2	40.65	6.93ms
FlashOCC-4D-Stereo (M3)	Swin-B	2	43.52	-
SA-OCC (V4)	Swin-B+R18(sat)	2	43.90	6.93ms
SA-OCC (V5)	Swin-B+R50(sat)	2	44.29	6.93ms

消融实验¶

配置	mIoU(%)	说明
Baseline (FlashOCC)	32.08	无卫星辅助
+ 卫星特征直接拼接	34.52	简单融合已有提升
+ Dynamic-Decoupling Fusion	36.83	动态解耦增加 2.31%
+ 3D-Proj Guidance	38.17	高度信息引导增加 1.34%
+ Uniform Sampling Alignment	39.05	密度对齐增加 0.88%
w/o DDF（用全局融合替代）	35.91	不做动态解耦掉 3.14%
w/o 3D-Proj（用均匀lifting）	37.42	无深度引导掉 1.63%

关键发现¶

卫星辅助提升显著且高效：仅增加 6.93ms 延迟即获得 6.97% mIoU 提升，性价比极高
DDF 贡献最大：动态解耦融合是三个模块中贡献最大的（+2.31/+3.14%），证实了处理时间异步的重要性
在夜间场景优势更明显：卫星图像不受光照变化影响（历史图通常在白天拍摄），在车载相机夜间退化严重时提供了稳定的补充信息
远距区域提升最大：40-50m 范围内的预测精度提升约 10%，近距（0-10m）提升较小（约 2%），完全符合设计预期
SA-OCC 在多帧设置下仍有提升（V2: 40.65%），说明卫星信息与时序信息互补

亮点与洞察¶

视角互补的思想非常自然且实用：卫星图像作为"免费"的上帝视角信息源（历史图、公开可用），与车载感知形成天然互补。这个思路可以推广到任何需要超车载视角范围感知的自动驾驶任务。
做到"即插即用"：SA-Occ 的三个模块可以作为插件增强任何 BEV-based 方法，不需要修改基线架构，工程友好度极高。
构建了配套数据集 Occ3D-NuScenes-SatExt：在 nuScenes 基础上扩展卫星图像数据，使得社区可以直接使用，降低了跟进工作的门槛。

局限与展望¶

卫星图像的时效性是根本限制——如果环境发生大规模变化（新建筑、道路施工），历史卫星图会提供错误信息
目前仅在 nuScenes 上验证，该数据集地理区域有限（波士顿和新加坡），在其他地区卫星图覆盖和质量可能不同
GPS/IMU 的定位精度直接影响卫星图像的裁剪对齐——城市峡谷中 GPS 信号不佳时可能导致严重错位
可以探索多时相卫星图融合——利用不同时间拍摄的卫星图相互补充
与 LiDAR 点云的结合——卫星图提供静态先验 + LiDAR 提供实时 3D 信息，替代纯视觉方案可能效果更好

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将卫星图像引入 3D 占用预测，开辟了全新的信息源维度
实验充分度: ⭐⭐⭐⭐ 主实验和消融充分，但仅在 nuScenes 上验证
写作质量: ⭐⭐⭐⭐ 动机清晰，技术方案图示直观
价值: ⭐⭐⭐⭐⭐ 实用价值高——卫星图公开可用、延迟极低、即插即用设计，自动驾驶感知落地友好