SA-Occ: Satellite-Assisted 3D Occupancy Prediction in Real World¶
会议: ICCV 2025
arXiv: 2503.16399
代码: https://github.com/chenchen235/SA-Occ
领域: 自动驾驶
关键词: 3D占用预测, 卫星图像, 跨视角融合, 自动驾驶, 多传感器融合
一句话总结¶
提出 SA-Occ,首个利用卫星图像辅助车载相机进行 3D 占用预测的方法,通过动态解耦融合、3D 投影引导和均匀采样对齐三个模块解决跨视角感知挑战,在 Occ3D-nuScenes 上以仅 6.93ms 额外延迟实现 39.05% mIoU(提升 6.97%)。
研究背景与动机¶
领域现状:3D 占用预测(Occupancy Prediction)是自动驾驶感知的核心任务,目标是将周围环境表示为密集的体素网格,每个体素标注语义类别。目前主流方法(如 BEVDet-Occ、FlashOCC、FB-OCC)完全依赖车载街景相机(surround-view cameras),通过 2D→3D 视图变换构建 BEV/3D 特征进行预测。
现有痛点:纯车载视角存在两个固有局限:(1) 遮挡问题——前方大车遮挡后面的物体,建筑物遮挡街角;(2) 远距退化——远处区域分辨率低,3D 投影精度下降严重。这些问题是车载视角的物理限制,无法通过算法完全解决。
核心矛盾:自动驾驶需要准确感知整个周围环境(包括被遮挡和远距区域),但车载相机的视角天然无法覆盖这些区域。
本文目标:引入一个互补视角(卫星俯视图)来弥补车载视角的固有不足。
切入角度:卫星图像提供了天然的鸟瞰视角——不受地面遮挡影响、远近分辨率均匀。虽然卫星图像是历史拍摄的(非实时),但通过 GPS 和 IMU 可以精确获取车辆当前位置对应的卫星区域,且道路的静态结构(建筑、道路、植被)在卫星图像与实时感知之间高度一致。
核心 idea:利用 GPS/IMU 将历史卫星图像与实时车载图像对齐,通过精心设计的跨视角融合模块将卫星的"上帝视角"信息注入 3D 占用预测,补充车载视角的遮挡和远距信息。
方法详解¶
整体框架¶
输入包含两部分:(1) 6 个车载环视相机图像(实时);(2) 当前车辆 GPS 坐标对应的卫星图像裁剪区域(历史)。车载图像通过基线方法(FlashOCC/BEVDet-Occ)提取 BEV 特征;卫星图像通过专门的编码器提取俯视特征。三个核心模块——动态解耦融合、3D 投影引导、均匀采样对齐——将两种视角特征有效融合。最终的融合 BEV 特征送入占用预测头输出体素级语义标签。整体框架即插即用,可增强任何 BEV-based 占用预测方法。
关键设计¶
-
动态解耦融合(Dynamic-Decoupling Fusion, DDF):
- 功能:解决卫星图像与车载图像在动态物体区域的时空不一致
- 核心思路:卫星图像是历史拍摄的,其中的动态物体(车辆、行人)的位置与当前实时场景不同。如果直接融合,动态区域的卫星信息会引入错误。DDF 模块通过一个动态-静态分离注意力机制解决:首先用车载 BEV 特征中的运动线索(或语义预测)生成一个动态区域掩码,将特征分为动态部分和静态部分;在动态区域,仅使用车载特征(卫星信息不可靠);在静态区域,通过交叉注意力融合车载和卫星特征(卫星提供互补信息)。融合公式为 \(F_{fused} = M_{static} \cdot \text{CrossAttn}(F_{street}, F_{sat}) + M_{dynamic} \cdot F_{street}\)。
- 设计动机:时间异步是跨视角融合的核心挑战——不做解耦会在动态区域引入严重幻觉(如预测出不存在的车辆)。动态-静态解耦使模型在可靠区域充分利用卫星信息、在不可靠区域回退到车载感知。
-
3D 投影引导(3D-Proj Guidance):
- 功能:从 2D 卫星图像中提取 3D 信息
- 核心思路:卫星图像是 2D 俯视图,天然缺少高度信息——但 3D 占用预测需要知道每个体素的高度。3D-Proj 模块利用车载图像的深度估计结果生成 3D 占点云,将其投影到卫星图像坐标系中,作为锚点引导卫星特征提取 3D 结构。具体做法:将车载深度估计的 3D 点云转换到卫星坐标下,对每个 BEV 网格,统计该网格内 3D 点的高度分布作为先验,用这个高度先验对卫星特征进行 weighted lifting(类似 Lift-Splat-Shoot 但权重来自车载深度)。
- 设计动机:卫星图像不包含高度信息是物理限制,不可能从纯卫星图像中恢复精确的 3D 结构。但车载图像有深度信息,将其作为引导信号"注入"卫星特征是巧妙的互补——卫星提供 XY 平面的完整覆盖,车载提供 Z 轴信息。
-
均匀采样对齐(Uniform Sampling Alignment, USA):
- 功能:对齐车载和卫星特征在 BEV 网格上的采样密度
- 核心思路:车载相机的 BEV 特征在近处密集、远处稀疏(因为透视投影),而卫星图像的特征在所有距离上是均匀的。直接融合会导致远处区域权重失衡。USA 模块通过可变形注意力(deformable attention)机制,在 BEV 网格的每个位置上自适应调整采样偏移量,使得车载特征和卫星特征在所有距离上的有效采样密度尽可能接近。远处区域的车载采样点更稀疏,模块自动增加卫星采样点的权重以补偿。
- 设计动机:密度不一致是跨视角融合的隐性障碍——如果不做对齐,融合后的特征在远处主要反映卫星信息(因为车载信息太稀疏),在近处主要反映车载信息,导致过渡区域出现不连续性。
损失函数 / 训练策略¶
训练损失包括:(1) 主任务的体素级语义交叉熵损失 + lovász-softmax 损失(处理类别不平衡);(2) 辅助的 BEV 语义分割损失(引导 BEV 特征学习);(3) 深度估计辅助损失(监督车载深度预测,用于 3D-Proj Guidance)。训练时先冻结卫星编码器和主干网络联合训练基线,再解冻全部参数端到端微调。
实验关键数据¶
主实验¶
在 Occ3D-nuScenes 上的对比(单帧方法):
| 方法 | Backbone | 帧数 | mIoU(%) | 额外延迟 |
|---|---|---|---|---|
| BEVDetOCC | R50 | 1 | 31.60 | - |
| FlashOCC (M1) | R50 | 1 | 32.08 | - |
| SA-OCC (V1) | R50+R18(sat) | 1 | 39.05 | 6.93ms |
| FlashOCC-4D-Stereo (M2) | R50 | 2 | 37.84 | - |
| SA-OCC (V2) | R50+R18(sat) | 2 | 40.65 | 6.93ms |
| FlashOCC-4D-Stereo (M3) | Swin-B | 2 | 43.52 | - |
| SA-OCC (V4) | Swin-B+R18(sat) | 2 | 43.90 | 6.93ms |
| SA-OCC (V5) | Swin-B+R50(sat) | 2 | 44.29 | 6.93ms |
消融实验¶
| 配置 | mIoU(%) | 说明 |
|---|---|---|
| Baseline (FlashOCC) | 32.08 | 无卫星辅助 |
| + 卫星特征直接拼接 | 34.52 | 简单融合已有提升 |
| + Dynamic-Decoupling Fusion | 36.83 | 动态解耦增加 2.31% |
| + 3D-Proj Guidance | 38.17 | 高度信息引导增加 1.34% |
| + Uniform Sampling Alignment | 39.05 | 密度对齐增加 0.88% |
| w/o DDF(用全局融合替代) | 35.91 | 不做动态解耦掉 3.14% |
| w/o 3D-Proj(用均匀lifting) | 37.42 | 无深度引导掉 1.63% |
关键发现¶
- 卫星辅助提升显著且高效:仅增加 6.93ms 延迟即获得 6.97% mIoU 提升,性价比极高
- DDF 贡献最大:动态解耦融合是三个模块中贡献最大的(+2.31/+3.14%),证实了处理时间异步的重要性
- 在夜间场景优势更明显:卫星图像不受光照变化影响(历史图通常在白天拍摄),在车载相机夜间退化严重时提供了稳定的补充信息
- 远距区域提升最大:40-50m 范围内的预测精度提升约 10%,近距(0-10m)提升较小(约 2%),完全符合设计预期
- SA-OCC 在多帧设置下仍有提升(V2: 40.65%),说明卫星信息与时序信息互补
亮点与洞察¶
- 视角互补的思想非常自然且实用:卫星图像作为"免费"的上帝视角信息源(历史图、公开可用),与车载感知形成天然互补。这个思路可以推广到任何需要超车载视角范围感知的自动驾驶任务。
- 做到"即插即用":SA-Occ 的三个模块可以作为插件增强任何 BEV-based 方法,不需要修改基线架构,工程友好度极高。
- 构建了配套数据集 Occ3D-NuScenes-SatExt:在 nuScenes 基础上扩展卫星图像数据,使得社区可以直接使用,降低了跟进工作的门槛。
局限与展望¶
- 卫星图像的时效性是根本限制——如果环境发生大规模变化(新建筑、道路施工),历史卫星图会提供错误信息
- 目前仅在 nuScenes 上验证,该数据集地理区域有限(波士顿和新加坡),在其他地区卫星图覆盖和质量可能不同
- GPS/IMU 的定位精度直接影响卫星图像的裁剪对齐——城市峡谷中 GPS 信号不佳时可能导致严重错位
- 可以探索多时相卫星图融合——利用不同时间拍摄的卫星图相互补充
- 与 LiDAR 点云的结合——卫星图提供静态先验 + LiDAR 提供实时 3D 信息,替代纯视觉方案可能效果更好
相关工作与启发¶
- vs FlashOCC: SA-Occ 直接建立在 FlashOCC 之上作为基线,在其 BEV 特征后增加跨视角融合模块。6.97% 的提升来自完全不同的信息源(卫星视角),是正交的贡献。
- vs DualBEV: DualBEV 融合前后双目相机的 BEV 特征,思路类似但仍在车载视角范围内。SA-Occ 引入了完全不同的卫星视角,信息互补性更强。
- vs BEVFormer / SurroundOcc: 这些方法通过更强的时空 Transformer 提升预测质量,但仍受限于车载视角。SA-Occ 的卫星辅助与这些方法也是正交的,理论上可以结合。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将卫星图像引入 3D 占用预测,开辟了全新的信息源维度
- 实验充分度: ⭐⭐⭐⭐ 主实验和消融充分,但仅在 nuScenes 上验证
- 写作质量: ⭐⭐⭐⭐ 动机清晰,技术方案图示直观
- 价值: ⭐⭐⭐⭐⭐ 实用价值高——卫星图公开可用、延迟极低、即插即用设计,自动驾驶感知落地友好
相关论文¶
- [ICCV 2025] AGO: Adaptive Grounding for Open World 3D Occupancy Prediction
- [ICCV 2025] LookOut: Real-World Humanoid Egocentric Navigation
- [CVPR 2025] GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction
- [ICCV 2025] Semantic Causality-Aware Vision-Based 3D Occupancy Prediction
- [CVPR 2026] TT-Occ: Test-Time 3D Occupancy Prediction