OccAny: Generalized Unconstrained Urban 3D Occupancy¶

会议: CVPR 2026
arXiv: 2603.23502
代码: https://github.com/valeoai/OccAny (有)
领域: 自动驾驶
关键词: 3D占用预测, 泛化, 无约束场景, 视觉几何基础模型, 语义分割

一句话总结¶

OccAny 提出了首个泛化无约束城市 3D 占用预测框架，能在无标定、域外场景中从单目/序列/环视图像预测度量级占用体素，通过 Segmentation Forcing 和 Novel View Rendering 两项关键设计，在 KITTI 和 nuScenes 上超越所有视觉几何基线。

研究背景与动机¶

领域现状：3D 占用预测（Occupancy Prediction）是自动驾驶场景中的核心感知任务，旨在联合估计密集体素的占用状态和语义标签。现有方法如 SurroundOcc、OccFormer 等已在 nuScenes-Occ 和 SemanticKITTI 上取得不错效果。

现有痛点：(1) 现有方法严重依赖域内标注数据和精确的传感器标定参数（内外参），无法泛化到新场景；(2) 视觉几何基础模型（如 DUSt3R、Depth Anything）虽然泛化性强，但缺乏城市场景的几何补全能力（被遮挡区域）和度量级预测精度；(3) 没有统一框架能同时支持序列输入、单目输入和环视输入三种模式。

核心矛盾：高精度占用预测需要专有数据和标定，但实际应用中往往无法获取这些先验。视觉基础模型的通用性与占用预测所需的城市场景特化之间存在 gap。

本文目标：构建首个"无约束"3D 占用预测框架，能在完全未标定的域外场景中，从任意配置的相机输入生成度量级占用预测和分割特征。

切入角度：作者观察到，可以将视觉几何基础模型（MUSt3R/Depth Anything 3）的强泛化重建能力与大规模分割模型（SAM2/SAM3）的语义能力结合，通过专门的训练策略弥补城市场景的 gap。

核心 idea：提出 Segmentation Forcing 来强制模型学习与分割一致的占用表征，以及 Novel View Rendering 来通过虚拟视角渲染实现几何补全，从而构建一个既保持泛化能力又适配城市场景的统一框架。

方法详解¶

整体框架¶

OccAny 采用两阶段 pipeline：(1) 重建阶段——基于视觉几何基础模型从输入图像重建场景的 3D 点云，并使用分割模型提取每个点的语义特征；(2) 渲染阶段——通过 Novel View Rendering 在虚拟视角下推断未观测区域的几何，从而实现占用补全。最终将 3D 点云体素化为占用网格。框架有两个变体：OccAny（基于 MUSt3R + SAM2）和 OccAny+（基于 Depth Anything 3 + SAM3）。

关键设计¶

Segmentation Forcing:
- 功能：提升占用预测的语义质量，同时实现 mask 级别的实例预测
- 核心思路：在训练过程中，将 SAM2/SAM3 生成的分割 mask 作为监督信号，强制重建模型的输出点云与分割 mask 在特征空间中对齐。具体地，对分割模型输出的每个 mask，将其覆盖区域内的 3D 点的特征蒸馏为一致的语义向量。这种 "distill" 模式让几何重建和语义分割在统一空间中联合学习
- 设计动机：直接使用基础模型的原始重建输出缺乏细粒度语义区分。通过 Segmentation Forcing，占用体素不仅有几何信息，还携带与 SAM 一致的分割特征，实现几何-语义的联合提升
Novel View Rendering（虚拟视角渲染）:
- 功能：补全遮挡区域和未观测区域的 3D 几何
- 核心思路：在测试时（test-time），利用训练好的几何模型从已有重建点云出发，随机采样若干虚拟相机视角（通过旋转和平移生成），在这些新视角下渲染深度图和点云。多个虚拟视角的渲染结果与原始重建结果合并，形成更完整的 3D 点云。这是一种 test-time augmentation 策略，不需要额外训练
- 设计动机：单一或少数真实视角的重建不可避免地存在遮挡盲区。通过虚拟视角渲染，模型可以"想象"被遮挡物体的背面和远处区域，显著提升占用的 recall
Majority Pooling 体素化:
- 功能：将多来源的 3D 点云聚合为体素占用网格
- 核心思路：将来自重建视角和渲染视角的所有 3D 点映射到统一的体素网格中。对每个体素，取其内所有点的语义标签的多数投票作为该体素的最终标签。支持 "separate"（重建和渲染分别投票）和 "unified"（合并投票）两种模式
- 设计动机：多视角点云在体素空间中可能存在冲突的语义预测，多数投票是最鲁棒的聚合策略

损失函数 / 训练策略¶

训练分两阶段：(1) 重建阶段使用度量深度的回归损失训练几何预测，同时使用 Segmentation Forcing 的特征蒸馏损失对齐语义；(2) 渲染阶段训练虚拟视角的深度预测能力。两阶段均使用多个驾驶数据集（Waymo、VKITTI、DDAD、PandaSet、ONCE）联合训练以增强泛化性。OccAny 使用 16 x A100 40G 训练。

实验关键数据¶

主实验¶

数据集/设置	指标	OccAny	OccAny+	之前最佳基线	说明
KITTI 5帧几何	IoU	25.91	27.33	<25	超越所有视觉几何基线
nuScenes 环视几何	IoU	34.15	33.49	<33	无需域内标注
KITTI 5帧语义(distill)	mIoU / mIoU^SC	7.30/13.54	6.49/13.31	-	Segmentation Forcing
nuScenes 环视语义(distill)	mIoU / mIoU^SC	6.65/10.31	7.20/11.51	-	OccAny+更优
KITTI 5帧语义(pretrained)	mIoU / mIoU^SC	7.62/13.75	8.03/13.17	-	使用预训练分割
nuScenes 环视语义(pretrained)	mIoU / mIoU^SC	7.42/10.78	9.45/12.22	-	OccAny+大幅领先

消融实验¶

配置	KITTI IoU	说明
OccAny Full (5帧)	25.91	完整模型
w/o Novel View Rendering	~22	去掉虚拟视角渲染后大幅下降
w/o Segmentation Forcing	~24	语义质量显著降低
OccAny+ Full (DA3+SAM3)	27.33	更强基础模型带来进一步提升
1帧 vs 5帧	24.03 vs 25.91	多帧序列输入提供额外几何线索

关键发现¶

Novel View Rendering 是几何 IoU 提升的最大贡献者，约贡献 3-4 个点的绝对 IoU 提升
OccAny+ 使用 Depth Anything 3（1.1B）+ SAM3 的组合效果更好，但 OccAny（MUSt3R + SAM2）在某些设置下也具竞争力
框架在完全域外（未见过 KITTI/nuScenes）的情况下性能接近域内自监督方法，展示了极强的泛化能力
深度估计指标上，OccAny+ recon 1.1B 在 KITTI 上实现 AbsRel 仅 9.58%，远超 DA3 原始的 33.28%
Ego 轨迹评估 ADE：OccAny+ recon 1.1B 达到 0.90，超越 DA3 1.1B 的 1.12

亮点与洞察¶

首个真正泛化的 3D 占用预测框架：不需要目标域的标注、标定或微调，直接推理即可工作。这对实际部署极有价值
虚拟视角渲染的 test-time augmentation 是一个优雅的设计：它不增加训练复杂度，仅在推理时通过"想象"未见视角来补全几何，思路可迁移到任何 3D 重建任务
框架的模块化设计值得学习：几何重建和语义分割分别由专门的基础模型承担，通过 Segmentation Forcing 桥接，升级基础模型即升级整个系统

局限与展望¶

推理速度偏慢：部分设置需要渲染 150-180 个虚拟视角，单 GPU 推理耗时较长
语义 mIoU 绝对值仍偏低（7-9%），与有监督方法差距较大，主要受限于 SAM 特征与具体语义类别的对齐质量
对遮挡严重的密集城市场景（如狭窄巷道），虚拟视角渲染的补全效果可能有限
目前仅支持静态场景，动态物体（行人、车辆）的时序一致性未建模

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个泛化无约束 3D 占用框架，两项核心设计均具新意
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 KITTI 和 nuScenes，三种输入模式，含重建和轨迹评估
写作质量: ⭐⭐⭐⭐ 逻辑清晰，但方法细节部分略显复杂
价值: ⭐⭐⭐⭐⭐ 实际部署价值极高，解决了 3D 占用预测最核心的泛化瓶颈