Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction¶

会议: CVPR 2026 arXiv: 2602.21552 代码: https://github.com/JuIvyy/GPOcc 领域: 自动驾驶 关键词: 占据预测, 视觉几何先验, 高斯表示, 射线采样, 流式更新

一句话总结¶

GPOcc 提出利用可泛化的视觉几何先验（如 VGGT、DepthAnything）进行单目 3D 占据预测，通过沿相机射线向内延伸表面点生成体积采样，以稀疏高斯基元进行概率占据推断，并设计免训练增量更新策略处理流式输入，在 Occ-ScanNet 上单目 mIoU 提升 +9.99、流式提升 +11.79 超越前 SOTA，同时在相同深度先验下速度快 2.65 倍。

研究背景与动机¶

3D 场景理解是具身智能的核心能力，占据预测通过提供前景物体和背景结构的统一体素化表示，成为导航、操作、自动驾驶等下游任务的关键基础模块。

室内场景的细粒度占据预测比户外自动驾驶更具挑战：空间布局杂乱、物体类别多样。现有方法如 ISO 利用深度分布将 2D 特征提升到稠密 3D 体积再用 3D U-Net 处理，但密集表示导致大量计算浪费在空区域。EmbodiedOcc 随机初始化高斯基元并通过迭代交叉注意力精化，但许多高斯落在空区域，表示效率低下。

与此同时，视觉几何基础模型（如 DepthAnything 系列、VGGT 等视觉几何模型 VGM）正快速发展，能提供丰富的深度、点图和相机参数等 3D 先验。但这些模型的输出本质上是面向表面的——深度图和点图限于可见表面，每个像素仅对应一个 3D 表面点，体积内部无法表示。如何将"表面先验"转化为"体积先验"是核心未解决问题。

GPOcc 的核心 idea：沿相机射线将预测的表面点向内延伸，生成体积采样点作为高斯基元中心，用稀疏高斯概率公式推断占据，并通过不透明度剪枝保持高效。

方法详解¶

整体框架¶

给定单张 RGB 图像，视觉几何先验模型（VGGT 或 DepthAnything）预测表面点并提取 3D 感知特征。射线体积采样模块将表面点沿相机射线向内延伸，生成的采样点作为高斯中心。提取的特征与可学习嵌入结合，经 MLP 预测高斯属性（尺度、旋转、不透明度、语义特征）。经不透明度剪枝后，稀疏高斯通过概率公式 splat 为体素占据。流式场景下，免训练增量更新策略将单帧高斯融入全局记忆库。

关键设计¶

射线体积采样（Ray-based Volumetric Sampling）:
做什么：克服几何先验仅预测可见表面的限制，生成物体内部的体积采样
核心思路：给定像素 \((u,v)\) 的深度 \(\mathbf{d}_{(u,v)}\) 和归一化射线方向 \(\mathbf{r}_{(u,v)} = \frac{[x, y, 1]^\top}{\sqrt{x^2+y^2+1}}\)，沿射线在表面点之后采样 \(K\) 个点：\(\mathbf{x}_{(u,v,k)} = (\mathbf{d}_{(u,v)} + \delta_k) \mathbf{r}_{(u,v)}\)，其中 \(\{\delta_k\}_{k=1}^K = \text{linspace}(0,1,K) \cdot \text{scale}(\cdot)\)，scale 由网络动态预测以适应不同物体尺寸
特征提取：引入可学习嵌入 \(\mathbf{E} \in \mathbb{R}^{K \times C}\)，与降采样特征图广播相加 \(\hat{\mathbf{F}}^{1/4} = \mathbf{F}^{1/4} \oplus \mathbf{E}\)，经 MLP 预测高斯属性 \(\{s_i, r_i, a_i, c_i\} = \text{MLP}(\hat{\mathbf{F}}^{1/4})\)
设计动机：表面先验无法覆盖物体的真实厚度/体积，沿射线向内延伸是从 2D 到 3D 最自然的扩展方式，避免了稠密 3D 锚点或全 3D 体积提升的开销
不透明度剪枝 + 稀疏高斯到占据:
做什么：从稀疏高斯基元推断体素级占据，同时去除无效高斯保持效率
核心思路：采用概率高斯叠加公式（GaussianFormer2）：\(\hat{o}(p; \mathbf{G}) = \sum_{i \in \mathcal{N}(p)} g_i(p; \mu_i, s_i, r_i, a_i, c_i)\)，其中 \(o(p; \mathcal{G}_i) = \exp(-\frac{1}{2}(p-\mu_i)^\top \Sigma_i^{-1}(p-\mu_i))\)。不透明度低于阈值 \(\tau = 0.01\) 的高斯被剪枝
设计动机：与 EmbodiedOcc 预定义稠密 3D 高斯锚点再分类的策略不同，GPOcc 的高斯自然集中在物体表面和内部，大部分空区域无高斯覆盖即被分类为空，效率远高于稠密方案。远离所有高斯的区域自然为空体素
免训练增量更新策略:
做什么：将单帧高斯预测扩展到流式视频输入，逐帧融合为全局一致的场景表示
核心思路：维护全局高斯记忆库 \(\mathcal{M}\)。每帧预测的高斯经相机位姿变换到世界坐标系后，与记忆库中的高斯进行空间邻近搜索（半径 \(\epsilon\)）。若找到邻居则加权平均融合：\(\theta_i \leftarrow \frac{\gamma p_i \theta_i + (1-\gamma) \sum_j p_j \theta_j}{\gamma p_i + (1-\gamma) \sum_j p_j}\)，\(\theta \in \{\mu, \Sigma, a, c\}\)，\(\gamma < 0.5\) 使新帧权重更高。无邻居的新高斯直接插入记忆库
设计动机：无需重新训练即可处理流式输入，加权融合自然结合不确定性感知和时序平滑，top-1 类别置信度 \(p\) 作为权重引入语义一致性先验

损失函数 / 训练策略¶

复合损失函数：\(\mathcal{L} = L_{\text{focal}} + L_{\text{lov}} + L_{\text{scal}}^{\text{geo}} + L_{\text{scal}}^{\text{sem}} + L_{\text{depth}}\)
\(L_{\text{focal}}\)：focal loss 处理类别不平衡
\(L_{\text{lov}}\)：Lovász-Softmax loss 优化 IoU
\(L_{\text{scal}}^{\text{geo/sem}}\)：场景类别亲和力损失（几何+语义）
\(L_{\text{depth}}\)：Huber 深度损失，端到端优化几何一致性（不同于 EmbodiedOcc 依赖外部预训练深度估计器）
训练：AdamW（weight decay 0.01），10 epochs，batch 8，4×A800 GPU，学习率 cosine 衰减至 \(2 \times 10^{-4}\)
输入图像长边缩放至 518px，梯度裁剪 1.0

实验关键数据¶

主实验¶

数据集	指标	GPOcc-VGGT	GPOcc-DPT	EmbodiedOcc++	提升(VGGT)
Occ-ScanNet（单目）	IoU↑	63.14	56.96	54.90	+8.24
Occ-ScanNet（单目）	mIoU↑	56.19	51.88	46.20	+9.99
EmbodiedOcc-ScanNet（流式）	IoU↑	61.41	56.39	52.20	+9.21
EmbodiedOcc-ScanNet（流式）	mIoU↑	55.39	51.22	43.60	+11.79

效率对比（Occ-ScanNet）¶

模型	IoU	mIoU	FPS	参数量
ISO	42.16	28.71	3.63	303.05M
EmbodiedOcc	53.55	45.15	10.66	231.45M
Ours-DPT	56.96	51.88	28.22	97.95M
Ours-VGGT	63.14	56.19	5.26	942.31M

消融实验¶

配置	mIoU	IoU	#Gaussians	说明
K=1（仅表面点）	47.88	53.10	3079	无内部采样性能最差
K=4	55.28	60.35	2731	内部采样大幅提升
K=16（默认）	56.19	63.14	5876	精度饱和，最佳效率点
K=32	56.72	63.84	20206	边际收益递减
τ=0.01（默认）	56.19	63.14	5876	最佳阈值
τ=0.05	54.16	60.84	1612	剪枝过多
τ=0.10	52.65	58.31	930	严重损失精度

关键发现¶

相同深度先验（DepthAnything）下，GPOcc-DPT 比 EmbodiedOcc 快 2.65 倍（28.22 vs 10.66 FPS），mIoU 高 +6.73，参数量不到一半（97.95M vs 231.45M）——充分证明射线采样+稀疏高斯的架构效率优势
从 K=1（仅表面点）到 K=16，mIoU 提升 +8.31，IoU 提升 +10.04，证明体积内部采样的必要性
更强的几何先验（VGGT vs DPT）带来一致额外增益（+4.31 mIoU），说明框架能充分受益于更强的基础模型
不透明度剪枝在 τ=0.01 几乎不损失精度但有效控制高斯数量

亮点与洞察¶

"沿射线向内延伸"是将表面先验转化为体积先验的最自然思路，简洁而有效
稀疏高斯天然聚焦在物体区域，没有高斯覆盖的空间自动为空体素，避免了稠密方案的大量浪费
免训练增量更新策略的设计巧妙：利用空间邻近融合+置信度加权+新帧高权重，无需额外训练即可扩展到流式场景
框架对不同几何先验模型的兼容性好，可以随着基础模型进步而"免费"获得性能提升

局限性 / 可改进方向¶

VGGT 版本参数量巨大（942.31M）且 FPS 仅 5.26，距离实时部署有差距
射线采样假设物体在表面背后有一定深度（由 scale 预测），对薄结构（如窗帘、墙壁）可能不理想
增量更新策略中的空间半径 \(\epsilon\) 和时序权重 \(\gamma\) 为手动设定的超参数
仅在室内 ScanNet 数据集上验证，向户外/大规模场景的泛化性未知

评分¶

新颖性: ⭐⭐⭐⭐ 射线体积采样+稀疏高斯占据的组合有原创性，但各组件（射线采样、高斯 splatting、增量融合）单独看都不算全新
实验充分度: ⭐⭐⭐⭐⭐ 两个数据集×两种先验+细致的消融（K、τ、效率对比），实验设计严谨全面
写作质量: ⭐⭐⭐⭐ 方法动机清晰，Figure 1 的三种方法对比一目了然，公式推导完整
价值: ⭐⭐⭐⭐⭐ DPT 版本 28 FPS+97.95M 参数的效率使其有实际部署价值，框架兼容不同先验的特性使其具有长期生命力