Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes (LegoOcc)¶

会议: CVPR 2026 arXiv: 2602.22667 代码: https://github.com/JuIvyy/LegoOcc 领域: 自动驾驶 / 室内场景理解 关键词: 开放词汇占用预测, 3D高斯表示, Poisson聚合, 温度衰减, 室内场景

一句话总结¶

提出 LegoOcc，利用语言嵌入高斯（LE-Gaussians）作为统一的几何-语义中间表示，结合基于 Poisson 过程的高斯到占用（G2O）算子和渐进温度衰减策略，在仅使用二值占用标签（无语义标注）的情况下实现室内场景的单目开放词汇占用预测，在 Occ-ScanNet 上达到 59.50 IoU / 21.05 mIoU。

研究背景与动机¶

室内场景的 3D 语义占用预测对具身智能体至关重要，但面临三大挑战：

室内 vs 室外差异大：室内场景几何更密集、布局更复杂、语义类别更细粒度且长尾分布严重。已有的户外开放词汇占用方法（如 POP-3D、LOcc）直接迁移到室内效果很差（mIoU 仅 5.96/9.25）。
闭集词汇限制：现有室内占用方法（ISO、EmbodiedOcc 等）依赖固定类别标注训练，无法识别训练集外的物体，不适合真实部署。
语义标注成本高：室内场景类别多且分布长尾，密集语义标注代价极高。相比之下，二值占用标签可以通过深度重建自动获取，成本低得多。

因此本文采用 geometry-only supervision（仅二值占用标签，无语义标注）的范式，探索如何在此弱监督条件下实现开放词汇占用预测。

方法详解¶

整体框架¶

LegoOcc 以单目 RGB 图像为输入，由前馈高斯预测器生成一组语言嵌入高斯（LE-Gaussians），每个高斯参数化为：

\[\mathcal{G}_i = (\boldsymbol{\mu}_i, \boldsymbol{\Sigma}_i, \alpha_i, \mathbf{f}_i)\]

其中 $\boldsymbol{\mu}_i, \boldsymbol{\Sigma}_i, \alpha_i$ 编码几何信息，$\mathbf{f}_i \in \mathbb{R}^d$ 是语言对齐的语义嵌入。同一组高斯同时用于： - 几何学习：通过 Poisson-based G2O 算子预测 3D 占用，用二值标签监督 - 语义学习：将高斯特征渲染到图像平面，与开放词汇分割模型（Trident）的特征对齐

推理时，对每个被占用体素的嵌入与文本 prompt 计算余弦相似度，即可实现任意类别的语义查询。

关键设计¶

Poisson-based Gaussian-to-Occupancy (G2O) 算子：解决弱监督下体素聚合不稳定的问题

已有 G2O 方法存在缺陷： - GaussianFormer2：聚合时不考虑 opacity $\alpha_i$，仅用空间核 $p_i(\mathbf{x})$，导致几何聚合与渲染之间不一致 - Bernoulli 方法：引入 $\tilde{\alpha}_i = \alpha_i p_i(\mathbf{x})$ 后用互补概率规则，但多高斯重叠时并集快速饱和到 1，迫使 opacity 学到很小的值，影响特征渲染质量

本文将每个高斯的局部贡献视为非齐次 Poisson 过程的事件强度：

$$h_i(\mathbf{x}) \triangleq \alpha_i p_i(\mathbf{x}), \quad z(\mathbf{x}) = \sum_{i=1}^N h_i(\mathbf{x})$$

占用概率定义为"至少发生一个事件"的概率：

$$p(\mathbf{x}) = 1 - \exp\left(-\sum_{i=1}^N \alpha_i p_i(\mathbf{x})\right)$$

相比 Bernoulli 的乘积形式 $1 - \prod(1-\alpha_i p_i)$，Poisson 的指数加和形式在多高斯重叠时不会饱和，允许 opacity 保持有区分度的值，从而同时稳定几何聚合和语义渲染。

Progressive Temperature Decay（渐进温度衰减）：解决渲染特征混合问题

标准 $\alpha$-blending 渲染特征是沿光线多个高斯嵌入的加权混合，导致像素特征成为混合物而非单个高斯的语言对齐表示。本文引入温度化 sigmoid：

$$\alpha_i = \sigma\left(\frac{\alpha_i^{\text{logit}}}{\tau}\right)$$

并设计指数衰减调度：

$$\tau(r) = \max\{T_{\min}, T_{\max} \cdot (T_{\min}/T_{\max})^r\}$$

其中 $r \in [0,1]$ 为训练进度，默认 $T_{\max}=1, T_{\min}=10^{-3}$。训练初期温度高，保证平滑优化；后期温度低，opacity 趋向 $\{0,1\}$ 二值化，减少特征混合。相比硬 Top-k 选择（如 Dr. Splat），此方法保持端到端可微；相比线性衰减，指数衰减在低温区分配更多迭代步数，效果更好。

多视图特征一致性：利用相邻帧（默认 5 帧）重渲染并施加相同的特征对齐损失，无需额外 2D 标注即可增强跨视角语义一致性。

损失函数 / 训练策略¶

\[L_{\text{total}} = \lambda_{\text{focal}} L_{\text{focal}} + \lambda_{\text{lov}} L_{\text{lov}} + \lambda_{\text{scal}} L_{\text{scal}} + \lambda_{\text{feat}} L_{\text{feat}} + \lambda_{\text{depth}} L_{\text{depth}}\]

$L_{\text{focal}}$：Focal Loss，二值占用监督
$L_{\text{lov}}$：Lovász-Softmax 损失，优化 IoU
$L_{\text{scal}}$：场景类别亲和正则化，促进空间一致性
$L_{\text{feat}}$：余弦对齐损失，渲染特征 vs 开放词汇分割特征（Trident）
$L_{\text{depth}}$：Huber 深度损失，稳定几何学习

训练配置：Depth-Anything V2 作为深度 backbone，AdamW 优化器，lr $2 \times 10^{-4}$ + cosine decay，4×RTX 4090，10 epochs。

实验关键数据¶

主实验¶

方法	Setting	IoU	mIoU	FPS
ISO	闭集（全标注）	42.16	28.71	3.81
EmbodiedOcc	闭集（全标注）	53.55	45.15	11.48
RoboOcc	闭集（全标注）	56.48	47.76	-
POP-3D†	开放词汇	35.32	5.96	10.21
LOcc†	开放词汇	36.70	9.25	8.93
LegoOcc (Ours)	开放词汇	59.50	21.05	22.47

开放词汇设定下，LegoOcc 在 IoU 上超越所有方法（包括闭集），mIoU 比之前最佳开放词汇方法高 11.80（2 倍以上），且推理速度最快。

消融实验¶

G2O 算子	Setting	IoU	mIoU	说明
GaussianFormer2	开放词汇	0.00	0.00	完全崩溃，opacity 不一致
Bernoulli	开放词汇	46.65	17.25	可用但 opacity 被压缩
Poisson	开放词汇	59.50	21.05	最优，稳定聚合

温度策略	$T_{\min}$	$T_{\max}$	IoU	mIoU	说明
无调度 ($\tau=1$)	1.0	1.0	59.19	18.15	几何好但语义差
常数低温 ($\tau=10^{-3}$)	1e-3	1e-3	0.00	0.00	优化崩溃
线性衰减	1e-3	1.0	7.60	2.30	低温迭代不够
指数衰减	1e-3	1.0	59.50	21.05	最优配置

关键发现¶

G2O 算子选择对开放词汇至关重要：GaussianFormer2（不含 opacity）在开放词汇下直接崩溃到 0
温度调度是语义学习的核心：不做调度 mIoU 仅 18.15，加入指数衰减提升到 21.05
开放词汇 LegoOcc 的 IoU（59.50）甚至超越了所有闭集全标注方法的 IoU
当前开放词汇 mIoU 与闭集仍有 ~26 的差距，主要源于室内细粒度类别的文本歧义

亮点与洞察¶

Poisson 过程建模占用的思路很优雅：将高斯贡献视为事件强度，体素占用为"至少一次事件"，物理直觉清晰，数学形式简洁，且自然兼容 opacity
温度调度弥合了渲染与聚合的 gap：渐进锐化 opacity 使特征从"混合物"逐步变为"单体素特征"，是 differentiable 版的 hard assignment
弱监督超越强监督的 IoU：开放词汇模型在几何精度上超过了闭集全标注方法，证明 language-embedded Gaussians 作为中间表示的表达能力很强
推理速度最快（22.47 FPS），比 ISO（3.81）快 6 倍，兼顾性能和效率

局限性 / 可改进方向¶

mIoU 仍有提升空间：开放词汇 mIoU（21.05）与闭集（47.76）差距大，尤其是 tvs（5.36）、furniture（5.88）、objects（6.94）等细粒度类别识别困难
依赖外部模型：需要 Depth-Anything V2 提供深度先验 + Trident 提供开放词汇分割特征 + Qwen2.5-VL 提取物体名词，pipeline 较长
仅验证单一数据集：所有实验在 Occ-ScanNet 上进行，泛化到其他室内场景（如 Matterport3D、Replica）未验证
细粒度语义对齐困难：当多个语义相近的类别在图像空间重叠时（如 furniture vs objects），即使有温度衰减也难以完全消除混淆
单目设置限制：未探索多视图输入对开放词汇占用的增益

评分¶

新颖性: ⭐⭐⭐⭐ Poisson G2O + 温度衰减的组合有理论深度，分析透彻
实验充分度: ⭐⭐⭐ 在 Occ-ScanNet 上做了全面消融，但仅一个数据集
写作质量: ⭐⭐⭐⭐ 问题分析清晰，从 GaussianFormer2→Bernoulli→Poisson 层层递进
价值: ⭐⭐⭐⭐ 首次在大规模室内场景实现实用的开放词汇占用预测，推动具身智能落地

温度策略	\(T_{\min}\)	\(T_{\max}\)	IoU	mIoU	说明
无调度 (\(\tau=1\))	1.0	1.0	59.19	18.15	几何好但语义差
常数低温 (\(\tau=10^{-3}\))	1e-3	1e-3	0.00	0.00	优化崩溃
线性衰减	1e-3	1.0	7.60	2.30	低温迭代不够
指数衰减	1e-3	1.0	59.50	21.05	最优配置