EA3D: Online Open-World 3D Object Extraction from Streaming Videos¶

会议: NeurIPS 2025
arXiv: 2510.25146
代码: VDIGPKU/EA3D
领域: 3d_vision
关键词: 在线 3D 重建, 开放世界场景理解, Gaussian Splatting, VLM, 特征高斯, 语义分割

一句话总结¶

提出 EA3D（ExtractAnything3D），一个在线开放世界 3D 物体提取框架，通过知识集成特征图、在线视觉里程计和循环联合优化，从流式视频中同时进行几何重建和全面场景理解。

自主系统（如机器人）在未知环境中需要"边走边理解"——在线进行 3D 重建和语义理解。现有方法存在三大瓶颈：

核心思路：像人类感知一样，从流式视频第一帧开始就同时重建和理解，利用历史观测引导当前理解，新观测修正历史认知。

如何从流式视频（无已知几何、位姿或语义标注）中在线同时进行 3D 几何重建和开放世界语义理解？

VLM 开放世界解释：用 VLM 识别每帧中所有潜在物体及其语义，动态维护在线语义缓存 \(\Omega\)。语义嵌入为连续向量 \(T \in \mathbb{R}^{1 \times V}\)（CLIP 文本编码器）。

语义特征图：用 CLIP 视觉编码器和 Grounded-SAM 获取逐像素语义特征。计算类别相似度生成二值掩码，聚合特征后归一化：\(\mathbf{S} = T \times \mathbf{f}_{sem}\)。

物理属性：扩展文本提示从 VLM 提取物体级和部件级物理属性，编码为可学习向量 \(\mathbf{Y}\)。

特征图嵌入：在每个高斯原语上附加知识集成特征。集成特征图：

\[\mathbf{F}_t = \sum_{i,j} \mathbf{X}^{\text{self}}_{i,j} \cdot \mathbf{S}_{i,j}(\mathbf{T}_k; \mathbf{Y}_{i,j}) \cdot \mathbf{C}_t\]

相邻帧的匹配分布用于跨帧传播高斯特征：

\[\mathbf{M}_{t,t-1} = \text{Softmax}\left(\frac{\mathbf{F}_t \mathbf{F}_{t-1}^\top}{\|\mathbf{F}_t\| \|\mathbf{F}_{t-1}^\top\|}\right)\]

在线视觉里程计：用 Cut3R + 深度估计初始化逐帧位姿、点图和置信度图，维护在线关键点图并通过局部 BA 优化修正累积位姿漂移。

在线高斯更新：逐帧增量添加特征高斯，精修已有几何并提取新物体。新观测区域从深度反投影初始化新高斯 \(\mu_i\)，共可见区域内高斯共享平移和旋转，减少冗余。同时应用单步分裂策略基于梯度自适应增长高斯。

语义感知自适应高斯正则：

\[\mathcal{L}_\delta = \sum |\delta_i - \bar{\delta}| F_{sem}^q\]

鼓励同一类别的高斯具有相似尺度。

联合语义-几何优化：

\[\mathcal{L} = \sum_{t=0}^{t_{\text{now}}} \lambda_1 \mathcal{L}_1 + \lambda_2 \mathcal{L}_d + \lambda_3 \mathcal{L}_{kw} + \mathcal{L}_\delta\]

其中 \(\mathcal{L}_1\) 为光度损失，\(\mathcal{L}_d\) 为深度损失，\(\mathcal{L}_{kw}\) 为特征图 L2 距离损失。参数设置 \(\lambda_1=0.25\)，\(\lambda_2=0.1\)，\(\lambda_3=0.15\)。

最终通过 alpha-blending 累积渲染特征：\(\hat{F} = \sum_{i} F_i \cdot \alpha_i \prod_{j=1}^{i-1}(1-\alpha_j)\)。

方法	在线	免位姿	PSNR↑	SSIM↑	mIoU↑	mAcc↑	AP↑	mAP↑
LangSplat	✗	✗	18.4	0.69	27.5	51.3	-	-
GaussianGrouping	✗	✗	19.6	0.74	32.6	56.9	43.6	24.5
FeatureGS	✗	✗	23.9	0.84	41.1	66.0	51.4	32.7
OpenScene	✗	✗	-	-	42.8	68.6	55.7	34.8
EmbodiedSAM	✗	✗	-	-	44.2	71.4	58.1	39.5
EA3D	✓	✓	25.8	0.89	46.3	71.8	57.9	39.9

在线+免位姿条件下，重建和理解质量均超越离线方法。

方法	在线	10 views PSNR	70 views PSNR	10 views mIoU	70 views mIoU
FeatureGS	✗	15.2	22.4	29.4	53.6
OpenGaussian	✗	14.9	22.7	30.1	55.8
EA3D	✓	21.9	23.2	53.8	57.4

仅 10 帧即获得远超离线方法的结果，展现出极强的稀疏视角鲁棒性。处理速度 0.235 FPS。

去掉语义感知正则、在线里程计、联合优化任一组件都导致性能下降，验证了各模块的必要性。

"在线+免位姿+开放世界"的三重约束极具挑战性和实用价值。知识集成特征图的设计——将 VLM 语义、VFM 视觉特征和物理属性统一编码到高斯原语中——为 3D 场景的全面理解提供了有效范式。循环联合优化中"几何引导理解、理解反哺几何"的思路值得推广。