EA3D: Online Open-World 3D Object Extraction from Streaming Videos¶
会议: NeurIPS 2025
arXiv: 2510.25146
代码: VDIGPKU/EA3D
领域: 3d_vision
关键词: 在线 3D 重建, 开放世界场景理解, Gaussian Splatting, VLM, 特征高斯, 语义分割
一句话总结¶
提出 EA3D(ExtractAnything3D),一个在线开放世界 3D 物体提取框架,通过知识集成特征图、在线视觉里程计和循环联合优化,从流式视频中同时进行几何重建和全面场景理解。
背景与动机¶
自主系统(如机器人)在未知环境中需要"边走边理解"——在线进行 3D 重建和语义理解。现有方法存在三大瓶颈:
- 离线限制:NeRF/3DGS 方法需要完整多视角图像集和长时间优化,无法在线处理
- 几何先验依赖:许多 3D 场景理解方法需要预构建的点云/深度图/mesh
- 2D-3D 不一致:VLM 在 2D 表现出色但直接提升到 3D 时存在视角不一致、遮挡处理差等问题
核心思路:像人类感知一样,从流式视频第一帧开始就同时重建和理解,利用历史观测引导当前理解,新观测修正历史认知。
核心问题¶
如何从流式视频(无已知几何、位姿或语义标注)中在线同时进行 3D 几何重建和开放世界语义理解?
方法详解¶
知识集成特征图¶
VLM 开放世界解释:用 VLM 识别每帧中所有潜在物体及其语义,动态维护在线语义缓存 \(\Omega\)。语义嵌入为连续向量 \(T \in \mathbb{R}^{1 \times V}\)(CLIP 文本编码器)。
语义特征图:用 CLIP 视觉编码器和 Grounded-SAM 获取逐像素语义特征。计算类别相似度生成二值掩码,聚合特征后归一化:\(\mathbf{S} = T \times \mathbf{f}_{sem}\)。
物理属性:扩展文本提示从 VLM 提取物体级和部件级物理属性,编码为可学习向量 \(\mathbf{Y}\)。
特征图嵌入:在每个高斯原语上附加知识集成特征。集成特征图:
相邻帧的匹配分布用于跨帧传播高斯特征:
在线 3D 物体提取¶
在线视觉里程计:用 Cut3R + 深度估计初始化逐帧位姿、点图和置信度图,维护在线关键点图并通过局部 BA 优化修正累积位姿漂移。
在线高斯更新:逐帧增量添加特征高斯,精修已有几何并提取新物体。新观测区域从深度反投影初始化新高斯 \(\mu_i\),共可见区域内高斯共享平移和旋转,减少冗余。同时应用单步分裂策略基于梯度自适应增长高斯。
循环联合优化¶
语义感知自适应高斯正则:
鼓励同一类别的高斯具有相似尺度。
联合语义-几何优化:
其中 \(\mathcal{L}_1\) 为光度损失,\(\mathcal{L}_d\) 为深度损失,\(\mathcal{L}_{kw}\) 为特征图 L2 距离损失。参数设置 \(\lambda_1=0.25\),\(\lambda_2=0.1\),\(\lambda_3=0.15\)。
最终通过 alpha-blending 累积渲染特征:\(\hat{F} = \sum_{i} F_i \cdot \alpha_i \prod_{j=1}^{i-1}(1-\alpha_j)\)。
实验关键数据¶
ScanNet 多任务评估¶
| 方法 | 在线 | 免位姿 | PSNR↑ | SSIM↑ | mIoU↑ | mAcc↑ | AP↑ | mAP↑ |
|---|---|---|---|---|---|---|---|---|
| LangSplat | ✗ | ✗ | 18.4 | 0.69 | 27.5 | 51.3 | - | - |
| GaussianGrouping | ✗ | ✗ | 19.6 | 0.74 | 32.6 | 56.9 | 43.6 | 24.5 |
| FeatureGS | ✗ | ✗ | 23.9 | 0.84 | 41.1 | 66.0 | 51.4 | 32.7 |
| OpenScene | ✗ | ✗ | - | - | 42.8 | 68.6 | 55.7 | 34.8 |
| EmbodiedSAM | ✗ | ✗ | - | - | 44.2 | 71.4 | 58.1 | 39.5 |
| EA3D | ✓ | ✓ | 25.8 | 0.89 | 46.3 | 71.8 | 57.9 | 39.9 |
在线+免位姿条件下,重建和理解质量均超越离线方法。
LERF 稀疏视角与在线稳定性¶
| 方法 | 在线 | 10 views PSNR | 70 views PSNR | 10 views mIoU | 70 views mIoU |
|---|---|---|---|---|---|
| FeatureGS | ✗ | 15.2 | 22.4 | 29.4 | 53.6 |
| OpenGaussian | ✗ | 14.9 | 22.7 | 30.1 | 55.8 |
| EA3D | ✓ | 21.9 | 23.2 | 53.8 | 57.4 |
仅 10 帧即获得远超离线方法的结果,展现出极强的稀疏视角鲁棒性。处理速度 0.235 FPS。
消融实验¶
去掉语义感知正则、在线里程计、联合优化任一组件都导致性能下降,验证了各模块的必要性。
亮点¶
- 统一在线框架:首个同时在线重建+开放世界理解的 3DGS 框架,无需预构建几何或位姿
- 多任务能力:单一框架支持渲染、语义/实例分割、3D 包围盒、语义占用、mesh 生成等多种下游任务
- 知识传播机制:通过匹配分布实现跨帧特征传播,确保知识的时间连续性
- 稀疏视角下仍保持高质量,10 帧 PSNR 即达 21.9
局限性 / 可改进方向¶
- 处理速度仅 0.235 FPS,距实时在线应用仍有距离
- 需要 A100 80GB GPU,部署要求高
- VLM 的开放世界解释质量直接影响最终结果,对小物体可能不够准确
- 在线累积的位姿漂移在长序列中可能恶化
- 仅在室内数据集(ScanNet、LERF)上验证,缺少室外场景评估
与相关工作的对比¶
- vs FeatureGS/OpenGaussian:这些方法离线训练需要完整视角和已知位姿,EA3D 在线处理流式视频且免位姿
- vs MonoGS+VFM:SLAM 方法+VFM 后处理,关键帧追踪稀疏且需额外后优化,EA3D 一体化联合优化
- vs EmbodiedOcc:专为占用预测设计,无法实现照片级渲染;EA3D 多任务统一
- vs HiCoM:流式 3DGS 但需预计算位姿和多视角输入,EA3D 自主估计位姿和单视角输入
启发与关联¶
"在线+免位姿+开放世界"的三重约束极具挑战性和实用价值。知识集成特征图的设计——将 VLM 语义、VFM 视觉特征和物理属性统一编码到高斯原语中——为 3D 场景的全面理解提供了有效范式。循环联合优化中"几何引导理解、理解反哺几何"的思路值得推广。
评分¶
- ⭐ 新颖性: 9/10 — 首个在线免位姿开放世界 3D 物体提取框架,系统级创新
- ⭐ 实验充分度: 8/10 — 多数据集多任务评估+增强基线对比+消融,但缺少室外和大场景
- ⭐ 写作质量: 8/10 — 框架图清晰,动机阐述到位,但部分公式符号较密集
- ⭐ 价值: 9/10 — 高实用价值,直接面向机器人自主探索场景,多任务统一令人印象深刻