跳转至

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

会议: CVPR 2026
arXiv: 2510.16410
代码: https://changyueshi.github.io/REALM (项目页面)
领域: 多模态VLM / 3D视觉
关键词: 3D推理分割, MLLM-Agent, 3D高斯溅射, 全局到局部空间定位, 3D场景编辑

一句话总结

提出 REALM,一个基于 MLLM-Agent 的开放世界 3D 推理分割框架,利用 3DGS 渲染新视角供 MLLM 理解复杂指令,通过全局到局部空间定位策略实现精确 3D 分割——无需 3D 特定后训练即可处理隐式推理指令,并支持物体移除、替换和风格迁移等 3D 交互任务。

背景与动机

将复杂人类指令(尤其是需要推理的隐式指令,如"移除挡住视线的东西")映射到精确的 3D 物体定位是视觉和机器人领域的重大挑战。现有 3D 分割方法通常只能处理显式类别名称,无法理解需要推理的模糊指令;而擅长推理的 2D VLM 缺乏内在的 3D 空间理解能力。

关键矛盾:直接将渲染视图喂给 MLLM 会导致对视角选择高度敏感——从不同角度看同一物体,MLLM 可能给出不一致的理解。

核心问题

如何在不进行 3D 特定后训练的情况下,让 MLLM 能够理解复杂推理指令并精确定位和分割 3D 场景中的目标物体?

方法详解

整体框架

利用 3DGS 的高质量新视角渲染能力,将 3D 理解问题转化为多视角 2D 理解问题。MLLM 作为 Agent 进行两阶段处理:先全局定位再局部精细分割。

关键设计

  1. 全局到局部空间定位(Global-to-Local Spatial Grounding):
  2. 全局阶段:从 3DGS 渲染多个全局视角,并行输入 MLLM Agent 进行粗粒度定位。通过聚合多视角的响应鲁棒地识别目标物体——解决了单视角敏感性问题
  3. 局部阶段:根据全局定位结果,合成目标物体的多个局部特写视角(close-up novel views),进行精细分割,获得准确且一致的 3D mask

  4. 基于 3DGS 的视角合成: 3D 高斯溅射能渲染逼真的新视角,这些视角非常适合 MLLM 理解——因为它们看起来像真实照片。利用 3DGS 可以自由生成任意角度的观测,为 MLLM 提供最有利的视角进行推理。

  5. MLLM-Agent 架构: MLLM 不仅用于理解和推理,还作为 Agent 协调整个流程——决定需要从哪些视角观察、如何分解任务、如何在局部视角间聚合分割结果。

  6. 开放世界推理分割: 支持显式指令("分割椅子")和隐式推理指令("帮我找到会发光的东西"),无需对 MLLM 做任何 3D 相关的微调。

损失函数 / 训练策略

  • 免训练方法——直接利用预训练 MLLM 和已有的 3DGS 模型
  • 分割结果通过多视角一致性聚合获得 3D mask

实验关键数据

  • 在 LERF、3D-OVS 数据集和新提出的 REALM3D 基准上取得显著性能
  • 同时支持显式和隐式指令的解释
  • 支持多种 3D 交互任务:物体移除、替换、风格迁移

亮点

  • 免 3D 后训练:完全利用现成的 MLLM + 3DGS,无需任何 3D 特定的微调
  • 全局到局部策略:优雅地解决了 MLLM 对视角选择敏感的问题
  • 开放世界推理:不仅支持显式类别名称,还能理解需要逻辑推理的隐式指令
  • 一框架多任务:分割、编辑、移除、替换、风格迁移统一在一个 Agent 框架内
  • 新基准 REALM3D:提出了新的 3D 推理分割基准数据集

局限性 / 可改进方向

  • 依赖 3DGS 的重建质量——如果 3DGS 重建不佳,渲染视角质量下降会影响 MLLM 理解
  • MLLM 的推理能力上限决定了系统天花板
  • 多视角推理增加了推理延迟
  • 仅基于摘要分析,全局局部策略的具体实现细节需参阅原文

与相关工作的对比

  • vs LERF / OpenScene: 这些方法通过特征场嵌入语言特征到 3D 中,但只能处理显式类别查询;REALM 可处理推理性指令
  • vs LangSplat: LangSplat 在高斯上嵌入语言特征,需要额外训练;REALM 免训练
  • vs 2D 推理分割 (LISA): LISA 等方法在 2D 上做推理分割但缺乏 3D 一致性;REALM 通过多视角聚合保证 3D 一致

启发与关联

  • MLLM-Agent 驱动 3D 理解的范式可以推广到更多 3D 任务——如 3D 问答、3D 目标导航
  • 全局到局部的策略对任何需要多视角融合的 MLLM 应用都有参考价值
  • 3DGS 作为"视角工厂"为 MLLM 提供观测的思路很有启发性

评分

  • 新颖性: ⭐⭐⭐⭐ MLLM-Agent + 3DGS 的组合和全局到局部策略新颖
  • 实验充分度: ⭐⭐⭐⭐ 多个基准 + 多种下游任务验证
  • 写作质量: ⭐⭐⭐⭐ 摘要清晰,动机明确
  • 价值: ⭐⭐⭐⭐ 为 3D 场景的语言交互提供了实用框架