REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting¶
会议: CVPR 2026
arXiv: 2510.16410
代码: https://changyueshi.github.io/REALM (项目页面)
领域: 多模态VLM / 3D视觉
关键词: 3D推理分割, MLLM-Agent, 3D高斯溅射, 全局到局部空间定位, 3D场景编辑
一句话总结¶
提出 REALM,一个基于 MLLM-Agent 的开放世界 3D 推理分割框架,利用 3DGS 渲染新视角供 MLLM 理解复杂指令,通过全局到局部空间定位策略实现精确 3D 分割——无需 3D 特定后训练即可处理隐式推理指令,并支持物体移除、替换和风格迁移等 3D 交互任务。
背景与动机¶
将复杂人类指令(尤其是需要推理的隐式指令,如"移除挡住视线的东西")映射到精确的 3D 物体定位是视觉和机器人领域的重大挑战。现有 3D 分割方法通常只能处理显式类别名称,无法理解需要推理的模糊指令;而擅长推理的 2D VLM 缺乏内在的 3D 空间理解能力。
关键矛盾:直接将渲染视图喂给 MLLM 会导致对视角选择高度敏感——从不同角度看同一物体,MLLM 可能给出不一致的理解。
核心问题¶
如何在不进行 3D 特定后训练的情况下,让 MLLM 能够理解复杂推理指令并精确定位和分割 3D 场景中的目标物体?
方法详解¶
整体框架¶
利用 3DGS 的高质量新视角渲染能力,将 3D 理解问题转化为多视角 2D 理解问题。MLLM 作为 Agent 进行两阶段处理:先全局定位再局部精细分割。
关键设计¶
- 全局到局部空间定位(Global-to-Local Spatial Grounding):
- 全局阶段:从 3DGS 渲染多个全局视角,并行输入 MLLM Agent 进行粗粒度定位。通过聚合多视角的响应鲁棒地识别目标物体——解决了单视角敏感性问题
-
局部阶段:根据全局定位结果,合成目标物体的多个局部特写视角(close-up novel views),进行精细分割,获得准确且一致的 3D mask
-
基于 3DGS 的视角合成: 3D 高斯溅射能渲染逼真的新视角,这些视角非常适合 MLLM 理解——因为它们看起来像真实照片。利用 3DGS 可以自由生成任意角度的观测,为 MLLM 提供最有利的视角进行推理。
-
MLLM-Agent 架构: MLLM 不仅用于理解和推理,还作为 Agent 协调整个流程——决定需要从哪些视角观察、如何分解任务、如何在局部视角间聚合分割结果。
-
开放世界推理分割: 支持显式指令("分割椅子")和隐式推理指令("帮我找到会发光的东西"),无需对 MLLM 做任何 3D 相关的微调。
损失函数 / 训练策略¶
- 免训练方法——直接利用预训练 MLLM 和已有的 3DGS 模型
- 分割结果通过多视角一致性聚合获得 3D mask
实验关键数据¶
- 在 LERF、3D-OVS 数据集和新提出的 REALM3D 基准上取得显著性能
- 同时支持显式和隐式指令的解释
- 支持多种 3D 交互任务:物体移除、替换、风格迁移
亮点¶
- 免 3D 后训练:完全利用现成的 MLLM + 3DGS,无需任何 3D 特定的微调
- 全局到局部策略:优雅地解决了 MLLM 对视角选择敏感的问题
- 开放世界推理:不仅支持显式类别名称,还能理解需要逻辑推理的隐式指令
- 一框架多任务:分割、编辑、移除、替换、风格迁移统一在一个 Agent 框架内
- 新基准 REALM3D:提出了新的 3D 推理分割基准数据集
局限性 / 可改进方向¶
- 依赖 3DGS 的重建质量——如果 3DGS 重建不佳,渲染视角质量下降会影响 MLLM 理解
- MLLM 的推理能力上限决定了系统天花板
- 多视角推理增加了推理延迟
- 仅基于摘要分析,全局局部策略的具体实现细节需参阅原文
与相关工作的对比¶
- vs LERF / OpenScene: 这些方法通过特征场嵌入语言特征到 3D 中,但只能处理显式类别查询;REALM 可处理推理性指令
- vs LangSplat: LangSplat 在高斯上嵌入语言特征,需要额外训练;REALM 免训练
- vs 2D 推理分割 (LISA): LISA 等方法在 2D 上做推理分割但缺乏 3D 一致性;REALM 通过多视角聚合保证 3D 一致
启发与关联¶
- MLLM-Agent 驱动 3D 理解的范式可以推广到更多 3D 任务——如 3D 问答、3D 目标导航
- 全局到局部的策略对任何需要多视角融合的 MLLM 应用都有参考价值
- 3DGS 作为"视角工厂"为 MLLM 提供观测的思路很有启发性
评分¶
- 新颖性: ⭐⭐⭐⭐ MLLM-Agent + 3DGS 的组合和全局到局部策略新颖
- 实验充分度: ⭐⭐⭐⭐ 多个基准 + 多种下游任务验证
- 写作质量: ⭐⭐⭐⭐ 摘要清晰,动机明确
- 价值: ⭐⭐⭐⭐ 为 3D 场景的语言交互提供了实用框架