REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting¶

会议: CVPR 2026
arXiv: 2510.16410
代码: https://changyueshi.github.io/REALM (项目页面)
领域: 多模态VLM / 3D视觉
关键词: 3D推理分割, MLLM-Agent, 3D高斯溅射, 全局到局部空间定位, 3D场景编辑

一句话总结¶

提出 REALM，一个基于 MLLM-Agent 的开放世界 3D 推理分割框架，利用 3DGS 渲染新视角供 MLLM 理解复杂指令，通过全局到局部空间定位策略实现精确 3D 分割——无需 3D 特定后训练即可处理隐式推理指令，并支持物体移除、替换和风格迁移等 3D 交互任务。

背景与动机¶

将复杂人类指令（尤其是需要推理的隐式指令，如"移除挡住视线的东西"）映射到精确的 3D 物体定位是视觉和机器人领域的重大挑战。现有 3D 分割方法通常只能处理显式类别名称，无法理解需要推理的模糊指令；而擅长推理的 2D VLM 缺乏内在的 3D 空间理解能力。

关键矛盾：直接将渲染视图喂给 MLLM 会导致对视角选择高度敏感——从不同角度看同一物体，MLLM 可能给出不一致的理解。

核心问题¶

如何在不进行 3D 特定后训练的情况下，让 MLLM 能够理解复杂推理指令并精确定位和分割 3D 场景中的目标物体？

方法详解¶

整体框架¶

利用 3DGS 的高质量新视角渲染能力，将 3D 理解问题转化为多视角 2D 理解问题。MLLM 作为 Agent 进行两阶段处理：先全局定位再局部精细分割。

关键设计¶

全局到局部空间定位（Global-to-Local Spatial Grounding）:
全局阶段：从 3DGS 渲染多个全局视角，并行输入 MLLM Agent 进行粗粒度定位。通过聚合多视角的响应鲁棒地识别目标物体——解决了单视角敏感性问题
局部阶段：根据全局定位结果，合成目标物体的多个局部特写视角（close-up novel views），进行精细分割，获得准确且一致的 3D mask
基于 3DGS 的视角合成: 3D 高斯溅射能渲染逼真的新视角，这些视角非常适合 MLLM 理解——因为它们看起来像真实照片。利用 3DGS 可以自由生成任意角度的观测，为 MLLM 提供最有利的视角进行推理。
MLLM-Agent 架构: MLLM 不仅用于理解和推理，还作为 Agent 协调整个流程——决定需要从哪些视角观察、如何分解任务、如何在局部视角间聚合分割结果。
开放世界推理分割: 支持显式指令（"分割椅子"）和隐式推理指令（"帮我找到会发光的东西"），无需对 MLLM 做任何 3D 相关的微调。

损失函数 / 训练策略¶

免训练方法——直接利用预训练 MLLM 和已有的 3DGS 模型
分割结果通过多视角一致性聚合获得 3D mask

实验关键数据¶

在 LERF、3D-OVS 数据集和新提出的 REALM3D 基准上取得显著性能
同时支持显式和隐式指令的解释
支持多种 3D 交互任务：物体移除、替换、风格迁移

亮点¶

免 3D 后训练：完全利用现成的 MLLM + 3DGS，无需任何 3D 特定的微调
全局到局部策略：优雅地解决了 MLLM 对视角选择敏感的问题
开放世界推理：不仅支持显式类别名称，还能理解需要逻辑推理的隐式指令
一框架多任务：分割、编辑、移除、替换、风格迁移统一在一个 Agent 框架内
新基准 REALM3D：提出了新的 3D 推理分割基准数据集

局限性 / 可改进方向¶

依赖 3DGS 的重建质量——如果 3DGS 重建不佳，渲染视角质量下降会影响 MLLM 理解
MLLM 的推理能力上限决定了系统天花板
多视角推理增加了推理延迟
仅基于摘要分析，全局局部策略的具体实现细节需参阅原文

与相关工作的对比¶

vs LERF / OpenScene: 这些方法通过特征场嵌入语言特征到 3D 中，但只能处理显式类别查询；REALM 可处理推理性指令
vs LangSplat: LangSplat 在高斯上嵌入语言特征，需要额外训练；REALM 免训练
vs 2D 推理分割 (LISA): LISA 等方法在 2D 上做推理分割但缺乏 3D 一致性；REALM 通过多视角聚合保证 3D 一致

启发与关联¶

MLLM-Agent 驱动 3D 理解的范式可以推广到更多 3D 任务——如 3D 问答、3D 目标导航
全局到局部的策略对任何需要多视角融合的 MLLM 应用都有参考价值
3DGS 作为"视角工厂"为 MLLM 提供观测的思路很有启发性

评分¶

新颖性: ⭐⭐⭐⭐ MLLM-Agent + 3DGS 的组合和全局到局部策略新颖
实验充分度: ⭐⭐⭐⭐ 多个基准 + 多种下游任务验证
写作质量: ⭐⭐⭐⭐ 摘要清晰，动机明确
价值: ⭐⭐⭐⭐ 为 3D 场景的语言交互提供了实用框架