ESCA: Contextualizing Embodied Agents via Scene-Graph Generation¶
会议: NeurIPS 2025 (Spotlight)
arXiv: 2510.15963
代码: SGCLIP / ESCA
领域: Graph Learning / Embodied AI
关键词: 场景图生成, 具身智能体, CLIP, 视觉语言模型, 神经符号学习
一句话总结¶
提出 ESCA 框架,通过开放域场景图生成(SGClip 模型)为 MLLM 驱动的具身智能体提供结构化视觉理解上下文,显著降低了感知错误率并提升了任务完成率。
研究背景与动机¶
多模态大语言模型(MLLM)在具身智能体中的应用取得了快速进展,但现有 MLLM 在以下方面仍然存在根本性缺陷:
细粒度视觉-语义关联不足:MLLM 难以可靠地建立低层视觉特征与高层文本语义之间的联系,导致空间和时间上的视觉定位能力薄弱
感知错误是主要失败原因:实证分析表明,高达 69% 的智能体失败源于感知错误(如物体幻觉、实体误识别、空间关系错误等)
现有视觉增强模块的局限:Grounding DINO、YOLO 等物体检测模型主要关注物体识别,忽略了语义属性、物体间关系和时间一致性
方法详解¶
整体框架¶
ESCA(Embodied and Scene-Graph Contextualized Agent)通过四个模块化阶段为 MLLM 提供上下文:
- 选择性概念提取(Selective Concept Extraction):由 MLLM 根据指令和历史信息提取结构化概念,包括实体类别(car, knife)、属性(red, small)和关系(behind, cutting)
- 物体识别(Object Identification):使用 Grounding DINO + SAM2 管线将概念定位到图像中的具体区域,生成精确的分割掩码
- 场景图预测(Scene Graph Prediction):SGClip 模型生成概率化场景图,包含一元事实(物体属性)和二元事实(物体间关系)
- 视觉摘要与验证(Visual Summarization):将场景图转化为自然语言描述,并验证视觉反馈与场景图之间的一致性
关键设计¶
SGClip 模型架构:基于 CLIP 的场景图生成模型,支持三种推理模式: - 实体类别推理:对候选类别使用 softmax 归一化 - 属性推理:构造属性-否定属性对(如 "red" vs "not red"),二元对比计算概率 - 二元关系推理:对目标区域着色标记主客体角色,结合实体类别增强关系短语(如 "(robot, cutting, cabbage)")
ESCA-Video-87K 数据集:从 LLaVA-Video-178K 中构建 87K 视频数据集,每个数据点包含五元组 \((\\bar{I}, L_{cap}, \\Sigma, \\bar{c}, \\phi)\),即视频、字幕、物体轨迹、概念集合和时空程序化规范。
Transfer Protocol:通过定制两个提示模板(概念提取提示和视觉摘要提示)实现向不同下游任务的迁移,无需重新训练核心系统。
损失函数 / 训练策略¶
SGClip 使用神经符号学习管线训练,包含三个损失: - 对比损失:区分匹配和不匹配的视频-规范对,采用分块事件训练策略(每块最多 3 个事件) - 时间损失:提高事件与视频时间段对齐的精度 - 语义损失:利用常识否定知识(如户外场景不太可能有床),从 top-5000 高频关键词中采样语义距离最远的词作为负样本
训练配置:学习率 \(1 \times 10^{-6}\),batch size 2,1 FPS 采样,在 10 块 H100 上训练 3 个 epoch(约 10 天)。
实验关键数据¶
主实验¶
EB-Navigation 环境(成功率 %):
| 模型 | Base | + GD | + ESCA |
|---|---|---|---|
| InternVL-2.5 | 47.33 | 47.67 | 51.66 |
| Gemini-2.0 | 40.68 | 40.53 | 42.00 |
| Qwen2.5 | 44.99 | 48.27 | 49.33 |
| GPT-4o | 51.33 | 53.33 | 54.67 |
EB-Manipulation 环境(成功率 %):
| 模型 | Base | + YOLO | + ESCA |
|---|---|---|---|
| InternVL-2.5 | 19.31 | 19.30 | 24.30 |
| GPT-4o | 23.47 | 28.48 | 34.44 |
关键发现:InternVL-2.5 + ESCA 在 EB-Navigation 上超过了裸 GPT-4o 的性能。
消融实验¶
SGClip 零样本泛化(Recall 指标): - 在 OpenPVSG、Action Genome、VidVRD 三个域外数据集上,SGClip 持续优于原始 CLIP - 用 1K/10K/87K 数据量训练时性能稳步提升
ActivityNet 动作识别:
| 方法 | 数据量 | 准确率 |
|---|---|---|
| SGClip (zero-shot) | 0% | 76.34% |
| CLIP (zero-shot) | 0% | 74.37% |
| SGClip (few-shot) | 5% | 92.10% |
| InternVL-6B (full) | 100% | 95.90% |
仅 5% 训练数据逼近全监督 InternVL-6B 的性能。
VidVRD 场景图关系标注(fine-tune 后):
| 模型 | P@1 | R@1 | P@5 | R@5 | P@10 | R@10 |
|---|---|---|---|---|---|---|
| SGClip-CLIP | 0.469 | 0.085 | 0.321 | 0.250 | 0.246 | 0.353 |
| SGClip | 0.495 | 0.087 | 0.350 | 0.270 | 0.278 | 0.385 |
关键发现¶
- 错误分解分析:ESCA 将 InternVL 在 EB-Navigation 上的感知错误率从 69% 降至 30%
- 跨环境泛化:ESCA 在 EB-Habitat 和 EB-Alfred 环境也有一致提升
- 与 GD/YOLO 对比:虽然 Grounding DINO/YOLO 也能改善基线,但 ESCA 提供了额外的显著增益
亮点与洞察¶
- 选择性场景图:不注入完整场景图(可能降低性能),而是由 MLLM 先识别与指令最相关的概念子集,再生成目标场景图
- 概率化预测:场景图中每个事实都关联置信度分数,能够捕获不确定性
- 模型驱动自监督:通过 GPT-4 生成的字幕和时空规范实现学习信号,完全不需要人工标注
- Transfer Protocol 设计精巧:仅通过两个提示模板即可适配四种不同的具身环境
局限与展望¶
- 实时性不足:LLM 高层规划引入延迟,不适用于低层实时控制
- 仅支持 2D 输入:缺少 3D 表示(如点云)的支持,限制深度推理和空间精度
- 缺乏状态验证:没有形式化机制验证执行过程中的中间和最终状态
相关工作与启发¶
- 与 LASER(ICLR 2025)共享神经符号学习管线,SGClip 可视为其在具身领域的应用
- Scallop 编程语言实现了可微分的符号对齐,是神经符号范式的关键工具
- Transfer Protocol 的设计思想可推广到其他需要跨任务适配的视觉理解系统
评分¶
- 新颖性:⭐⭐⭐⭐ — 选择性场景图 + 神经符号自监督的组合新颖
- 实验完整度:⭐⭐⭐⭐⭐ — 四个具身环境 × 四个 MLLM + 独立场景图评估
- 实用性:⭐⭐⭐⭐ — 即插即用的框架,适用于多种 MLLM
- 写作质量:⭐⭐⭐⭐ — 结构清晰,图示丰富
相关论文¶
- [CVPR 2025] Universal Scene Graph Generation
- [NeurIPS 2025] Interaction-Centric Knowledge Infusion and Transfer for Open-Vocabulary Scene Graph Generation
- [ICLR 2026] Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization
- [CVPR 2025] Unbiased Video Scene Graph Generation via Visual and Semantic Dual Debiasing
- [ECCV 2024] Fine-Grained Scene Graph Generation via Sample-Level Bias Prediction