跳转至

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

日期: 2026-03-10
arXiv: 2603.09731
代码: 有(项目页面)
领域: 机器人 / 具身智能
关键词: egocentric reasoning, scene prediction, long-horizon, MLLM benchmark, embodied

一句话总结

提出 EXPLORE-Bench 基准——给定初始场景图像和一系列原子动作描述(平均 113 步),要求 MLLM 预测所有动作执行后的最终场景状态。包含 1,157 个实例,在物体/属性/关系三层级做细粒度评估。实验揭示 GPT-5.2、Gemini-3 等 MLLM 与人类差距显著。

研究背景与动机

  1. 领域现状: 第一人称视角基准覆盖识别、记忆、理解、规划等能力,但缺少需要长期推理的场景预测任务。

  2. 关键差距: 现有自中心基准聚焦短期、局部的状态变化(如单个物体在视觉线索后的状态),缺乏对长动作序列引发的全局场景级变化的系统评估。

  3. 核心 idea: 形式化"自中心场景预测 + 长期推理"任务,构建结构化标注(物体/属性/关系)的基准,量化评估 MLLM 的具身推理能力。

方法详解

任务形式化

给定:初始场景图像 + 原子动作描述序列(平均 113 步,最长 694 步)→ 预测:所有动作执行后最终场景的文本描述(包含物体类别、视觉属性、物体间关系)

基准构建管线

  1. 数据来源: Ego4D + Ego-Exo4D(公开数据集)+ 自录视频,涵盖烹饪、自行车修理等多种场景
  2. 视频预处理: 按场景标签过滤 → 提取主活动起止帧 → 检查无运动模糊、无镜头切换、无严重遮挡
  3. 场景标注管线(5 步):
    • 物体标签提取: Recognize Anything Plus Model(图像)+ spaCy(文本动作描述)→ 合并 → LLM + 规则过滤无效标签(同义词、人体部位)
    • 物体定位: Grounding DINO 检测边界框,每个实例用 "bowl.2" 格式区分
    • 属性生成: Qwen3-VL-235B 基于最终场景图像描述每个物体的形状、颜色、大小、纹理、状态等
    • 关系生成: Qwen3-VL-235B 生成关系三元组 (object.0, relation, object.1),含空间关系(under/on/next_to)和交互关系(holding/pouring)
    • 标注校正: GPT-5.2 最终校正 + 人工质控审核

评估协议(三层级)

  • 物体级覆盖率 \(S_{obj}\): Sentence-BERT 计算候选物体与标注物体的相似度矩阵 → 互最大匹配 → 软覆盖分数
  • 属性级分数 \(S_{att}\): LLM(Qwen3-8B)对每个匹配物体的属性描述评分 0-5 分
  • 关系级分数 \(S_{rel}\): LLM 评估关系三元组对齐度,同样 0-5 分
  • 统一分数 \(S_{uni}\): \(= 0.25 \cdot S_{obj} + 0.35 \cdot (20 \cdot S_{att}) + 0.40 \cdot (20 \cdot S_{rel})\)

数据集规模

  • 1,157 个实例,分为 Short(11-99步,599个)/ Medium(100-199步,430个)/ Long(200-694步,128个)
  • 23,771 个物体,1,612 个类别,平均每实例 20+ 物体
  • 视频平均时长 358 秒,最长 1,525 秒

实验关键数据

主要评测结果(Full 数据集 \(S_{uni}\)

模型 \(S_{obj}\) \(S_{att}\) \(S_{rel}\) \(S_{uni}\)
Human 71.38 2.51 2.95 59.08
GPT-5.2-Chat 59.69 1.70 2.67 48.19
Gemini-3-Pro 60.94 1.77 2.75 49.66
Qwen3-VL-8B (Non-thinking) 61.59 1.88 2.83 51.27
Qwen3-VL-8B (Thinking) 63.79 1.92 2.86 52.55
InternVL3.5-38B 62.34 1.85 2.80 51.38
Embodied-Reasoner 55.94 1.50 2.44 43.13

按动作序列长度分析

长度 Human \(S_{uni}\) GPT-5.2 \(S_{uni}\) Gap
Short (11-99) 61.56 48.71 12.85
Medium (100-199) 57.87 47.85 10.02
Long (200-694) 51.50 46.91 4.59

关键发现

  • 所有 MLLM 与人类差距显著:最好模型(Qwen3-VL-8B Thinking)统一分数 52.55 vs 人类 59.08——差距约 7 分
  • 动作序列越长,人类优势越小:Long 子集上差距缩小到 4.59 分→可能因为超长序列下人类表现也退化
  • Thinking 模式有帮助但有限:Qwen3-VL-8B Thinking vs Non-thinking 仅提升 1.28 分
  • 专为具身设计的模型(Embodied-Reasoner)反而最差(43.13)——说明现有具身推理方法缺乏长期状态追踪能力
  • LLM 评分与人类判断高度一致:Spearman ρ=0.919(人类内部 0.912-0.936)

亮点与洞察

  • 任务设计切中要害——从动作序列推断场景变化是具身智能的核心能力,此前从未被系统评估
  • 三层级结构化标注(物体+属性+关系)使评估远超传统文本相似度
  • LLM 评分与人类判断高度一致(Spearman ρ=0.919)

局限性 / 可改进方向

  • 使用文本动作描述而非实际视频序列,与真实具身场景有差距
  • 标注管线依赖大模型(Qwen3-VL、GPT-5.2),可能引入偏差

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个长期自中心场景预测基准
  • 实验充分度: ⭐⭐⭐⭐⭐ 20+ 模型 + 人类对比 + 分步推理分析
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,数据分析详尽
  • 价值: ⭐⭐⭐⭐⭐ 为具身 MLLM 评测提供了关键缺失的维度