EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning¶
日期: 2026-03-10
arXiv: 2603.09731
代码: 有(项目页面)
领域: 机器人 / 具身智能
关键词: egocentric reasoning, scene prediction, long-horizon, MLLM benchmark, embodied
一句话总结¶
提出 EXPLORE-Bench 基准——给定初始场景图像和一系列原子动作描述(平均 113 步),要求 MLLM 预测所有动作执行后的最终场景状态。包含 1,157 个实例,在物体/属性/关系三层级做细粒度评估。实验揭示 GPT-5.2、Gemini-3 等 MLLM 与人类差距显著。
研究背景与动机¶
-
领域现状: 第一人称视角基准覆盖识别、记忆、理解、规划等能力,但缺少需要长期推理的场景预测任务。
-
关键差距: 现有自中心基准聚焦短期、局部的状态变化(如单个物体在视觉线索后的状态),缺乏对长动作序列引发的全局场景级变化的系统评估。
-
核心 idea: 形式化"自中心场景预测 + 长期推理"任务,构建结构化标注(物体/属性/关系)的基准,量化评估 MLLM 的具身推理能力。
方法详解¶
任务形式化¶
给定:初始场景图像 + 原子动作描述序列(平均 113 步,最长 694 步)→ 预测:所有动作执行后最终场景的文本描述(包含物体类别、视觉属性、物体间关系)
基准构建管线¶
- 数据来源: Ego4D + Ego-Exo4D(公开数据集)+ 自录视频,涵盖烹饪、自行车修理等多种场景
- 视频预处理: 按场景标签过滤 → 提取主活动起止帧 → 检查无运动模糊、无镜头切换、无严重遮挡
- 场景标注管线(5 步):
- 物体标签提取: Recognize Anything Plus Model(图像)+ spaCy(文本动作描述)→ 合并 → LLM + 规则过滤无效标签(同义词、人体部位)
- 物体定位: Grounding DINO 检测边界框,每个实例用 "bowl.2" 格式区分
- 属性生成: Qwen3-VL-235B 基于最终场景图像描述每个物体的形状、颜色、大小、纹理、状态等
- 关系生成: Qwen3-VL-235B 生成关系三元组 (object.0, relation, object.1),含空间关系(under/on/next_to)和交互关系(holding/pouring)
- 标注校正: GPT-5.2 最终校正 + 人工质控审核
评估协议(三层级)¶
- 物体级覆盖率 \(S_{obj}\): Sentence-BERT 计算候选物体与标注物体的相似度矩阵 → 互最大匹配 → 软覆盖分数
- 属性级分数 \(S_{att}\): LLM(Qwen3-8B)对每个匹配物体的属性描述评分 0-5 分
- 关系级分数 \(S_{rel}\): LLM 评估关系三元组对齐度,同样 0-5 分
- 统一分数 \(S_{uni}\): \(= 0.25 \cdot S_{obj} + 0.35 \cdot (20 \cdot S_{att}) + 0.40 \cdot (20 \cdot S_{rel})\)
数据集规模¶
- 1,157 个实例,分为 Short(11-99步,599个)/ Medium(100-199步,430个)/ Long(200-694步,128个)
- 23,771 个物体,1,612 个类别,平均每实例 20+ 物体
- 视频平均时长 358 秒,最长 1,525 秒
实验关键数据¶
主要评测结果(Full 数据集 \(S_{uni}\))¶
| 模型 | \(S_{obj}\) | \(S_{att}\) | \(S_{rel}\) | \(S_{uni}\) |
|---|---|---|---|---|
| Human | 71.38 | 2.51 | 2.95 | 59.08 |
| GPT-5.2-Chat | 59.69 | 1.70 | 2.67 | 48.19 |
| Gemini-3-Pro | 60.94 | 1.77 | 2.75 | 49.66 |
| Qwen3-VL-8B (Non-thinking) | 61.59 | 1.88 | 2.83 | 51.27 |
| Qwen3-VL-8B (Thinking) | 63.79 | 1.92 | 2.86 | 52.55 |
| InternVL3.5-38B | 62.34 | 1.85 | 2.80 | 51.38 |
| Embodied-Reasoner | 55.94 | 1.50 | 2.44 | 43.13 |
按动作序列长度分析¶
| 长度 | Human \(S_{uni}\) | GPT-5.2 \(S_{uni}\) | Gap |
|---|---|---|---|
| Short (11-99) | 61.56 | 48.71 | 12.85 |
| Medium (100-199) | 57.87 | 47.85 | 10.02 |
| Long (200-694) | 51.50 | 46.91 | 4.59 |
关键发现¶
- 所有 MLLM 与人类差距显著:最好模型(Qwen3-VL-8B Thinking)统一分数 52.55 vs 人类 59.08——差距约 7 分
- 动作序列越长,人类优势越小:Long 子集上差距缩小到 4.59 分→可能因为超长序列下人类表现也退化
- Thinking 模式有帮助但有限:Qwen3-VL-8B Thinking vs Non-thinking 仅提升 1.28 分
- 专为具身设计的模型(Embodied-Reasoner)反而最差(43.13)——说明现有具身推理方法缺乏长期状态追踪能力
- LLM 评分与人类判断高度一致:Spearman ρ=0.919(人类内部 0.912-0.936)
亮点与洞察¶
- 任务设计切中要害——从动作序列推断场景变化是具身智能的核心能力,此前从未被系统评估
- 三层级结构化标注(物体+属性+关系)使评估远超传统文本相似度
- LLM 评分与人类判断高度一致(Spearman ρ=0.919)
局限性 / 可改进方向¶
- 使用文本动作描述而非实际视频序列,与真实具身场景有差距
- 标注管线依赖大模型(Qwen3-VL、GPT-5.2),可能引入偏差
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个长期自中心场景预测基准
- 实验充分度: ⭐⭐⭐⭐⭐ 20+ 模型 + 人类对比 + 分步推理分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数据分析详尽
- 价值: ⭐⭐⭐⭐⭐ 为具身 MLLM 评测提供了关键缺失的维度