EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning¶

日期: 2026-03-10
arXiv: 2603.09731
代码: 有（项目页面）
领域: 机器人 / 具身智能
关键词: egocentric reasoning, scene prediction, long-horizon, MLLM benchmark, embodied

一句话总结¶

提出 EXPLORE-Bench 基准——给定初始场景图像和一系列原子动作描述（平均 113 步），要求 MLLM 预测所有动作执行后的最终场景状态。包含 1,157 个实例，在物体/属性/关系三层级做细粒度评估。实验揭示 GPT-5.2、Gemini-3 等 MLLM 与人类差距显著。

研究背景与动机¶

领域现状: 第一人称视角基准覆盖识别、记忆、理解、规划等能力，但缺少需要长期推理的场景预测任务。
关键差距: 现有自中心基准聚焦短期、局部的状态变化（如单个物体在视觉线索后的状态），缺乏对长动作序列引发的全局场景级变化的系统评估。
核心 idea: 形式化"自中心场景预测 + 长期推理"任务，构建结构化标注（物体/属性/关系）的基准，量化评估 MLLM 的具身推理能力。

方法详解¶

任务形式化¶

给定：初始场景图像 + 原子动作描述序列（平均 113 步，最长 694 步）→ 预测：所有动作执行后最终场景的文本描述（包含物体类别、视觉属性、物体间关系）

基准构建管线¶

数据来源: Ego4D + Ego-Exo4D（公开数据集）+ 自录视频，涵盖烹饪、自行车修理等多种场景
视频预处理: 按场景标签过滤 → 提取主活动起止帧 → 检查无运动模糊、无镜头切换、无严重遮挡
场景标注管线（5 步）:
- 物体标签提取: Recognize Anything Plus Model（图像）+ spaCy（文本动作描述）→ 合并 → LLM + 规则过滤无效标签（同义词、人体部位）
- 物体定位: Grounding DINO 检测边界框，每个实例用 "bowl.2" 格式区分
- 属性生成: Qwen3-VL-235B 基于最终场景图像描述每个物体的形状、颜色、大小、纹理、状态等
- 关系生成: Qwen3-VL-235B 生成关系三元组 (object.0, relation, object.1)，含空间关系（under/on/next_to）和交互关系（holding/pouring）
- 标注校正: GPT-5.2 最终校正 + 人工质控审核

评估协议（三层级）¶

物体级覆盖率 \(S_{obj}\): Sentence-BERT 计算候选物体与标注物体的相似度矩阵 → 互最大匹配 → 软覆盖分数
属性级分数 \(S_{att}\): LLM（Qwen3-8B）对每个匹配物体的属性描述评分 0-5 分
关系级分数 \(S_{rel}\): LLM 评估关系三元组对齐度，同样 0-5 分
统一分数 \(S_{uni}\): \(= 0.25 \cdot S_{obj} + 0.35 \cdot (20 \cdot S_{att}) + 0.40 \cdot (20 \cdot S_{rel})\)

数据集规模¶

1,157 个实例，分为 Short（11-99步，599个）/ Medium（100-199步，430个）/ Long（200-694步，128个）
23,771 个物体，1,612 个类别，平均每实例 20+ 物体
视频平均时长 358 秒，最长 1,525 秒

实验关键数据¶

主要评测结果（Full 数据集 \(S_{uni}\)）¶

模型	\(S_{obj}\)	\(S_{att}\)	\(S_{rel}\)	\(S_{uni}\)
Human	71.38	2.51	2.95	59.08
GPT-5.2-Chat	59.69	1.70	2.67	48.19
Gemini-3-Pro	60.94	1.77	2.75	49.66
Qwen3-VL-8B (Non-thinking)	61.59	1.88	2.83	51.27
Qwen3-VL-8B (Thinking)	63.79	1.92	2.86	52.55
InternVL3.5-38B	62.34	1.85	2.80	51.38
Embodied-Reasoner	55.94	1.50	2.44	43.13

按动作序列长度分析¶

长度	Human \(S_{uni}\)	GPT-5.2 \(S_{uni}\)	Gap
Short (11-99)	61.56	48.71	12.85
Medium (100-199)	57.87	47.85	10.02
Long (200-694)	51.50	46.91	4.59

关键发现¶

所有 MLLM 与人类差距显著：最好模型（Qwen3-VL-8B Thinking）统一分数 52.55 vs 人类 59.08——差距约 7 分
动作序列越长，人类优势越小：Long 子集上差距缩小到 4.59 分→可能因为超长序列下人类表现也退化
Thinking 模式有帮助但有限：Qwen3-VL-8B Thinking vs Non-thinking 仅提升 1.28 分
专为具身设计的模型（Embodied-Reasoner）反而最差（43.13）——说明现有具身推理方法缺乏长期状态追踪能力
LLM 评分与人类判断高度一致：Spearman ρ=0.919（人类内部 0.912-0.936）

亮点与洞察¶

任务设计切中要害——从动作序列推断场景变化是具身智能的核心能力，此前从未被系统评估
三层级结构化标注（物体+属性+关系）使评估远超传统文本相似度
LLM 评分与人类判断高度一致（Spearman ρ=0.919）

局限性 / 可改进方向¶

使用文本动作描述而非实际视频序列，与真实具身场景有差距
标注管线依赖大模型（Qwen3-VL、GPT-5.2），可能引入偏差

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个长期自中心场景预测基准
实验充分度: ⭐⭐⭐⭐⭐ 20+ 模型 + 人类对比 + 分步推理分析
写作质量: ⭐⭐⭐⭐ 结构清晰，数据分析详尽
价值: ⭐⭐⭐⭐⭐ 为具身 MLLM 评测提供了关键缺失的维度