EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT¶

领域现状: MLLM 在第三人称视觉推理上表现出色，但缺乏第一人称（egocentric）视角的具身认知理解。
现有痛点: 现有 egocentric 数据集（Ego4D）缺乏显式推理链、时间跨度标注和细粒度手物定位数据。
核心矛盾: 第一人称推理需要推断不可见的摄像者意图和行为，而非仅识别可见事件。
本文目标: 使 MLLM 具备第一人称推理、精确手物定位和长程时间理解的综合能力。
切入角度: 构建大规模因果 CoT 标注数据 + 两阶段训练（SFT 建立基础 + RFT 强化定位）。
核心 idea: 用 HowTo100M 等网络视频大规模挖掘 egocentric 数据，构建因果推理 QA，再用 GRPO 强化时空定位。

会议: NeurIPS 2025
arXiv: 2510.23569
代码: GitHub
领域: 视频理解
关键词: 第一人称视频, 链式思维推理, 手物交互, 强化微调, 时空定位

一句话总结¶

本文提出 EgoThinker，通过构建 EgoRe-5M 大规模第一人称视频推理数据集（含因果 CoT 标注和手物定位标注）和两阶段训练（SFT + GRPO 强化微调），赋予 MLLM 鲁棒的第一人称推理、手物定位和时间定位能力，在多个 egocentric 基准上实现 SOTA。

EgoRe-5M 数据集 → SFT 阶段（因果 CoT 推理能力）→ RFT 阶段（GRPO 强化手物定位和时间定位）。

EgoRe-5M 数据集: 从 13M egocentric 视频片段构建 500 万 QA 对，包含多分钟片段的因果 CoT 标注、密集手物定位标注。通过多阶段过滤流水线从 HowTo100M（30M 初始片段）中挖掘 egocentric 视频，使用 HTM-AA 和 Howto-Interlink7M 的时间对齐标注。
两阶段训练范式:
- SFT 阶段: 在 EgoRe-5M 上建立 egocentric 理解和推理基础，学习因果 CoT 标注
- RFT 阶段: 使用 GRPO 在时空定位数据上强化精确定位能力，使用 IoU 和 bbox 匹配作为奖励
时空 CoT 标注: 标注包含完整因果关系链（为什么执行此动作→如何执行→接下来做什么），使模型模拟人类 egocentric 因果推理和规划过程。
手物交互数据: 专门构建密集的手-物体交互定位数据，标注手的位置、抓取的物体和交互类型。

基准	EgoThinker	之前 SOTA	提升
EgoSchema	显著提升	-	SOTA
Ego4D NLQ	SOTA	-	+显著
多个 egocentric QA	SOTA	-	-

配置	EgoSchema	Ego4D NLQ	手物定位
仅SFT	良好	中等	较差
SFT+RFT	SOTA	SOTA	最优
仅RFT(无SFT)	差	差	中等