跳转至

EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT

基本信息

  • arXiv: 2510.23569
  • 会议: NeurIPS 2025
  • 作者: Baoqi Pei, Yifei Huang, Jilan Xu, Yuping He, Guo Chen, Fei Wu, Yu Qiao, Jiangmiao Pang
  • 机构: Shanghai AI Lab / 高校与产业联合团队(以论文页为准)
  • 代码与数据: https://github.com/InternRobotics/EgoThinker

一句话总结

针对第一人称视频推理中“主体不可见、意图隐含、交互细粒度”的挑战,EgoThinker 提出时空 CoT 监督与两阶段训练(SFT + RFT),并构建 EgoRe-5M 大规模 egocentric QA 数据,显著提升 MLLM 在自我中心视频推理与时空定位任务上的表现。

背景与动机

现有多模态大模型在第三视角可见事件推理上进步明显,但 egocentric 场景更难: - 相机即人眼,执行者本体不在画面中; - 需要从手部动作、物体关系、场景变化反推意图; - 推理链条本质上是时空因果推理而非静态识别。

因此传统视频问答训练信号不足,模型容易“看见了但想不对”。

核心问题

如何让 MLLM 真正学会第一人称视角下的隐式意图推断与细粒度时空定位,而不仅是对表层视觉线索做语言匹配?

方法详解

1. EgoRe-5M 数据构建

论文构建了大规模 egocentric QA 数据资源: - 来源于约 13M 第一人称视频片段; - 包含多分钟时序片段; - 提供带推理链的答案监督(CoT rationales); - 包含稠密 hand-object grounding 标注。

该数据是方法性能提升的关键基础设施。

2. Spatio-Temporal CoT 监督

相比普通答案监督,EgoThinker强调“先推理再回答”: - 引导模型显式描述时空证据链; - 将局部动作、交互对象、时间顺序纳入推理过程; - 减少 shortcut learning。

3. 两阶段学习课程

  • 阶段1:SFT 在 EgoRe-5M 上注入基础 egocentric 推理能力。
  • 阶段2:RFT 进一步强化时空定位与推理一致性,提升细粒度定位效果。

这一课程化训练兼顾可学性与最终性能。

实验结论(摘要可见)

  • 在多个 egocentric benchmark 上超过已有方法;
  • 在细粒度时空定位任务上有显著提升;
  • 证明 CoT + 两阶段训练对于第一人称推理有效。

注:详细 benchmark 名称和具体提升幅度可在后续补读正文后补入。

亮点

  1. 任务定义准确:抓住 egocentric 推理“隐主体 + 强时序”的本质难点。
  2. 数据规模大:EgoRe-5M 提供了高价值训练资产。
  3. 方法闭环完整:数据、监督形式、训练策略三位一体。
  4. 与 Agent 场景强相关:第一人称推理直接连接机器人/具身智能。

局限性

  1. 数据构建成本高,复现门槛不低。
  2. RFT 训练稳定性与奖励设计细节可能影响可迁移性。
  3. 从离线视频到在线交互 agent 的迁移仍有 gap。

与相关工作的对比

  • 相比通用 Video QA:更强调意图反演与时空推理链。
  • 相比纯监督微调:加入 RFT 强化定位与推理质量。
  • 相比仅提升视觉编码:EgoThinker在训练目标层面引入 CoT 结构。

启发

  • 可与视频 agent 任务结合,做“观察-推理-行动”统一训练。
  • 可探索将时空 CoT 与工具调用结合,实现可验证推理。
  • 对 VLM 在第一人称人机协作中的可靠性提升有直接价值。

评分

  • 新颖性:★★★★☆
  • 技术深度:★★★★☆
  • 实验完整度:★★★★☆(待补全文指标)
  • 应用潜力:★★★★★