EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT¶

基本信息¶

arXiv: 2510.23569
会议: NeurIPS 2025
作者: Baoqi Pei, Yifei Huang, Jilan Xu, Yuping He, Guo Chen, Fei Wu, Yu Qiao, Jiangmiao Pang
机构: Shanghai AI Lab / 高校与产业联合团队（以论文页为准）
代码与数据: https://github.com/InternRobotics/EgoThinker

针对第一人称视频推理中“主体不可见、意图隐含、交互细粒度”的挑战，EgoThinker 提出时空 CoT 监督与两阶段训练（SFT + RFT），并构建 EgoRe-5M 大规模 egocentric QA 数据，显著提升 MLLM 在自我中心视频推理与时空定位任务上的表现。

现有多模态大模型在第三视角可见事件推理上进步明显，但 egocentric 场景更难： - 相机即人眼，执行者本体不在画面中； - 需要从手部动作、物体关系、场景变化反推意图； - 推理链条本质上是时空因果推理而非静态识别。

因此传统视频问答训练信号不足，模型容易“看见了但想不对”。

如何让 MLLM 真正学会第一人称视角下的隐式意图推断与细粒度时空定位，而不仅是对表层视觉线索做语言匹配？

论文构建了大规模 egocentric QA 数据资源： - 来源于约 13M 第一人称视频片段； - 包含多分钟时序片段； - 提供带推理链的答案监督（CoT rationales）； - 包含稠密 hand-object grounding 标注。

该数据是方法性能提升的关键基础设施。

相比普通答案监督，EgoThinker强调“先推理再回答”： - 引导模型显式描述时空证据链； - 将局部动作、交互对象、时间顺序纳入推理过程； - 减少 shortcut learning。

这一课程化训练兼顾可学性与最终性能。

注：详细 benchmark 名称和具体提升幅度可在后续补读正文后补入。