EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT¶
基本信息¶
- arXiv: 2510.23569
- 会议: NeurIPS 2025
- 作者: Baoqi Pei, Yifei Huang, Jilan Xu, Yuping He, Guo Chen, Fei Wu, Yu Qiao, Jiangmiao Pang
- 机构: Shanghai AI Lab / 高校与产业联合团队(以论文页为准)
- 代码与数据: https://github.com/InternRobotics/EgoThinker
一句话总结¶
针对第一人称视频推理中“主体不可见、意图隐含、交互细粒度”的挑战,EgoThinker 提出时空 CoT 监督与两阶段训练(SFT + RFT),并构建 EgoRe-5M 大规模 egocentric QA 数据,显著提升 MLLM 在自我中心视频推理与时空定位任务上的表现。
背景与动机¶
现有多模态大模型在第三视角可见事件推理上进步明显,但 egocentric 场景更难: - 相机即人眼,执行者本体不在画面中; - 需要从手部动作、物体关系、场景变化反推意图; - 推理链条本质上是时空因果推理而非静态识别。
因此传统视频问答训练信号不足,模型容易“看见了但想不对”。
核心问题¶
如何让 MLLM 真正学会第一人称视角下的隐式意图推断与细粒度时空定位,而不仅是对表层视觉线索做语言匹配?
方法详解¶
1. EgoRe-5M 数据构建¶
论文构建了大规模 egocentric QA 数据资源: - 来源于约 13M 第一人称视频片段; - 包含多分钟时序片段; - 提供带推理链的答案监督(CoT rationales); - 包含稠密 hand-object grounding 标注。
该数据是方法性能提升的关键基础设施。
2. Spatio-Temporal CoT 监督¶
相比普通答案监督,EgoThinker强调“先推理再回答”: - 引导模型显式描述时空证据链; - 将局部动作、交互对象、时间顺序纳入推理过程; - 减少 shortcut learning。
3. 两阶段学习课程¶
- 阶段1:SFT 在 EgoRe-5M 上注入基础 egocentric 推理能力。
- 阶段2:RFT 进一步强化时空定位与推理一致性,提升细粒度定位效果。
这一课程化训练兼顾可学性与最终性能。
实验结论(摘要可见)¶
- 在多个 egocentric benchmark 上超过已有方法;
- 在细粒度时空定位任务上有显著提升;
- 证明 CoT + 两阶段训练对于第一人称推理有效。
注:详细 benchmark 名称和具体提升幅度可在后续补读正文后补入。
亮点¶
- 任务定义准确:抓住 egocentric 推理“隐主体 + 强时序”的本质难点。
- 数据规模大:EgoRe-5M 提供了高价值训练资产。
- 方法闭环完整:数据、监督形式、训练策略三位一体。
- 与 Agent 场景强相关:第一人称推理直接连接机器人/具身智能。
局限性¶
- 数据构建成本高,复现门槛不低。
- RFT 训练稳定性与奖励设计细节可能影响可迁移性。
- 从离线视频到在线交互 agent 的迁移仍有 gap。
与相关工作的对比¶
- 相比通用 Video QA:更强调意图反演与时空推理链。
- 相比纯监督微调:加入 RFT 强化定位与推理质量。
- 相比仅提升视觉编码:EgoThinker在训练目标层面引入 CoT 结构。
启发¶
- 可与视频 agent 任务结合,做“观察-推理-行动”统一训练。
- 可探索将时空 CoT 与工具调用结合,实现可验证推理。
- 对 VLM 在第一人称人机协作中的可靠性提升有直接价值。
评分¶
- 新颖性:★★★★☆
- 技术深度:★★★★☆
- 实验完整度:★★★★☆(待补全文指标)
- 应用潜力:★★★★★