跳转至

Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding

会议: AAAI 2026
arXiv: 2503.09143
代码: https://reurl.cc/Ebpyrm
领域: 视频理解 / 多模态VLM
关键词: 第一人称视频理解, 外中心-自中心知识迁移, 多模态大语言模型, 跨视角映射学习, Ego-Exo对齐

一句话总结

提出 Exo2Ego 框架,通过学习外中心(第三人称)与自中心(第一人称)域之间的映射关系,将 MLLM 中丰富的外中心知识迁移到自中心视频理解,结合新构建的 110万同步 ego-exo clip-text 对数据集 Ego-ExoClip 和 60万指令微调数据集 EgoIT,在 8 个自中心视频基准上取得了领先的开源模型性能。

背景与动机

  1. 自中心视频的重要性:具身认知(embodied cognition)需要第一人称视角理解,应用覆盖智能眼镜、VR/AR、可穿戴设备等,但现有 MLLM 主要聚焦于第三人称视觉。
  2. 数据稀缺:自中心视频采集成本高,数据量远不及网络爬取的外中心数据,限制了 MLLM 训练效果。
  3. 现有跨域方法的缺陷:已有方法(如检索外中心视频辅助训练)需要额外检索时间,且存在对齐偏差和不稳定性。
  4. 认知科学启示:儿童通过观察他人行为(外中心视角)映射到自身体验(自中心视角)来学习——本文将外中心观察者建模为"demonstrator",自中心解释者建模为"learner",通过建立两者间的映射来传递知识。

核心问题

如何在自中心数据有限的条件下,利用 MLLM 中已有的丰富外中心知识来提升自中心视频理解?

关键挑战: - 自中心视频中相机佩戴者运动与环境交互的动态耦合,与固定/第三人称视角截然不同 - 跨域数据获取成本高,配对同步数据稀缺 - 知识迁移过程中需保持行为的视角不变性(cross-view behavior invariance)

方法详解

整体框架

基于 VideoLLaMA2 架构,采用双视觉编码器设计:外中心视觉编码器(demonstrator)和自中心视觉编码器(learner),均为 CLIP-Large-336。LLM 采用 Mistral-7B-Instruct。映射函数 \(F: X \to Y\)\(G: Y \to X\) 由 9 个 ResNet 块(含下采样和上采样)实现。

渐进式三阶段训练管线:

  1. Demonstrator Self-Preparation (Stage 1):冻结 LLM,用 Ego-ExoClip 中的外中心 clip-text 数据微调外中心视觉编码器,确保 demonstrator 适应目标数据分布。使用 VTG (Vision-grounded Text Generation) 损失。
  2. Demonstrator-Learner Guidance (Stage 2):冻结外中心编码器和 LLM,训练自中心编码器及映射函数 \(F\)\(G\),建立自中心-外中心域之间的双向映射。同时使用 Ego-ExoClip 的同步数据。
  3. Learner Self-Practice (Stage 3):使用 EgoIT 指令微调数据,对 LLM 施加 LoRA (rank=128, alpha=256, dropout=0.1),微调自中心编码器和映射函数 \(F\)。将自中心表征 \(x\) 和映射后的外中心估计 \(F(x)\) 拼接输入 LLM。

关键设计

1. 自中心自洽性机制(Egocentric Self-Consistency)

基于跨视角行为不变性(人的行为不受拍摄角度影响),通过双向映射确保一致性: - 前向: \(x \to F(x) \to G(F(x)) \approx x\) - 后向: \(y \to G(y) \to F(G(y)) \approx y\)

2. 数据集构建

  • Ego-ExoClip (1.1M 对):从 Ego-Exo4D 的 5035 个视频组中筛选出 2925 组、15478 个视频,共 623.6 小时,261.3K 叙述文本。将时间戳级标注扩展为 clip 级,平均 clip 时长 0.68 秒。覆盖 8 个日常场景(烹饪、健康、自行车维修等),12 个机构、6 个国家。
  • EgoIT (约 600K 样本):来自 5 个来源——EGTEA (动作识别)、Something-Something-V2 (动作识别)、EgoTimeQA (问答)、OpenEQA (问答)、EgoExoLearn (描述)。使用 GPT-4o 为每个数据集生成 10 种不同指令模板以增加多样性。

3. 知识迁移的优势 - 弱依赖:学到映射后推理时无需跨域数据 - 强泛化:模拟人类学习过程,降低对大规模自中心训练数据的需求

损失函数 / 训练策略

Stage 1: VTG 损失(视觉引导文本生成)

Stage 2: 三项损失联合优化 - Cycle Consistency Loss (CCL): $\(\mathcal{L}_{\text{CCL}}(F, G) = \mathbb{E}_x[\|G(F(x)) - x\|_1] + \mathbb{E}_y[\|F(G(y)) - y\|_1]\)$ - KL 散度: 对齐真实外中心样本 \(y\) 与估计的 \(\hat{y} = F(x)\) 的分布 - VTG 损失

Stage 3: VTG 损失 + LoRA 微调

关键训练超参数: | 配置 | 初始化 | Stage 1&2 | Stage 3 | |------|---------|-----------|---------| | 全局 batch | 512 | 256 | 64 | | 学习率 | 1e-3 | 1e-4 | 2e-5 | | Warmup | 0.1 | 0.03 | 0.03 | | Epoch | 5 | 2 | 1 |

所有实验在 16 块 A800 GPU 上进行,16 帧输入,分辨率 336×336。

实验关键数据

在 8 个自中心视频基准上评估(均为 zero-shot):

基准 指标 Exo2Ego 对比(最佳开源 baseline)
EgoSchema (推理) Acc. 61.3% -
QAEgo4D (闭集) Acc. 62.1% -
QAEgo4D (开集) Acc./Score 28.3/2.7 -
EgoTaskQA (直接) Acc. 44.7% -
EgoTaskQA (间接) Acc. 50.3% -
Charades-Ego mAP 70.9% -
EPIC-KITCHENS-100 mAP/nDCG 49.7%/63.6% -
EgoPlan Val Acc. 42.7% 超 GPT-4o 5.9%
VLN-QA Acc. 44.5% 超 GPT-4o 10.5%
EgoMCQ (Inter) Acc. 88.4% -
EgoMCQ (Intra) Acc. 41.2% -
  • 在 EgoPlan 和 VLN-QA 上分别以 5.9% 和 10.5% 绝对增益超越 GPT-4o
  • 在几乎所有基准上超越所有开源 MLLM 和自中心专用方法
  • 但 EgoSchema 上 GPT-4o (72.2%) 和 Gemini 1.5-Pro (71.2%) 仍然大幅领先

消融实验要点

架构消融 (Table 3,以 Avg 衡量): | 配置 | Avg | |------|-----| | 完整模型 | 55.6 | | 去掉 LoRA | 53.2 (↓2.4) | | 仅前向 cycle consistency | 54.9 (↓0.7) | | 去掉 \(G\) 和 CCL | 54.4 (↓1.2) | | 去掉 KL 散度 | 51.4 (↓4.2,最大降幅) | | 全连接替换 ResNet blocks | 54.7 (↓0.9) |

KL 散度(外中心知识引导)贡献最大,去掉后平均下降 4.2 个点

训练数据消融 (Table 5,VideoLLaMA2 基线): | 配置 | Avg | |------|-----| | 基线(无额外数据) | 38.9 | | + EgoClip | 45.2 (↑6.3) | | + Ego-ExoClip | 47.8 (↑2.6) | | + EgoIT | 49.7 (↑1.9) | | Exo2Ego 完整框架 | 55.6 (↑5.9) |

→ 即使使用相同数据,Exo2Ego 框架仍比 VideoLLaMA2 高 5.9 个点,验证了双编码器架构和迁移策略的独立贡献

阶段消融 (Table 9): - 初始化 → Stage 2: EgoSchema 49.2% → 56.7%,Charades-Ego 62.3% → 64.7% - Stage 2 → Stage 3: EgoSchema 56.7% → 61.3%,Charades-Ego 64.7% → 70.9% - 每个阶段均有显著提升,Stage 3 的指令微调效果最为突出

Prompt 效果 (Table 10): - 基础 prompt: 54.5 avg - 加入任务细节: 55.2 - 加入第一人称视角提示: 55.6 → 第一人称视角提示有 1.1 点增益

亮点

  1. 优雅的认知科学类比:将 exo-ego 知识迁移建模为"demonstrator-learner"过程,概念上清晰、直觉上合理
  2. 推理时不需要外中心数据:学到映射后只用自中心视频就能推理,避免了检索外中心视频的额外开销和不稳定性
  3. 大规模数据集构建:Ego-ExoClip (1.1M 对) 是目前最大的同步 ego-exo clip-text 数据集,具有高度多样性
  4. 消融实验充分:详细探讨了架构、参数更新策略、训练数据和训练策略的影响,Table 3-5 + Figure 5 覆盖全面
  5. 显著超越 GPT-4o:在 EgoPlan (+5.9%) 和 VLN-QA (+10.5%) 等实践导向任务上超越闭源最强模型
  6. 双向 cycle consistency:不仅前向映射,还学习逆映射并强制循环一致性,避免退化解

局限性 / 可改进方向

  1. EgoSchema 上仍显著落后闭源模型:61.3% vs GPT-4o 72.2%,说明在需要长视频深度推理的任务上仍有差距
  2. 训练成本高:初始化阶段需要 103M exo + 3.8M ego 数据,加上三个阶段的训练,16 块 A800 的计算需求不低
  3. 自中心数据规模仍有限:论文自述"训练和评估的自中心数据规模相对较小,多样性有限"
  4. 教师模型选择保守:使用 CLIP-Large-336 作为视觉编码器,Mistral-7B 作为 LLM,若升级到更强的 backbone (如 Qwen2-VL、InternVL) 可能获得更大提升
  5. 映射函数设计较简单:9 个 ResNet blocks 构成的映射函数,虽然消融显示优于全连接,但可以探索更复杂的映射机制(如基于 attention 的)
  6. Clip 粒度问题:82% 的 clip 短于 1 秒,可能不足以捕捉复杂的长时间动作
  7. 缺乏与最新 ego 专用方法的全面对比:如 EgoVLP 系列的最新版本

与相关工作的对比

方法 类型 是否需要检索外中心数据 LLM Avg
EgoVLPv2 Ego 专用 较低
GroundVQA Ego 专用 中等
VideoLLaMA2 通用 MLLM Mistral-7B 38.9
GPT-4o 闭源 MLLM - 高(推理强)
Exo2Ego Ego MLLM 否(仅训练时) Mistral-7B 55.6

与直接检索外中心视频的方法(如 ego-exo retrieval 系列)的区别:Exo2Ego 在训练阶段学习映射,推理时只需自中心视频,不依赖外中心检索。

启发与关联

  1. 从跨域检索到跨域映射学习:这种从"需要配对数据辅助推理"到"只需训练时学映射"的范式转变值得关注,可推广到其他域适应场景
  2. Cycle Consistency 在多模态的应用:源自 CycleGAN 的 cycle consistency 在此被创造性地应用于 ego-exo 特征空间对齐
  3. 双编码器 → 单编码器的可能方向:如果映射学得足够好,是否可以在推理时用一个编码器 + 映射模块替代双编码器?
  4. 与 video foundation model 的结合:当前的视觉编码器为 CLIP,能否利用更强的视频基础模型(如 InternVideo2)进一步提升?
  5. 泛化到其他具身场景:这种 exo→ego 迁移思路可扩展到机器人操作、自动驾驶等场景

评分 (⭐ 1-5)

⭐⭐⭐⭐ (4/5)

理由: - (+) 问题定义清晰,认知科学类比优雅,方法设计合理 - (+) 数据集贡献大 (Ego-ExoClip 是重要的社区资源) - (+) 实验充分,消融详细,在规划和导航任务上甚至超越 GPT-4o - (+) 推理时不依赖外中心数据,实用性强 - (-) 核心方法(cycle consistency + KL)虽有效但非全新,更多是成熟技术的组合应用 - (-) 在推理类任务(EgoSchema)上与闭源模型差距仍大 - (-) LLM 和视觉编码器选择较保守,未充分探索 scaling 效果