Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding¶

会议: AAAI 2026
arXiv: 2503.09143
代码: https://reurl.cc/Ebpyrm
领域: 视频理解 / 多模态VLM
关键词: 第一人称视频理解, 外中心-自中心知识迁移, 多模态大语言模型, 跨视角映射学习, Ego-Exo对齐

一句话总结¶

提出 Exo2Ego 框架，通过学习外中心(第三人称)与自中心(第一人称)域之间的映射关系，将 MLLM 中丰富的外中心知识迁移到自中心视频理解，结合新构建的 110万同步 ego-exo clip-text 对数据集 Ego-ExoClip 和 60万指令微调数据集 EgoIT，在 8 个自中心视频基准上取得了领先的开源模型性能。

背景与动机¶

自中心视频的重要性：具身认知(embodied cognition)需要第一人称视角理解，应用覆盖智能眼镜、VR/AR、可穿戴设备等，但现有 MLLM 主要聚焦于第三人称视觉。
数据稀缺：自中心视频采集成本高，数据量远不及网络爬取的外中心数据，限制了 MLLM 训练效果。
现有跨域方法的缺陷：已有方法(如检索外中心视频辅助训练)需要额外检索时间，且存在对齐偏差和不稳定性。
认知科学启示：儿童通过观察他人行为(外中心视角)映射到自身体验(自中心视角)来学习——本文将外中心观察者建模为"demonstrator"，自中心解释者建模为"learner"，通过建立两者间的映射来传递知识。

核心问题¶

如何在自中心数据有限的条件下，利用 MLLM 中已有的丰富外中心知识来提升自中心视频理解？

关键挑战： - 自中心视频中相机佩戴者运动与环境交互的动态耦合，与固定/第三人称视角截然不同 - 跨域数据获取成本高，配对同步数据稀缺 - 知识迁移过程中需保持行为的视角不变性(cross-view behavior invariance)

方法详解¶

整体框架¶

基于 VideoLLaMA2 架构，采用双视觉编码器设计：外中心视觉编码器(demonstrator)和自中心视觉编码器(learner)，均为 CLIP-Large-336。LLM 采用 Mistral-7B-Instruct。映射函数 $F: X \to Y$ 和 $G: Y \to X$ 由 9 个 ResNet 块(含下采样和上采样)实现。

渐进式三阶段训练管线:

Demonstrator Self-Preparation (Stage 1)：冻结 LLM，用 Ego-ExoClip 中的外中心 clip-text 数据微调外中心视觉编码器，确保 demonstrator 适应目标数据分布。使用 VTG (Vision-grounded Text Generation) 损失。
Demonstrator-Learner Guidance (Stage 2)：冻结外中心编码器和 LLM，训练自中心编码器及映射函数 $F$、$G$，建立自中心-外中心域之间的双向映射。同时使用 Ego-ExoClip 的同步数据。
Learner Self-Practice (Stage 3)：使用 EgoIT 指令微调数据，对 LLM 施加 LoRA (rank=128, alpha=256, dropout=0.1)，微调自中心编码器和映射函数 $F$。将自中心表征 $x$ 和映射后的外中心估计 $F(x)$ 拼接输入 LLM。

关键设计¶

1. 自中心自洽性机制(Egocentric Self-Consistency)

基于跨视角行为不变性(人的行为不受拍摄角度影响)，通过双向映射确保一致性： - 前向: $x \to F(x) \to G(F(x)) \approx x$ - 后向: $y \to G(y) \to F(G(y)) \approx y$

2. 数据集构建

Ego-ExoClip (1.1M 对)：从 Ego-Exo4D 的 5035 个视频组中筛选出 2925 组、15478 个视频，共 623.6 小时，261.3K 叙述文本。将时间戳级标注扩展为 clip 级，平均 clip 时长 0.68 秒。覆盖 8 个日常场景（烹饪、健康、自行车维修等），12 个机构、6 个国家。
EgoIT (约 600K 样本)：来自 5 个来源——EGTEA (动作识别)、Something-Something-V2 (动作识别)、EgoTimeQA (问答)、OpenEQA (问答)、EgoExoLearn (描述)。使用 GPT-4o 为每个数据集生成 10 种不同指令模板以增加多样性。

3. 知识迁移的优势 - 弱依赖：学到映射后推理时无需跨域数据 - 强泛化：模拟人类学习过程，降低对大规模自中心训练数据的需求

损失函数 / 训练策略¶

Stage 1: VTG 损失(视觉引导文本生成)

Stage 2: 三项损失联合优化 - Cycle Consistency Loss (CCL): $$\mathcal{L}_{\text{CCL}}(F, G) = \mathbb{E}_x[\|G(F(x)) - x\|_1] + \mathbb{E}_y[\|F(G(y)) - y\|_1]$$ - KL 散度: 对齐真实外中心样本 $y$ 与估计的 $\hat{y} = F(x)$ 的分布 - VTG 损失

Stage 3: VTG 损失 + LoRA 微调

关键训练超参数: | 配置 | 初始化 | Stage 1&2 | Stage 3 | |------|---------|-----------|---------| | 全局 batch | 512 | 256 | 64 | | 学习率 | 1e-3 | 1e-4 | 2e-5 | | Warmup | 0.1 | 0.03 | 0.03 | | Epoch | 5 | 2 | 1 |

所有实验在 16 块 A800 GPU 上进行，16 帧输入，分辨率 336×336。

实验关键数据¶

在 8 个自中心视频基准上评估(均为 zero-shot):

基准	指标	Exo2Ego	对比(最佳开源 baseline)
EgoSchema (推理)	Acc.	61.3%	-
QAEgo4D (闭集)	Acc.	62.1%	-
QAEgo4D (开集)	Acc./Score	28.3/2.7	-
EgoTaskQA (直接)	Acc.	44.7%	-
EgoTaskQA (间接)	Acc.	50.3%	-
Charades-Ego	mAP	70.9%	-
EPIC-KITCHENS-100	mAP/nDCG	49.7%/63.6%	-
EgoPlan Val	Acc.	42.7%	超 GPT-4o 5.9%
VLN-QA	Acc.	44.5%	超 GPT-4o 10.5%
EgoMCQ (Inter)	Acc.	88.4%	-
EgoMCQ (Intra)	Acc.	41.2%	-

在 EgoPlan 和 VLN-QA 上分别以 5.9% 和 10.5% 绝对增益超越 GPT-4o
在几乎所有基准上超越所有开源 MLLM 和自中心专用方法
但 EgoSchema 上 GPT-4o (72.2%) 和 Gemini 1.5-Pro (71.2%) 仍然大幅领先

消融实验要点¶

架构消融 (Table 3，以 Avg 衡量): | 配置 | Avg | |------|-----| | 完整模型 | 55.6 | | 去掉 LoRA | 53.2 (↓2.4) | | 仅前向 cycle consistency | 54.9 (↓0.7) | | 去掉 $G$ 和 CCL | 54.4 (↓1.2) | | 去掉 KL 散度 | 51.4 (↓4.2，最大降幅) | | 全连接替换 ResNet blocks | 54.7 (↓0.9) |

→ KL 散度(外中心知识引导)贡献最大，去掉后平均下降 4.2 个点

训练数据消融 (Table 5，VideoLLaMA2 基线): | 配置 | Avg | |------|-----| | 基线(无额外数据) | 38.9 | | + EgoClip | 45.2 (↑6.3) | | + Ego-ExoClip | 47.8 (↑2.6) | | + EgoIT | 49.7 (↑1.9) | | Exo2Ego 完整框架 | 55.6 (↑5.9) |

→ 即使使用相同数据，Exo2Ego 框架仍比 VideoLLaMA2 高 5.9 个点，验证了双编码器架构和迁移策略的独立贡献

阶段消融 (Table 9): - 初始化 → Stage 2: EgoSchema 49.2% → 56.7%，Charades-Ego 62.3% → 64.7% - Stage 2 → Stage 3: EgoSchema 56.7% → 61.3%，Charades-Ego 64.7% → 70.9% - 每个阶段均有显著提升，Stage 3 的指令微调效果最为突出

Prompt 效果 (Table 10): - 基础 prompt: 54.5 avg - 加入任务细节: 55.2 - 加入第一人称视角提示: 55.6 → 第一人称视角提示有 1.1 点增益

亮点¶

优雅的认知科学类比：将 exo-ego 知识迁移建模为"demonstrator-learner"过程，概念上清晰、直觉上合理
推理时不需要外中心数据：学到映射后只用自中心视频就能推理，避免了检索外中心视频的额外开销和不稳定性
大规模数据集构建：Ego-ExoClip (1.1M 对) 是目前最大的同步 ego-exo clip-text 数据集，具有高度多样性
消融实验充分：详细探讨了架构、参数更新策略、训练数据和训练策略的影响，Table 3-5 + Figure 5 覆盖全面
显著超越 GPT-4o：在 EgoPlan (+5.9%) 和 VLN-QA (+10.5%) 等实践导向任务上超越闭源最强模型
双向 cycle consistency：不仅前向映射，还学习逆映射并强制循环一致性，避免退化解

局限性 / 可改进方向¶

EgoSchema 上仍显著落后闭源模型：61.3% vs GPT-4o 72.2%，说明在需要长视频深度推理的任务上仍有差距
训练成本高：初始化阶段需要 103M exo + 3.8M ego 数据，加上三个阶段的训练，16 块 A800 的计算需求不低
自中心数据规模仍有限：论文自述"训练和评估的自中心数据规模相对较小，多样性有限"
教师模型选择保守：使用 CLIP-Large-336 作为视觉编码器，Mistral-7B 作为 LLM，若升级到更强的 backbone (如 Qwen2-VL、InternVL) 可能获得更大提升
映射函数设计较简单：9 个 ResNet blocks 构成的映射函数，虽然消融显示优于全连接，但可以探索更复杂的映射机制(如基于 attention 的)
Clip 粒度问题：82% 的 clip 短于 1 秒，可能不足以捕捉复杂的长时间动作
缺乏与最新 ego 专用方法的全面对比：如 EgoVLP 系列的最新版本

与相关工作的对比¶

方法	类型	是否需要检索外中心数据	LLM	Avg
EgoVLPv2	Ego 专用	否	无	较低
GroundVQA	Ego 专用	否	无	中等
VideoLLaMA2	通用 MLLM	否	Mistral-7B	38.9
GPT-4o	闭源 MLLM	否	-	高(推理强)
Exo2Ego	Ego MLLM	否(仅训练时)	Mistral-7B	55.6

与直接检索外中心视频的方法(如 ego-exo retrieval 系列)的区别：Exo2Ego 在训练阶段学习映射，推理时只需自中心视频，不依赖外中心检索。

启发与关联¶

从跨域检索到跨域映射学习：这种从"需要配对数据辅助推理"到"只需训练时学映射"的范式转变值得关注，可推广到其他域适应场景
Cycle Consistency 在多模态的应用：源自 CycleGAN 的 cycle consistency 在此被创造性地应用于 ego-exo 特征空间对齐
双编码器 → 单编码器的可能方向：如果映射学得足够好，是否可以在推理时用一个编码器 + 映射模块替代双编码器？
与 video foundation model 的结合：当前的视觉编码器为 CLIP，能否利用更强的视频基础模型(如 InternVideo2)进一步提升？
泛化到其他具身场景：这种 exo→ego 迁移思路可扩展到机器人操作、自动驾驶等场景

评分 (⭐ 1-5)¶

⭐⭐⭐⭐ (4/5)

理由: - (+) 问题定义清晰，认知科学类比优雅，方法设计合理 - (+) 数据集贡献大 (Ego-ExoClip 是重要的社区资源) - (+) 实验充分，消融详细，在规划和导航任务上甚至超越 GPT-4o - (+) 推理时不依赖外中心数据，实用性强 - (-) 核心方法(cycle consistency + KL)虽有效但非全新，更多是成熟技术的组合应用 - (-) 在推理类任务(EgoSchema)上与闭源模型差距仍大 - (-) LLM 和视觉编码器选择较保守，未充分探索 scaling 效果