Towards Comprehensive Scene Understanding: Integrating First and Third-Person Views for LVLMs¶

会议: NeurIPS 2025 (Spotlight)
arXiv: 2505.21955
代码: 有 (https://github.com/Leeinsu1/Towards-Comprehensive-Scene-Understanding)
领域: 多模态VLM / 场景理解
关键词: 多视角理解, 自中心视角, 第三人称视角, 场景图, VQA, CoT

一句话总结¶

提出 E3VQA 基准（首个多视角 VQA 基准）和 M3CoT 提示技术（融合三种互补视角的场景图），增强大型视觉语言模型 (LVLM) 的多视角场景理解能力，GPT-4o 提升 4.84%、Gemini 2.0 Flash 提升 5.94%。

研究背景与动机¶

LVLM 在交互应用中的部署¶

大型视觉语言模型正被越来越多地部署在虚拟/增强现实等交互应用中，头戴式相机提供的第一人称（自中心, egocentric）视角是关键输入。然而，自中心视角存在固有局限：

视野窄：头戴相机的 FOV 有限，无法看到全局场景

缺乏全局上下文：只能看到用户正在关注的局部区域

空间推理困难：难以回答需要全局空间信息的问题

第三人称视角的互补价值¶

第三人称（外部, exocentric）视角可以提供： - 全局场景布局 - 完整的物体可见性 - 空间关系的全局视图 - 用户与环境的交互上下文

核心问题¶

如何有效地将第一人称和第三人称视角融合，使 LVLM 能更全面地理解场景？现有工作几乎都只使用单一视角。

方法详解¶

整体框架¶

输入: 同步的 ego-exo 图像对
  ├── E3VQA 基准: 4K 高质量 QA 对
  └── M3CoT 推理: 三视角场景图融合
       ├── Ego Scene Graph (自中心场景图)
       ├── Exo Scene Graph (外部场景图)  
       └── Cross-view Scene Graph (跨视角场景图)
       → 统一场景表示 → LVLM 回答

关键设计¶

1. E3VQA 基准¶

数据构建： - 基于 Ego-Exo4D 数据集的同步 ego-exo 图像对 - 4,000 个高质量问答对，覆盖多种问题类型： - 空间推理：物体在哪里？相对位置如何？ - 动作理解：用户在做什么？ - 因果推理：为什么用户关注这个物体？ - 计数和属性：场景中有多少个特定物体？ - 质量控制：人工标注 + 多轮验证

问题类型分布： - 仅需 ego 视角即可回答：~30% - 仅需 exo 视角即可回答：~25% - 需要两个视角才能正确回答：~45%

M3CoT 是训练无关的提示技术，核心是构建统一的多视角场景表示：

步骤 1: 生成三种场景图

Ego Scene Graph \(G_e\)：从自中心图像提取
- 节点：检测到的物体
- 边：空间关系（左/右/上/下/前/后）+ 交互关系
Exo Scene Graph \(G_x\)：从第三人称图像提取
- 节点：全局可见的物体
- 边：全局空间关系
Cross-view Scene Graph \(G_c\)：跨视角关联
- 节点：两视角共同可见的物体
- 边：跨视角的对应关系和互补信息

步骤 2: 融合为统一表示

将三张场景图融合为一个文本化的统一场景描述，作为 LVLM 的附加上下文输入。

步骤 3: 链式推理

使用融合的场景表示引导 LVLM 进行多步推理：

[Ego Image] + [Exo Image] + [Unified Scene Representation]
→ Step 1: 理解每个视角提供的信息
→ Step 2: 识别两个视角的互补关系  
→ Step 3: 综合推理并回答问题

损失函数 / 训练策略¶

M3CoT 是完全免训练的方法： - 利用 LVLM 的 in-context learning 能力 - 仅通过精心设计的 prompt 实现 - 适用于任何支持多图像输入的 LVLM

实验关键数据¶

主实验¶

在 E3VQA 基准上不同 LVLM 的表现：

模型	仅 Ego	仅 Exo	Ego+Exo (无CoT)	+标准CoT	+M3CoT (Ours)
GPT-4o	52.3	48.7	58.4	61.2	66.0 (+4.84)
Gemini 2.0 Flash	49.8	46.2	55.1	58.3	64.2 (+5.94)
Claude 3.5 Sonnet	50.1	47.3	56.8	59.4	63.8 (+4.42)
LLaVA-1.5-13B	38.2	35.6	42.1	44.7	48.3 (+3.58)
InternVL2-8B	41.5	38.9	45.3	47.6	51.2 (+3.61)

按问题类型细分的提升幅度（GPT-4o）：

问题类型	Ego+Exo 基线	+M3CoT	提升
空间推理	55.2	63.8	+8.6
动作理解	62.1	67.4	+5.3
因果推理	54.8	62.1	+7.3
计数和属性	61.5	64.7	+3.2
仅需 Ego	68.3	70.1	+1.8
需要两视角	48.6	58.2	+9.6

消融实验¶

M3CoT 各组件的贡献（GPT-4o）：

配置	准确率	提升
基线 (Ego+Exo, 无 CoT)	58.4	—
+ Ego Scene Graph 仅	61.5	+3.1
+ Exo Scene Graph 仅	60.8	+2.4
+ Cross-view Scene Graph 仅	62.3	+3.9
+ Ego + Exo Scene Graphs	63.7	+5.3
+ Full M3CoT (全部三种)	66.0	+7.6

关键发现¶

多视角显著优于单一视角：Ego+Exo 比仅 Ego 提升约 6%，M3CoT 在此基础上再提升 4-6%
跨视角场景图贡献最大：跨视角关联比单一视角场景图更有价值
空间推理提升最显著：需要全局空间信息的问题从多视角融合中获益最多（+8.6%）
需要两视角的问题改进最大：M3CoT 在此类问题上提升达 9.6%
闭源模型受益更多：GPT-4o 和 Gemini 比开源模型从 M3CoT 中获得更大提升

亮点与洞察¶

首个多视角 VQA 基准：E3VQA 填补了 ego-exo 联合理解评估的空白
训练无关的提升：M3CoT 不需要任何额外训练，即插即用
Spotlight 接收：高质量的问题定义和系统评估
实际应用价值：直接适用于 AR/VR 场景中的智能助手
揭示 LVLM 局限：系统评估揭示了现有 LVLM 在多视角推理上的不足

局限与展望¶

数据集规模有限：4K QA 对相对较小，可能不足以覆盖所有场景类型
场景图提取质量：M3CoT 的效果依赖于场景图的准确性
两张图像限制：实际 AR/VR 场景可能有更多视角
仅静态图像：未考虑视频序列的时序信息
计算开销：M3CoT 需要额外的场景图提取步骤，增加推理延迟

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首个 ego-exo 联合 VQA 基准 + 免训练多视角融合方法
理论深度: ⭐⭐⭐ — 主要是方法和基准贡献
实验充分性: ⭐⭐⭐⭐⭐ — 多模型、多问题类型、充分消融
实际影响: ⭐⭐⭐⭐⭐ — AR/VR 应用直接受益
写作质量: ⭐⭐⭐⭐ — 结构清晰，可视化丰富

Towards Comprehensive Scene Understanding: Integrating First and Third-Person Views for LVLMs¶

一句话总结¶

研究背景与动机¶

LVLM 在交互应用中的部署¶

第三人称视角的互补价值¶

核心问题¶

方法详解¶

整体框架¶

关键设计¶

1. E3VQA 基准¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶

Towards Comprehensive Scene Understanding: Integrating First and Third-Person Views for LVLMs¶

一句话总结¶

研究背景与动机¶

LVLM 在交互应用中的部署¶

第三人称视角的互补价值¶

核心问题¶

方法详解¶

整体框架¶

关键设计¶

1. E3VQA 基准¶

2. M3CoT (Multi-view Multi-modal Chain-of-Thought)¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶