HD-EPIC: A Highly-Detailed Egocentric Video Dataset¶

会议: CVPR 2025
arXiv: 2502.04144
代码: https://hd-epic.github.io (有)
领域: 3D视觉
关键词: 第一人称视频数据集, 视频问答, 数字孪生, 细粒度标注, 厨房活动理解

一句话总结¶

HD-EPIC 提供了41小时非脚本厨房第一人称视频，具有前所未有的标注密度（每分钟263条标注），涵盖食谱步骤、细粒度动作、营养信息、3D数字孪生、物体运动轨迹和注视方向等多层级互联标注，并构建了26K问题的VQA基准——最强的 Gemini Pro 仅达37.6%。

研究背景与动机¶

领域现状：第一人称视频理解近年因大规模数据集（Ego4D等）和基础模型的发展而快速推进。然而，现有大规模数据集虽然训练效果好，但标注稀疏；标注密集的数据集则通常来自受控实验室环境，缺乏真实性。
现有痛点：两个关键缺口——一是缺少将动作、物体、3D场景、注视等多种标注互联的数据集；二是缺少能全面验证视频语言模型各维度能力的零样本基准。
核心矛盾：真实环境的数据难以做精细标注（成本高、场景多变），受控环境的精细标注又缺乏代表性。
本文目标 如何在真实家庭环境中采集视频，同时达到实验室级别的标注密度？
切入角度：使用 Project Aria 眼镜（多传感器：RGB + SLAM相机 + 7麦克风 + 注视跟踪）在参与者自家厨房录制连续3天的所有活动，然后通过精心设计的多层标注流水线实现超高密度标注。
核心 idea：通过多传感器记录设备和系统化的多层标注流水线，在非脚本真实环境中构建首个具有实验室级标注密度的第一人称视频数据集，并基于此创建多维度VQA基准。

方法详解¶

整体框架¶

数据采集→多层标注→基准构建。9个家庭厨房，156个视频，41.3小时。标注分六大层级：食谱步骤与营养、细粒度动作、音频事件、数字孪生（场景+物体3D）、物体运动轨迹（含2D/3D）、注视-物体关联。基于所有标注构建30种问题原型的26,650道VQA问题。

关键设计¶

食谱步骤+营养标注系统:
- 功能：将视频中的烹饪活动与结构化食谱、成分和营养信息关联
- 核心思路：参与者记录3天全部厨房活动后，提供所做食谱及来源。引入"prep-step"配对标注：每个烹饪步骤配有对应的准备阶段（如"切番茄"的准备包括取番茄、洗涤、拿刀和砧板）。参与者用称量器记录每种食材重量，通过MyFitnessPal标注营养信息。标注成分加入时间点，可追踪整道菜的营养变化过程。共69个食谱，558种食材。
- 设计动机：真实烹饪中准备和执行交织进行（93.1%的step有配对prep），这种精细标注是前所未有的，能测试模型对长时程多步骤活动的理解。
3D数字孪生+物体运动追踪:
- 功能：将所有标注锚定在3D空间中
- 核心思路：基于Aria MPS的多日SLAM点云，在Blender中手工建模每个厨房的完整数字孪生——平均45.9个标注固定装置（柜子、抽屉、台面、电器等）。物体运动标注2D包围框并通过SAM2初始化+人工修正获得mask（修正率74%）。利用稠密深度估计和稀疏2D-3D对应关系将mask提升到3D。物体位置与最近的固定装置关联，实现"物体在哪个柜子/台面上"的语义定位。平均物体移动距离61.4cm。
- 设计动机：3D锚定使得可以提问需要空间推理的问题（如"物体从哪个柜子移到哪个台面"），这是纯2D标注无法支持的。数字孪生+物体轨迹的组合实现了精确的物体行程追踪。
注视驱动的物体交互预标注（Gaze Priming）:
- 功能：利用注视数据建立物体交互的预期性标注
- 核心思路：结合眼动追踪和3D物体位置，定义"priming"为注视先于动作关注物体位置的时刻。对拿取动作，计算注视何时开始关注物体所在位置（取前priming）；对放置动作，计算注视何时关注放置目标位置（放前priming）。94.8%的可行物体在拿取前平均4.0秒被primed，88.5%在放置前平均2.6秒被primed。
- 设计动机：注视priming是认知科学中的已知现象（人在互动前1秒注视目标），首次将其系统化标注，为基于注视的动作预测提供了有力的训练和评估数据。

损失函数 / 训练策略¶

HD-EPIC是数据集工作，不涉及训练损失。VQA基准使用5选1多选题格式，负样本从数据集内同类标注中采样（不使用LLM生成），确保难度。

实验关键数据¶

主实验¶

模型	Recipe	Ingredient	Nutrition	Action	3D	Motion	Gaze	均值
Llama 3.2 (纯文本)	33.5	25.0	36.7	23.3	22.3	25.5	19.5	26.5
VideoLlama 2	30.8	25.7	32.7	27.2	25.7	28.5	21.2	27.4
LLaVA-Video	36.3	33.5	38.7	43.0	27.3	18.9	29.3	32.4
Gemini Pro	60.5	46.2	34.7	39.6	32.5	20.8	28.7	37.6
人类	96.7	96.7	85.0	92.5	93.8	92.7	75.0	90.3

动作识别基准¶

模型	Verb Acc	Noun Acc	Action Acc	说明
SlowFast	29.2	10.6	5.3	传统方法表现差
VideoMAE-L	47.5	29.4	17.9	中等表现
TIM (A+V)	51.3	36.1	23.4	最好但仍有巨大提升空间
EPIC-100 TIM对比	77.1	67.2	57.5	在已见场景上高得多

关键发现¶

Gemini Pro 是唯一超过随机水平显著的模型（37.6% vs 随机20%），但距人类水平（90.3%）差距巨大，凸显VQA基准的挑战性
纯语言模型（Llama 3.2）与视频VLM表现相近，说明许多问题需要视觉理解而非先验知识
物体运动（Motion）类问题所有模型表现最差（≤28.5%），说明长时程多跳物体追踪是当前模型的盲区
动作识别从EPIC-100迁移到HD-EPIC下降巨大（action精度57.5%→23.4%），说明模型缺乏跨场景泛化能力
食谱和食材类问题Gemini表现最好（60.5%/46.2%），可能受益于外部知识

亮点与洞察¶

标注密度空前：每分钟263条标注，远超任何现有非脚本数据集，密度接近合成数据集但保持了真实性
多层级互联标注：不同层级标注之间可以交叉使用（如注视→物体→3D位置→固定装置→食谱步骤），支持构建需要多跳推理的复杂问题
数据集设计的thoughtful：新采集的数据确保未被现有模型训练过；负样本从标注内采样而非LLM生成，避免了分布外的简单负样本；食物称重和营养追踪开创了全新的评估维度

局限与展望¶

9个厨房的规模相对较小，环境多样性有限
食谱偏向参与者的家庭烹饪习惯，可能不够多元
通过SAM2自动分割+人工修正获取物体mask，修正率达74%，说明自动方法仍不够好
VQA基准目前仅5选1，可扩展为开放式回答来进一步提高挑战性
3D数字孪生的手工建模过程不可扩展，限制了数据集规模化

评分¶

新颖性: ⭐⭐⭐⭐⭐ 多个首次：非脚本环境精细标注、营养追踪、注视priming标注
实验充分度: ⭐⭐⭐⭐ VQA+动作识别+声音识别+物体分割多维评估
写作质量: ⭐⭐⭐⭐⭐ 标注流水线描述详尽，数据统计丰富
价值: ⭐⭐⭐⭐⭐ 作为零样本验证基准价值极高，揭示了当前模型的关键短板