Fine-grained Spatiotemporal Grounding on Egocentric Videos¶

会议: ICCV 2025
arXiv: 2508.00518
代码: https://github.com/LaVi-Lab/EgoMask
领域: video_understanding
关键词: egocentric video, spatiotemporal grounding, pixel-level segmentation, benchmark, video understanding

一句话总结¶

提出 EgoMask，首个面向自我中心视频的像素级时空定位基准，包含短/中/长时视频评测集和大规模训练集 EgoMask-Train，通过系统分析揭示了自我中心与外中心视频之间的关键差异，并证明微调后模型性能可大幅提升。

研究背景与动机¶

时空视频定位（Spatiotemporal Video Grounding）旨在根据文本查询在视频中定位目标实体。现有研究主要集中在外中心（exocentric）视频上，自我中心（egocentric）视频虽在 AR 和机器人等领域日益重要，但像素级时空定位仍未被充分探索。

核心差异的定量分析：自我中心视频中的实体呈现—— - 总出现时长更短：仅 21.56%（vs 外中心 77-94%） - 连续轨迹更稀疏：单次轨迹仅占视频 1.33%（vs 外中心 65-90%），消失时长为出现的 6 倍 - 目标更小：mask 面积仅 1.20%（vs 外中心 5%+） - 位置偏移更大：相邻帧 mask IoU 仅 14.96%（vs 外中心 50%+）

现有数据集（EgoTracks 仅有 bbox、RefEgo 仅含短视频）无法支撑像素级评测，亟需新基准。

方法详解¶

整体框架¶

本文的贡献核心是数据集构建而非模型设计。设计了一个自动标注流水线，分两部分：1) 像素级 mask 生成；2) 指代表达式生成。以此构建评测基准 EgoMask 和训练数据集 EgoMask-Train。

关键设计¶

像素级 Mask 生成：基于 EgoTracks 提供的 bbox 标注，利用 SAM2 进行视频级对象分割。仅选取包含目标对象的片段进行标注，以第一帧的 bbox 作为 SAM2 的 box prompt。后处理时仅保留与 bbox 标注重叠的区域，最大限度减少幻觉错误。
指代表达式生成：采用两种策略确保多样性——1) 直接提示 GPT-4o 生成短/长描述（选取 3 个目标最清晰的帧，画框后让模型生成）；2) 先让 GPT-4o 生成元数据（视觉属性、世界知识、物体功能等），再用预定义模板组合成表达式。最终所有标注经人工校验。
多时长分层评测设计：
- EgoMask-Short（<1分钟，200 video，400 expr.）：基于 RefEgo 采样，人工标注 mask 和精化表达式
- EgoMask-Medium（1-3分钟，100 video，200 expr.）：从标注好的长视频中随机截取
- EgoMask-Long（>3分钟，15 video，100 expr.）：基于 EgoTracks 验证集，用流水线生成后人工精化
- EgoMask-Train：2,624 视频，9,592 个对象，47,968 个表达式

损失函数 / 训练策略¶

微调方案针对两个 SOTA 模型： - Sa2VA-4B (+FT)：在 EgoMask-Train + 3 个外中心视频分割数据集上微调，8 张 A100，约 10 小时，AdamW lr=4e-6，batch size=16 - VideoLISA-3.8B (+FT)：80% EgoMask-Train + 20% 原始训练数据，4 张 A100，20 epochs，AdamW lr=3e-5，batch size=16，每 epoch 500 步，约 12 小时

评测指标设计¶

提出 4 个指标： - T_recall：预测帧占目标帧的比例（时间定位能力） - IoU_all：所有帧上的平均 IoU（传统指标 J） - IoU_gold：仅在目标帧上计算平均 IoU - IoU_gold_pred：在所有目标帧和预测帧上计算 IoU（惩罚背景帧上的幻觉预测）

实验关键数据¶

主实验¶

EgoMask 基准上的结果（IoU_gold_pred）：

方法	Short	Medium	Long
Grounded-SAM2	49.95	25.73	24.80
Sa2VA-26B	37.30	25.83	12.96
Sa2VA-4B	29.00	17.02	8.11
Sa2VA-4B (+FT)	30.97 (+1.97)	18.52 (+1.50)	8.24 (+0.13)
VideoLISA-3.8B	17.85	6.48	5.15
VideoLISA-3.8B (+FT)	23.36 (+5.51)	9.98 (+3.50)	7.16 (+2.01)

外中心基准上微调前后对比（验证不损害原有能力）：

方法	Ref-Davis	Mevis	ReasonVOS
VideoLISA-3.8B	65.82	49.20	42.41
VideoLISA-3.8B (+FT)	65.60 (-0.22)	49.20 (+0.00)	44.18 (+1.77)
Sa2VA-4B	69.75	50.01	42.35
Sa2VA-4B (+FT)	69.97 (+0.22)	55.55 (+5.54)	45.54 (+3.19)

消融实验¶

SAM2 初始化状态的影响（Grounded-SAM2）：

EgoMask 子集	最高置信度初始化 IoU_gold_pred	朴素初始化 IoU_gold_pred	差距
Short	49.95	40.42	-9.53
Medium	25.73	15.11	-10.62
Long	24.80	11.65	-13.15

Sa2VA 关键帧有效性影响：当前 5 帧不包含目标对象时，性能暴跌至接近 0%。

关键发现¶

所有 SOTA 模型在自我中心视频上表现不佳：Short 子集最佳仅 ~50% IoU_gold_pred，Medium/Long 不到 30%
微调效果显著：VideoLISA 平均相对提升 41.30%，同时保留外中心基准性能
EgoMask-Train 数据与外中心数据互补——微调后在 ReasonVOS 反而提升 1.77%
SAM2 初始化状态至关重要：错误初始化导致性能暴跌 10-18%
IoU_all 指标在长视频中因背景帧占大比例而误导性强（Sa2VA 的 IoU_all 随视频变长反而增高），IoU_gold_pred 更能反映真实性能
推理速度：VideoLISA（逐帧分割）仅 0.42 FPS，SAM2-based 方法至少 3.17 FPS

亮点与洞察¶

系统性差异分析：首次定量揭示自我中心 vs 外中心视频的 4 个关键维度差异，为后续建模提供指导
全自动标注流水线：SAM2 + GPT-4o 的组合大幅降低标注成本，仅需人工精化而非从零标注
多时长分层设计：Short/Medium/Long 三档覆盖了从秒级到分钟级的实际应用场景
评测指标创新：IoU_gold_pred 惩罚幻觉预测，比传统 IoU_all 更适合稀疏目标场景
数据集具有真正的补充价值——微调后外中心性能不降反升

局限与展望¶

当前模型设计未针对自我中心视频特性进行专门优化
Sa2VA 受限于输入 token 数量，关键帧选择不灵活——长视频中目标可能不在前 5 帧出现
训练集定位标注为 1 FPS（vs EgoTracks 原始 5 FPS），可能遗漏快速运动细节
Long 子集仅 15 个视频、100 个表达式，规模偏小
可探索方向：增强长视频理解能力、优化帧选择策略以捕获目标实体

评分¶

新颖性: ⭐⭐⭐⭐ 首个像素级自我中心时空定位基准，填补重要空白
实验充分度: ⭐⭐⭐⭐ 多模型对比 + 微调验证 + 详细分析 + 多指标评测
写作质量: ⭐⭐⭐⭐ 分析透彻，统计数据详实，可视化丰富
价值: ⭐⭐⭐⭐⭐ 数据集和分析对自我中心视频理解社区有重大推动意义