Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering¶
日期: 2026-03-13
arXiv: 2603.12533
代码: EgoPointVQA
领域: 视频理解 / 第一人称视觉
关键词: egocentric VQA, pointing gesture, hand intent tokens, deictic reasoning, MLLM
一句话总结¶
提出 EgoPointVQA 数据集(4000 合成+400 真实视频,18745 QA 对)和 HINT(Hand Intent Tokens)方法——将 3D 手部关键点编码为手势意图 token 并交织进 MLLM 输入,HINT-14B 在 6 类指示推理任务上以 68.1% 准确率超越 InternVL3-14B 5.4%(+6.6% vs InternVL3-14B 的 62.7%)。
研究背景与动机¶
- 交互需求: 第一人称 AI 助手(AR/VR、智能眼镜如 Meta Ray-Ban)需要理解用户指示手势和指示表达(如"这个是什么?")
- MLLM 的盲区: GPT-4o 和 Qwen3-VL-32B 都无法正确解析指示手势——训练数据缺乏手势视频,架构缺乏手部姿态编码
- 显式标注 vs 隐式推断: 现有区域级 VQA 需要显式给定 bounding box/mask,但真实场景中用户的指向意图需要从手势隐式推断
- 核心 idea: 用现成 3D 手部重建模型提取关键点 → 轻量适配器转为手势意图 token → 交织进视觉 token 序列
方法详解¶
EgoPointVQA 数据集¶
- 合成数据: 4000 视频,AI2-THOR 模拟器(184 室内场景),MIXAMO 动画 + 逆运动学对齐指向
- 真实数据: 400 视频,20 名参与者用 Meta Ray-Ban 智能眼镜录制(360 室内 + 40 户外)
- 6 类任务: 引用识别(Reference)、计数(Counting)、空间(Spatial)、时序(Temporal)、属性(Attribute)、功能反馈(Feedback)
- 评测集: 300 真实视频,672 QA 对,人工验证正确性和指示歧义性
HINT(Hand Intent Tokens)¶
- 3D 手部姿态提取: WiLoR 模型输出每帧 21 个 3D 关键点 \(K_t \in \mathbb{R}^{21 \times 3}\),3D 比 2D 好在提供深度信息用于判断指向方向
- Keypoint Adapter: \(K_t\) → flatten(63维)→ LayerNorm → MLP (\(W_1 \in \mathbb{R}^{d_h \times 63}\), GeLU, \(W_2 \in \mathbb{R}^{d \times d_h}\)) → 手势意图 token \(H_t\)
- 帧-关键点交织: 每帧视觉 token \(V_t\) 后接对应手势 token \(H_t\)(检测置信度 \(c_t \geq 0.5\) 时才插入)
- 联合推理: \(p(X_a|V,X_q,H) = \prod_i p(x_i|V,X_{q,<i},X_{a,<i},H_{<i})\),MLLM 通过自注意力同时处理视觉、手势、文本 token
实验关键数据¶
| 模型 | 参数 | Reference | Temporal | Spatial | Count | Attr. | Feed. | 平均 |
|---|---|---|---|---|---|---|---|---|
| GPT-5 | — | 75.6 | 53.6 | 62.3 | 50.0 | 56.1 | 77.8 | 62.6 |
| InternVL3-78B | 78B | 71.4 | 71.4 | 62.3 | 45.8 | 68.3 | 80.1 | 66.6 |
| InternVL3-14B | 14B | 63.1 | 66.1 | 61.4 | 50.0 | 58.5 | 77.2 | 62.7 |
| HINT-14B | 14B | 73.8 | 69.6 | 64.9 | 54.2 | 63.4 | 82.5 | 68.1 |
| 消融 | 平均准确率 |
|---|---|
| InternVL3-8B baseline | 58.0% |
| InternVL3-8B + 标准微调 | ~58.0% |
| HINT-8B | 63.7% (+5.7%) |
| HINT-14B | 68.1% (+5.4% vs baseline) |
关键发现¶
- HINT 比无手势 token 的标准微调高 5-6%——显式手势编码是必要的,单纯微调不够
- 3D 关键点编码优于 2D——深度信息对指示方向判断关键
- 所有模型在 Counting 任务上最差(<55%),追踪多次指向仍是难点
- GPT-5 在 Reference 上 75.6% 最高,但 Temporal 骤降到 53.6%——多时序手势理解是根本瓶颈
- 交织式插入 vs 末尾拼接:交织式保持时序对齐,MLLM 能自然关联每帧的手势和视觉内容
- 即使是 78B InternVL3 也仅 66.6%,说明问题难度不只是规模能解决的
亮点与洞察¶
- 填补指示手势 + 第一人称 VQA 的空白——现有工作要么给定显式区域标注,要么不处理手势
- 交织式 token 插入使 MLLM 保持时序对齐,比末尾拼接更自然
- 轻量 Keypoint Adapter(两层 MLP + LayerNorm)设计表明:不需要复杂架构,关键是提供正确的信号
局限性 / 可改进方向¶
- 3D 手部重建依赖 WiLoR 质量,复杂遮挡和快速运动场景可能不准
- 仅支持指示手势,抓取/挥手/比划等其他手势类型未涉及
- 合成-真实域差距可能影响泛化——合成数据用 AI2-THOR 的室内场景,真实数据更多样
- Counting 和 Temporal 任务准确率仍低(<55%),需要更强的时序推理能力
- 评测集仅 672 QA 对,统计显著性可能有限
相关工作与启发¶
- vs Artemis/Elysium(区域级视频 VQA): 这些工作假设区域已显式给定(bbox/mask),EgoPointVQA 需从手势隐式推断
- vs EgoGPT: EgoGPT 聚焦通用第一人称理解,单任务 Reference 67.3% 但平均仅 55.9%——HINT 的手势编码带来全面提升
- vs Visual Prompting(SoM/alphanumeric tags): 人工视觉提示 vs 自然手势——HINT 不需要额外标注,更贴近真实交互场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个指示手势第一人称 VQA benchmark + token 化手势方案
- 实验充分度: ⭐⭐⭐⭐ 15 个 baseline(含 GPT-5)+ 3 个 backbone 消融 + 6 类任务
- 价值: ⭐⭐⭐⭐ 对 AR/VR 助手交互具有直接应用价值
- 写作质量: ⭐⭐⭐⭐ 任务定义清晰,数据集构建流程规范
补充说明¶
- 数据集构建经过三阶段自动生成 + 人工质检,确保评测质量
- 合成数据使用 AI2-THOR(184 场景)+ MIXAMO 动画 + 逆运动学,质量较高
- 真实数据由 20 名参与者用 Meta Ray-Ban 智能眼镜录制,覆盖室内外多种场景
- HINT 对 LLaVA-OneVision 也有效(54.4% vs 49.9%),说明方法不限于特定 backbone
- 训练策略:LoRA 微调视觉编码器+LLM + Keypoint Adapter 从头训练,AdamW+cosine schedule,1 epoch
- QA 对生成使用 InternVL3-78B 作为标注 MLLM,GPT-4o 做最终的指示代词替换