Benchmarking Egocentric Multimodal Goal Inference for Assistive Wearable Agents¶
会议: NeurIPS 2025 (Spotlight)
arXiv: 2510.22443
代码: https://github.com/facebookresearch/WAGIBench/
领域: 多模态VLM / 第一视角理解 / 可穿戴智能体
关键词: 目标推断, 可穿戴智能体, 多模态基准, 第一视角视频, VLM评测
一句话总结¶
Meta 提出 WAGIBench,一个针对可穿戴辅助智能体的多模态目标推断基准,包含 348 名参与者的 3,477 条第一视角录制(29小时),涵盖视觉/音频/数字/纵向四种模态,人类准确率 93% vs 最佳 VLM 84%(MCQ),生成式评估中模型仅 55% 时间产生相关目标,揭示了当前 VLM 在实际可穿戴场景中的显著差距。
背景与动机¶
可穿戴辅助智能体(如智能眼镜上的 AI 助手)近年来受到广泛关注,典型场景包括手机端数字代理、记忆增强代理、视障辅助等。然而这些系统都面临一个根本瓶颈:用户必须明确表达自己想要什么(如"我的钥匙放哪了?"),交互成本高且不自然。如果智能体能从用户的被动行为线索(看了什么、说了什么、手机上在看什么、过去的习惯)中主动推断目标,就能极大降低交互摩擦。
现有的第一视角数据集(如 Ego4D)存在几个关键问题:(1) 标注通常由 LLM 从旁述文本重新生成,缺乏真实的"ground-truth 目标";(2) 模态单一,通常只有视频和音频,缺少数字上下文(日历、搜索记录等)和纵向历史;(3) 场景不够生态有效,难以触发需要智能体辅助的真实情景。
核心问题¶
给定用户的多模态被动观察(第一视角视频、环境音频、手机应用状态、历史行为记录),能否自动推断出用户想要执行的数字动作(搜索、购物、设提醒等)? 这个"目标推断"问题是可穿戴智能体从被动感知到主动辅助的关键环节。论文的核心贡献不在于提出新方法,而在于构建一个高质量、多模态、有 ground-truth 的基准来衡量这个问题的进展。
方法详解¶
整体框架¶
WAGIBench 的设计包含三大组件:
- 数据集构建:通过脚本化交互收集多模态第一视角数据,确保每条记录都有明确的参考目标
- 评测任务设计:包含判别式(MCQ)和生成式(LLM Judge)两种评测范式
- 元评估:通过人工评估验证自动评测指标的有效性
输入:第一视角视频 + 音频转录 + 数字应用状态(Calendar/Messaging/Notes/Search/Videos/Maps/Music 七个应用的完整状态)+ 纵向历史(同一用户的过往行为记录)
输出:预测的数字动作(如 {type: "search", query: "how to file taxes"})
关键设计¶
-
脚本化数据收集保证 Ground-Truth 质量:与现有方法用 LLM 从旁述重新标注不同,WAGIBench 先设计 165 个脚本场景(覆盖厨房、办公室、户外、健身房等环境 + 各种应用场景),每个脚本有明确的"参考目标"。348 名参与者使用 Meta Aria 眼镜录制,每个脚本平均被 6 位参与者录制约 21 次。三位标注员进行质量审核(同意率 > 0.5、时间窗口 IoU > 0.7),保留约 80% 的录制。脚本中还包含可变参数(如用户自选的回收物品),增加了目标多样性。
-
四模态上下文设计与信号-噪声控制:每条数据标注了哪些模态对目标推断是"相关的",形成了不同的子集——\(S_V\)(仅视觉相关)、\(S_{VA}\)(视觉+音频相关)、\(S_{VD}\)(视觉+数字相关)、\(S_{VL}\)(视觉+纵向相关)。数字上下文通过 LLM(Llama3.3-70B)从 persona 和场景线索生成完整的七应用状态,其中大量信息是无关干扰项,模型需要从中筛选出相关信号。纵向历史以"历史库"形式呈现:5 条来自同一参与者的支持视频,其中至多 1 条与当前场景共享脚本(正支持),其余为干扰项。纵向视频用 Socratic 方式表示——由 Qwen2.5-72B 和 InternVL-78B 分别生成字幕,再用 LLM 合并去除不一致信息。
-
双范式评测 + LLM Judge 元评估:
- MCQ:每个样本生成 1 个"相似干扰项" MCQ 和 1 个"不相似干扰项" MCQ(共 7K 道题)。干扰项通过 sentenceBERT 嵌入选择:相似干扰项从 95-99 百分位采样,不相似干扰项从 0-80 百分位采样,并用贪心策略保证干扰项之间的多样性。
- 生成式:VLM 生成结构化的数字动作(从预定义模板中选择类型并填充参数),由 LLM Judge(GPT-4.1)打分(0/0.5/1.0 三档:不相关/边缘相关/高度相关)。
- 元评估:在 586 个高质量子集上,对比不同 Judge 变体(参考目标、脚本线索、Socratic 描述等组合)与人工评估的一致性,发现"参考目标+脚本线索"的 LLM Judge 达到 76.8% 的成对比较一致性,与人-人一致性(75.2%)不可区分。
训练策略¶
本文不涉及训练——这是一个纯评测基准工作。评测的模型包括 Llama-3.2-11B、Qwen2.5-VL-3B/7B/72B、InternVL2.5-MPO-2B/8B/78B 和 GPT-4.1。音频统一用 Whisper-base 转录,视频统一采样 32 帧(Llama 除外,仅支持单帧)。
实验关键数据¶
判别式评估(MCQ 准确率)¶
| 模型 | 参数量 | MCQ (全集) | 生成式 (全集) |
|---|---|---|---|
| Llama-3.2 | 11B | 0.4311 | 0.3197 |
| InternVL-2B | 2B | 0.4422 | 0.2134 |
| InternVL-8B | 8B | 0.6741 | 0.3503 |
| InternVL-78B | 78B | 0.8680 | 0.4866 |
| Qwen-3B | 3B | 0.7153 | 0.2468 |
| Qwen-7B | 7B | 0.7754 | 0.3999 |
| Qwen-72B | 72B | 0.8755 | 0.4980 |
| GPT-4.1 | — | 0.8774 | 0.5498 |
| 人类 | — | 0.93 (similar) / 0.97 (dissimilar) | — |
LLM Judge 元评估(成对比较一致性)¶
| Judge 变体 | 与人类一致性 |
|---|---|
| SBERT Similarity | 59.5% |
| Socratic | 63.0% |
| Snap-MCQ | 67.8% |
| Reference | ~73% |
| Cues + Reference | 76.8% |
| 人-人一致性 | 75.2% |
消融实验要点¶
- 模态消融:在 \(S_{VA}\) 子集上,加入音频(V→VA)带来最大提升,MCQ 上高达 35%,生成式高达 30%。数字和纵向模态提升较小,主要因为信噪比低。
- 高信号模态验证:构造了只含相关信息的 \(D^*\)(仅相关应用子状态)和 \(L^*\)(仅正支持历史),\(VD^*\) 比 \(VD\) 提升最多 12%,\(VL^*\) 比 \(VL\) 提升最多 5.6%。
- 模型大小效应:性能与参数量强正相关。大模型(≥72B)更善于从噪声模态中过滤无关信息,小/中模型在全模态输入时甚至会受到干扰。
- 全模态输入(VADL):大模型能够从混合模态中解耦相关特征,但小/中模型出现模态干扰现象。
亮点¶
- 数据收集范式设计精巧:通过脚本化方式在保证生态有效性的同时获得了干净的 ground-truth 目标,巧妙解决了第一视角目标推断数据集的核心难题。
- 四模态覆盖全面且有控制:不仅收集了四种模态(这在该领域是首次),还精心标注了每条数据中哪些模态是"相关的",使得模态消融实验有据可依。
- LLM Judge 元评估严谨:不仅使用了 LLM Judge,还通过人工评估对比了多种 Judge 变体,发现"参考+线索"的 Judge 与人-人一致性相当,为该领域的自动评测提供了可靠方案。
- 揭示了关键挑战:信噪比问题(数字/纵向模态中大量无关信息)和模型规模限制(可穿戴设备需要小模型,但性能差距巨大)是未来研究的明确方向。
局限性 / 可改进方向¶
- 人类验证仅覆盖视觉+音频模态:数字和纵向上下文太复杂,现有标注工具难以让人类有效处理,因此人类基线不完整。
- 仅考虑用户主动发起的交互:一个真正的主动辅助系统还需要判断"何时"该介入,这需要大量负样本(无需辅助的场景),当前数据集不包含。
- 纵向历史建模有限:目前仅捕获了"重复习惯"类的纵向线索,用户偏好(如素食者)、环境状态(如家里是否整洁)等更丰富的纵向信息未被涵盖。
- 数字上下文为合成:虽然保护了隐私,但合成的应用状态可能与真实使用模式存在分布差异。
- 脚本化收集的生态有效性:尽管做了努力让脚本自然化,但参与者是在执行指定任务,与完全自然的行为仍有差距。
与相关工作的对比¶
| 对比维度 | WAGIBench (本文) | PARSE-Ego4D | MM-Ego / EgoLife |
|---|---|---|---|
| 任务 | 目标推断 | 目标推断 | 智能体策略 |
| 模态 | V + A + D + L (纵向) | V 或 A (单一) | V + A (纵向) |
| 标注方式 | 脚本化 ground-truth | LLM 从旁述重标 | LLM 从旁述/字幕重标 |
| 数字上下文 | ✓ (七种应用) | ✗ | ✗ |
| 参与者 | 348 | 10,133 (Ego4D 视频) | 629 / 6 |
| 评测方式 | MCQ + LLM Judge (元评估验证) | NLL / RougeL | MCQ |
与 PARSE-Ego4D 相比,WAGIBench 的核心优势在于多模态覆盖和脚本化 ground-truth(而非 LLM 重标注)。与 MM-Ego/EgoLife 相比,WAGIBench 聚焦于目标推断而非策略执行,且首次引入数字上下文模态。
启发与关联¶
- 多模态信噪比问题:论文揭示的数字/纵向模态中的信噪比挑战,对所有需要处理长上下文、多源信息的 VLM 应用都有启示意义——简单拼接所有信息不够,模型需要学会"忽略"无关信息。
- 边端部署差距:小模型(≤3B)与大模型(≥72B)的巨大性能差距,说明可穿戴设备上的高效推理是一个亟待解决的问题,模型蒸馏和针对性微调可能是解决方向。
- 主动推断 vs 被动响应:该工作开辟了从"用户问→系统答"到"系统观察→主动辅助"的新范式,与 proactive agent 方向密切相关。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个四模态可穿戴目标推断基准,问题定义清晰但方法层面无新模型
- 实验充分度: ⭐⭐⭐⭐⭐ 7 个模型家族、详细的模态消融、严格的人工元评估、丰富的定性分析
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,图表精美,Appendix 极其详尽(含完整 prompt 模板)
- 价值: ⭐⭐⭐⭐ NeurIPS Spotlight,为可穿戴智能体的目标推断建立了标准基准