Benchmarking Egocentric Multimodal Goal Inference for Assistive Wearable Agents¶

会议: NeurIPS 2025 (Spotlight)
arXiv: 2510.22443
代码: https://github.com/facebookresearch/WAGIBench/
领域: 多模态VLM / 第一视角理解 / 可穿戴智能体
关键词: 目标推断, 可穿戴智能体, 多模态基准, 第一视角视频, VLM评测

一句话总结¶

Meta 提出 WAGIBench，一个针对可穿戴辅助智能体的多模态目标推断基准，包含 348 名参与者的 3,477 条第一视角录制（29小时），涵盖视觉/音频/数字/纵向四种模态，人类准确率 93% vs 最佳 VLM 84%（MCQ），生成式评估中模型仅 55% 时间产生相关目标，揭示了当前 VLM 在实际可穿戴场景中的显著差距。

背景与动机¶

可穿戴辅助智能体（如智能眼镜上的 AI 助手）近年来受到广泛关注，典型场景包括手机端数字代理、记忆增强代理、视障辅助等。然而这些系统都面临一个根本瓶颈：用户必须明确表达自己想要什么（如"我的钥匙放哪了？"），交互成本高且不自然。如果智能体能从用户的被动行为线索（看了什么、说了什么、手机上在看什么、过去的习惯）中主动推断目标，就能极大降低交互摩擦。

现有的第一视角数据集（如 Ego4D）存在几个关键问题：(1) 标注通常由 LLM 从旁述文本重新生成，缺乏真实的"ground-truth 目标"；(2) 模态单一，通常只有视频和音频，缺少数字上下文（日历、搜索记录等）和纵向历史；(3) 场景不够生态有效，难以触发需要智能体辅助的真实情景。

核心问题¶

给定用户的多模态被动观察（第一视角视频、环境音频、手机应用状态、历史行为记录），能否自动推断出用户想要执行的数字动作（搜索、购物、设提醒等）？这个"目标推断"问题是可穿戴智能体从被动感知到主动辅助的关键环节。论文的核心贡献不在于提出新方法，而在于构建一个高质量、多模态、有 ground-truth 的基准来衡量这个问题的进展。

方法详解¶

整体框架¶

WAGIBench 的设计包含三大组件：

数据集构建：通过脚本化交互收集多模态第一视角数据，确保每条记录都有明确的参考目标
评测任务设计：包含判别式（MCQ）和生成式（LLM Judge）两种评测范式
元评估：通过人工评估验证自动评测指标的有效性

输入：第一视角视频 + 音频转录 + 数字应用状态（Calendar/Messaging/Notes/Search/Videos/Maps/Music 七个应用的完整状态）+ 纵向历史（同一用户的过往行为记录）
输出：预测的数字动作（如 {type: "search", query: "how to file taxes"}）

关键设计¶

脚本化数据收集保证 Ground-Truth 质量：与现有方法用 LLM 从旁述重新标注不同，WAGIBench 先设计 165 个脚本场景（覆盖厨房、办公室、户外、健身房等环境 + 各种应用场景），每个脚本有明确的"参考目标"。348 名参与者使用 Meta Aria 眼镜录制，每个脚本平均被 6 位参与者录制约 21 次。三位标注员进行质量审核（同意率 > 0.5、时间窗口 IoU > 0.7），保留约 80% 的录制。脚本中还包含可变参数（如用户自选的回收物品），增加了目标多样性。
四模态上下文设计与信号-噪声控制：每条数据标注了哪些模态对目标推断是"相关的"，形成了不同的子集——\(S_V\)（仅视觉相关）、\(S_{VA}\)（视觉+音频相关）、\(S_{VD}\)（视觉+数字相关）、\(S_{VL}\)（视觉+纵向相关）。数字上下文通过 LLM（Llama3.3-70B）从 persona 和场景线索生成完整的七应用状态，其中大量信息是无关干扰项，模型需要从中筛选出相关信号。纵向历史以"历史库"形式呈现：5 条来自同一参与者的支持视频，其中至多 1 条与当前场景共享脚本（正支持），其余为干扰项。纵向视频用 Socratic 方式表示——由 Qwen2.5-72B 和 InternVL-78B 分别生成字幕，再用 LLM 合并去除不一致信息。
双范式评测 + LLM Judge 元评估：
MCQ：每个样本生成 1 个"相似干扰项" MCQ 和 1 个"不相似干扰项" MCQ（共 7K 道题）。干扰项通过 sentenceBERT 嵌入选择：相似干扰项从 95-99 百分位采样，不相似干扰项从 0-80 百分位采样，并用贪心策略保证干扰项之间的多样性。
生成式：VLM 生成结构化的数字动作（从预定义模板中选择类型并填充参数），由 LLM Judge（GPT-4.1）打分（0/0.5/1.0 三档：不相关/边缘相关/高度相关）。
元评估：在 586 个高质量子集上，对比不同 Judge 变体（参考目标、脚本线索、Socratic 描述等组合）与人工评估的一致性，发现"参考目标+脚本线索"的 LLM Judge 达到 76.8% 的成对比较一致性，与人-人一致性（75.2%）不可区分。

训练策略¶

本文不涉及训练——这是一个纯评测基准工作。评测的模型包括 Llama-3.2-11B、Qwen2.5-VL-3B/7B/72B、InternVL2.5-MPO-2B/8B/78B 和 GPT-4.1。音频统一用 Whisper-base 转录，视频统一采样 32 帧（Llama 除外，仅支持单帧）。

实验关键数据¶

判别式评估（MCQ 准确率）¶

模型	参数量	MCQ (全集)	生成式 (全集)
Llama-3.2	11B	0.4311	0.3197
InternVL-2B	2B	0.4422	0.2134
InternVL-8B	8B	0.6741	0.3503
InternVL-78B	78B	0.8680	0.4866
Qwen-3B	3B	0.7153	0.2468
Qwen-7B	7B	0.7754	0.3999
Qwen-72B	72B	0.8755	0.4980
GPT-4.1	—	0.8774	0.5498
人类	—	0.93 (similar) / 0.97 (dissimilar)	—

LLM Judge 元评估（成对比较一致性）¶

Judge 变体	与人类一致性
SBERT Similarity	59.5%
Socratic	63.0%
Snap-MCQ	67.8%
Reference	~73%
Cues + Reference	76.8%
人-人一致性	75.2%

消融实验要点¶

模态消融：在 \(S_{VA}\) 子集上，加入音频（V→VA）带来最大提升，MCQ 上高达 35%，生成式高达 30%。数字和纵向模态提升较小，主要因为信噪比低。
高信号模态验证：构造了只含相关信息的 \(D^*\)（仅相关应用子状态）和 \(L^*\)（仅正支持历史），\(VD^*\) 比 \(VD\) 提升最多 12%，\(VL^*\) 比 \(VL\) 提升最多 5.6%。
模型大小效应：性能与参数量强正相关。大模型（≥72B）更善于从噪声模态中过滤无关信息，小/中模型在全模态输入时甚至会受到干扰。
全模态输入（VADL）：大模型能够从混合模态中解耦相关特征，但小/中模型出现模态干扰现象。

亮点¶

数据收集范式设计精巧：通过脚本化方式在保证生态有效性的同时获得了干净的 ground-truth 目标，巧妙解决了第一视角目标推断数据集的核心难题。
四模态覆盖全面且有控制：不仅收集了四种模态（这在该领域是首次），还精心标注了每条数据中哪些模态是"相关的"，使得模态消融实验有据可依。
LLM Judge 元评估严谨：不仅使用了 LLM Judge，还通过人工评估对比了多种 Judge 变体，发现"参考+线索"的 Judge 与人-人一致性相当，为该领域的自动评测提供了可靠方案。
揭示了关键挑战：信噪比问题（数字/纵向模态中大量无关信息）和模型规模限制（可穿戴设备需要小模型，但性能差距巨大）是未来研究的明确方向。

局限性 / 可改进方向¶

人类验证仅覆盖视觉+音频模态：数字和纵向上下文太复杂，现有标注工具难以让人类有效处理，因此人类基线不完整。
仅考虑用户主动发起的交互：一个真正的主动辅助系统还需要判断"何时"该介入，这需要大量负样本（无需辅助的场景），当前数据集不包含。
纵向历史建模有限：目前仅捕获了"重复习惯"类的纵向线索，用户偏好（如素食者）、环境状态（如家里是否整洁）等更丰富的纵向信息未被涵盖。
数字上下文为合成：虽然保护了隐私，但合成的应用状态可能与真实使用模式存在分布差异。
脚本化收集的生态有效性：尽管做了努力让脚本自然化，但参与者是在执行指定任务，与完全自然的行为仍有差距。

与相关工作的对比¶

对比维度	WAGIBench (本文)	PARSE-Ego4D	MM-Ego / EgoLife
任务	目标推断	目标推断	智能体策略
模态	V + A + D + L (纵向)	V 或 A (单一)	V + A (纵向)
标注方式	脚本化 ground-truth	LLM 从旁述重标	LLM 从旁述/字幕重标
数字上下文	✓ (七种应用)	✗	✗
参与者	348	10,133 (Ego4D 视频)	629 / 6
评测方式	MCQ + LLM Judge (元评估验证)	NLL / RougeL	MCQ

与 PARSE-Ego4D 相比，WAGIBench 的核心优势在于多模态覆盖和脚本化 ground-truth（而非 LLM 重标注）。与 MM-Ego/EgoLife 相比，WAGIBench 聚焦于目标推断而非策略执行，且首次引入数字上下文模态。

启发与关联¶

多模态信噪比问题：论文揭示的数字/纵向模态中的信噪比挑战，对所有需要处理长上下文、多源信息的 VLM 应用都有启示意义——简单拼接所有信息不够，模型需要学会"忽略"无关信息。
边端部署差距：小模型（≤3B）与大模型（≥72B）的巨大性能差距，说明可穿戴设备上的高效推理是一个亟待解决的问题，模型蒸馏和针对性微调可能是解决方向。
主动推断 vs 被动响应：该工作开辟了从"用户问→系统答"到"系统观察→主动辅助"的新范式，与 proactive agent 方向密切相关。

评分¶

新颖性: ⭐⭐⭐⭐ 首个四模态可穿戴目标推断基准，问题定义清晰但方法层面无新模型
实验充分度: ⭐⭐⭐⭐⭐ 7 个模型家族、详细的模态消融、严格的人工元评估、丰富的定性分析
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，图表精美，Appendix 极其详尽（含完整 prompt 模板）
价值: ⭐⭐⭐⭐ NeurIPS Spotlight，为可穿戴智能体的目标推断建立了标准基准