Visual Intention Grounding for Egocentric Assistants¶

会议: ICCV 2025
arXiv: 2504.13621
代码: 待公开
领域: multimodal_vlm
关键词: 视觉意图定位, 第一人称视角, 自我中心视觉, 物体功能推理, 指令微调

一句话总结¶

提出首个面向自我中心视觉意图定位（egocentric visual intention grounding）的任务和数据集 EgoIntention（26K 图像 + 52K 意图描述 + 89K 边界框），揭示现有 MLLM 在隐式意图推理和第一人称视觉定位上的重大不足，并提出 Reason-to-Ground (RoG) 指令微调方法，通过解耦意图推理和物体定位显著提升性能。

研究背景与动机¶

核心场景¶

想象一个穿戴式 AI 助手：用户在凌乱的工作室中寻找坐处来整理工具，或一个孩子想要够到厨房水槽。助手需要在无需用户明确指出物体名称的情况下，根据上下文意图找到合适的物体（如椅子）。

传统视觉定位 vs 意图定位¶

维度	传统视觉定位	视觉意图定位
视角	第三人称	第一人称（自我中心）
查询	明确物体描述（"白色椅子"）	隐式意图（"收拾手机和行李"）
推理	词到物体的直接匹配	需推理物体功能/用途
挑战	物体识别	遮挡、动态视角 + 功能推理

关键挑战¶

误导性显式提及：意图句子中可能显式提到某些物体但它们并非目标——如"收拾我的手机和行李"中提到"手机"，但目标是手提包（用来装这些东西）

非常规物体用途：椅子通常用来坐，但在"够到水槽"场景中用来踩着增高——需要理解物体的可供性（affordance）

第一人称视角困难：运动模糊、小物体、透视畸变等

现有方法的不足¶

两阶段方案（GPT-4 推理 + GroundingDINO 检测）：两个模型在不同特征空间操作，存在模态对齐不一致，可能幻觉出不存在的物体

MLLMs：主要为第三人称视觉定位设计，缺少将自我中心视觉与意图句子连接的训练数据

方法详解¶

整体框架：EgoIntention 数据集¶

数据来源¶

图像来自 Ego4D（最大真实世界自我中心视觉数据集）
边界框标注继承 PACO-Ego4D（物体部件和属性数据集）
在此基础上增添精心策划的人类意图描述

数据构建三阶段流程¶

Stage 1: 意图句子生成（GPT-4） - 两类意图描述： - 上下文意图（context-aware）：符合环境预期——"我注意到桌腿晃动需要修理"→ 锤子。通过率 97.2% - 非常规意图（uncommon）：非典型用途——"下雨时用背包临时遮雨"。通过率 74.1%

Stage 2: 人工验证（Amazon MTurk） - 评估语义有效性和真实世界适用性 - 辅以 GPT-4 验证器（与人类判断 92% 一致）

Stage 3: 替代物体标注 - 针对意图的主观性，标注多个可能满足意图的物体（如"桌面装饰"→ 花盆/瓶子/杯子均可） - 补充边界框，同样需要通过双重验证

数据集统计¶

划分	图像数	上下文边界框	非常规边界框
训练	15,667	25,772	25,933
验证	825	1,402	1,366
测试	9,892	17,699	17,669
总计	26,384	44,873	44,968

核心方法：Reason-to-Ground (RoG) 指令微调¶

设计动机¶

观察实验发现： - 先推理再检测（R-D）远优于先检测再推理（D-R）：R-D 的 P@0.5 为 46.6% vs D-R 的 21.1%（差距 25%） - 原因：先用 GPT-4 缩小目标范围到 1-2 个类别，GroundingDINO 就能更精准检测 - 但两阶段方案的特征空间不一致是瓶颈

RoG 两阶段解耦¶

传统方法直接输入意图句子 + <ref> token → 输出边界框

RoG 将任务分解为： 1. 意图推理：<reason> token + 隐式意图句子 → 模型输出目标物体类别 2. 物体定位：<ref> token + 第一阶段推理出的显式物体描述 → 模型输出边界框

核心优势：防止模型将意图句子中显式提及但非目标的物体直接映射到边界框。

训练策略¶

混合训练数据：RefCOCO/+/g（传统 REC）+ EgoIntention（意图定位）
使用 LoRA 高效微调
Model-agnostic：适用于 MiniGPTv2、Qwen-VL 等

实验关键数据¶

主实验：零样本评估（Table 3）¶

方法	上下文 P@0.5	非常规 P@0.5	总体 P@0.5
D-R (GroundingDINO→GPT4)	21.1	14.6	17.8
R-D (GPT4→GroundingDINO)	46.6	23.6	35.1
CogVLM-grounding	3.4	2.4	2.9
Groma	4.8	4.3	4.5
MiniGPT-v2	18.8	15.7	17.2
Qwen-VL	26.3	12.6	19.4

关键发现：定位专用 MLLM（CogVLM、Groma）几乎完全失败——缺乏意图推理能力。

RoG 微调结果（Table 4）¶

模型	方法	RefCOCO val	RefCOCO+ val	EgoIntention 上下文	EgoIntention 非常规	总体
MiniGPTv2	Zero-shot	87.37	79.00	18.73	15.72	17.22
MiniGPTv2	Naive SFT	86.60	78.98	41.31	36.92	39.11
MiniGPTv2	RoG SFT	87.83	79.76	45.06	40.21	42.64
Qwen-VL	Zero-shot	89.32	83.18	26.30	12.60	19.45
Qwen-VL	RoG SFT	89.26	83.29	38.25	31.56	34.91

核心结果：RoG 相比 Naive SFT 在 EgoIntention 上提升 3.5 P@0.5，且在 RefCOCO 系列上也略有提升——不会损害传统定位能力。

消融实验：训练数据组合（Table 5 & 6）¶

训练数据	方法	RefCOCO val	EgoIntention 上下文	EgoIntention 非常规
仅 EgoInt.	Naive SFT	66.53 (灾难性遗忘!)	38.26	35.53
RefCOCO/+/g + EgoInt.	Naive SFT	87.48	41.07	36.91
全部数据	Naive SFT	86.60	41.31	36.92
全部数据	RoG SFT	87.83	45.06	40.21

关键发现： 1. 仅用 EgoInt. 微调导致 RefCOCO 性能暴跌 20%+——典型的灾难性遗忘 2. 混合 RefCOCO 数据保持传统 REC 能力 + 提升意图定位 3. RoG 解耦策略在所有数据组合中都优于 Naive SFT 4. RoG 还提升了显式物体查询的 EgoIntention 性能（44.26% → 47.50%）

亮点与洞察¶

任务定义的开创性：首次系统定义并研究自我中心视觉意图定位，明确区分传统物体定位与意图驱动定位
数据集设计精良：双类型意图（上下文+非常规）+ 多替代物体标注 + 三阶段验证，充分捕捉意图的多义性
RoG 的简洁有效：仅通过引入一个 <reason> token 和两阶段解耦，就显著提升了意图定位，同时保持甚至提升传统定位能力
诊断性洞察：先推理再检测远优于先检测再推理，说明缩小搜索空间是视觉意图理解的关键

局限性¶

数据集规模：26K 图像在深度学习标准下偏小，可能限制复杂意图推理的学习
GPT-4 依赖：意图生成和验证依赖 GPT-4，引入偏见和成本
单一模态输入：仅处理静态图像，真实自我中心场景多为视频流
未探索多轮交互：真实 AI 助手可能需要与用户对话澄清意图
MiniGPTv2 vs Qwen-VL 差异：RoG 对 Qwen-VL 效果较弱，可能因其指令遵循能力较差

评分 ⭐⭐⭐⭐¶

创新性: ⭐⭐⭐⭐⭐ — 新任务 + 新数据集 + 新方法，体系完整
实用性: ⭐⭐⭐⭐ — 直接面向穿戴式 AI 助手场景
实验深度: ⭐⭐⭐⭐ — 零样本+微调+消融全覆盖，6个模型8个数据集
写作质量: ⭐⭐⭐⭐ — 场景引入生动，方法动机清晰