AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment¶
会议: ACL 2025
arXiv: 2506.04089
代码: https://github.com/cog-model/AmbiK-dataset
领域: LLM Agent / 具身智能
关键词: 歧义检测, 机器人任务规划, 厨房环境, conformal prediction, benchmark
一句话总结¶
提出 AmbiK,一个专门用于厨房环境中歧义指令检测的纯文本数据集,包含 1000 对歧义/非歧义指令,按三种歧义类型(用户偏好/常识/安全)分类标注,并评估了多种基于 conformal prediction 的歧义检测方法,发现现有方法在该基准上表现很差。
研究背景与动机¶
- 领域现状:LLM 在具身 AI 中被广泛用于根据自然语言指令进行行为规划。但现实中的指令常常是歧义的(如"把杯子放桌上"在有多个杯子的场景中就产生歧义),机器人需要判断何时该请求用户澄清。
- 现有痛点:已有数据集如 DialFred、TEACh 包含部分歧义任务但缺乏专门标注;KnowNo 数据集虽是歧义检测专用但任务过于简单(单步指令、少量物体),类型划分不一致;这些数据集无法作为统一的纯文本基准来公平比较不同方法。
- 核心矛盾:缺乏一个高质量、标注完整、支持多种歧义类型的专用基准,导致不同歧义检测方法难以公平对比。
- 本文要解决什么? 构建一个针对厨房场景的纯文本歧义指令基准,支持统一评估 LLM 的歧义检测能力。
- 切入角度:基于"解决歧义所需的知识类型"来分类歧义(偏好/常识/安全),而非语言学分类,因为不同类型对应机器人的不同行动策略。
- 核心 idea 一句话:构建按"机器人应如何响应"分类的成对歧义/非歧义指令数据集,使歧义检测方法能在统一基准上公平对比。
方法详解¶
整体框架¶
AmbiK 是一个纯文本数据集,每条数据包含:环境描述(物体列表)、歧义指令、对应的非歧义指令、歧义类型标签、澄清问题-答案对、用户意图和任务计划。
关键设计¶
- 歧义类型分类(基于行动策略):
- 做什么:将歧义分为三类——人类偏好 (42%)、常识知识 (42.5%)、安全 (15.5%)
- 核心思路:偏好类歧义(如选哪个杯子)机器人应始终询问;常识类(如用什么烤面包→烤面包机)机器人不应频繁询问(符合 Grice 合作原则);安全类(如微波炉安全的餐具)即使是显而易见的也可以询问
-
设计动机:以往分类基于语言学(指代歧义/空间歧义等),但不同语言学类型的处理策略可能相同,这种分类不具有可操作性;按行动策略分类直接指导机器人行为
-
成对构造:
- 做什么:每条歧义指令都有一个语言上最小差异的非歧义对照
- 核心思路:如"请用咖啡机泡一杯咖啡倒入杯子"(歧义)vs "倒入陶瓷杯"(非歧义),仅在关键词上有差异
-
设计动机:成对构造允许直接测量模型能否区分歧义和非歧义指令,消除了其他混杂因素
-
数据收集流程:
- 做什么:半自动生成 + 人工验证
- 核心思路:手动创建 750+ 厨房物品列表 → 随机采样生成 1000 个环境 → Mistral 生成非歧义任务 → ChatGPT 生成歧义对照和问答对 → 人工标注和审核(标注者间一致性 >95%)
- 设计动机:LLM 辅助生成提高效率,人工验证保证质量
评估指标体系¶
- Intent Coverage Rate (ICR):模型预测集中覆盖了多少用户意图关键词
- Help Rate (HR):机器人请求帮助的频率
- Correct Help Rate (CHR):根据歧义类型判断是否应该请求帮助的正确率
- Set Size Correctness (SSC):预测选项集与正确选项集的 IoU
- Ambiguity Differentiation (AmbDif):能否区分歧义和非歧义指令
实验关键数据¶
主实验¶
在 GPT-3.5、GPT-4、Llama-2-7B、Llama-3-8B 上测试五种方法:
| 方法 | 类型 | GPT-3.5 AmbDif | GPT-4 AmbDif | Llama-3 AmbDif |
|---|---|---|---|---|
| KnowNo | CP-based | 0.27 | 0.16 | 0.40 |
| LAP | CP-based | 0.18 | 0.15 | 0.40 |
| LofreeCP | CP-based (logit-free) | 0.28 | 0.20 | 0.44 |
| Binary | Prompt-based | 0.04 | 0.03 | 0.00 |
| No Help | Baseline | 0.00 | 0.00 | 0.00 |
消融:AmbiK vs KnowNo 数据集¶
| 数据集 | KnowNo方法 Help Rate | KnowNo方法 Success Rate |
|---|---|---|
| KnowNo (原始数据集) | 0.80 | 0.79 |
| AmbiK | 极低 | 极低 |
关键发现¶
- 所有方法在 AmbiK 上表现都很差——AmbDif 最高仅 0.44,说明现有方法几乎无法区分歧义和非歧义任务
- SSC 没有任何方法超过 20%,说明 CP 集与实际歧义选项严重不对齐
- 机器人几乎要么从不请求帮助要么总是请求帮助,无法根据歧义类型灵活调整
- 不依赖 logits 的方法(Binary、LofreeCP)反而比基于 logits 的方法更好,说明 LLM logits 作为不确定性代理是不可靠的
- 在简单的 KnowNo 数据集上方法表现良好,说明 AmbiK 确实提供了更有挑战性的基准
亮点与洞察¶
- 按行动策略分类歧义:不按语言学特性(指代/空间等)分类,而按"机器人该怎么做"分类(偏好→必须问、常识→不应问、安全→可以问),这种以应用为导向的分类更实用
- 成对设计巧妙:歧义/非歧义指令仅有最小差异,让评估更精确,能直接测量模型的歧义敏感度
- 验证了 LLM logits 不可靠:logit-free 方法优于 logit-based 方法,与已有文献(RLHF 导致过度自信)一致
局限性 / 可改进方向¶
- 仅限厨房环境,未扩展到其他家居场景(车库、杂货店等)
- 纯文本设计不包含视觉/空间信息,实际机器人需要多模态理解
- 零上下文假设(不考虑对话历史)限制了真实交互场景的模拟
- 每条歧义指令只有一个正确意图,未处理多意图场景
- 仅用 few-shot prompting 评估,未尝试 fine-tuning 方法
相关工作与启发¶
- vs KnowNo:KnowNo 仅有 170 条歧义任务且大多是单步简单指令;AmbiK 有 1000 条歧义任务,多步复杂指令,更贴近真实场景
- vs SIF:SIF 的歧义仅限于物体位置搜索,AmbiK 涵盖偏好/常识/安全三大类
- vs SaGC:SaGC 的"歧义"实际上是任务欠指定(如"做点好吃的"),与本文定义的"可能导致错误后果的选择"不同
- 对具身 AI 中的指令理解和交互设计有启发:模型需要学会"什么时候该问,什么时候不该问"
评分¶
- 新颖性: ⭐⭐⭐⭐ 按行动策略分类歧义的思路新颖,成对构造设计精巧
- 实验充分度: ⭐⭐⭐⭐ 测试了多种方法和模型,指标设计全面,与 KnowNo 做了对比
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,分类体系合理,实验分析深入
- 价值: ⭐⭐⭐⭐ 为具身 AI 歧义检测提供了急需的高质量基准,揭示了现有方法的严重不足