跳转至

AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment

会议: ACL 2025
arXiv: 2506.04089
代码: https://github.com/cog-model/AmbiK-dataset
领域: LLM Agent / 具身智能
关键词: 歧义检测, 机器人任务规划, 厨房环境, conformal prediction, benchmark

一句话总结

提出 AmbiK,一个专门用于厨房环境中歧义指令检测的纯文本数据集,包含 1000 对歧义/非歧义指令,按三种歧义类型(用户偏好/常识/安全)分类标注,并评估了多种基于 conformal prediction 的歧义检测方法,发现现有方法在该基准上表现很差。

研究背景与动机

  1. 领域现状:LLM 在具身 AI 中被广泛用于根据自然语言指令进行行为规划。但现实中的指令常常是歧义的(如"把杯子放桌上"在有多个杯子的场景中就产生歧义),机器人需要判断何时该请求用户澄清。
  2. 现有痛点:已有数据集如 DialFred、TEACh 包含部分歧义任务但缺乏专门标注;KnowNo 数据集虽是歧义检测专用但任务过于简单(单步指令、少量物体),类型划分不一致;这些数据集无法作为统一的纯文本基准来公平比较不同方法。
  3. 核心矛盾:缺乏一个高质量、标注完整、支持多种歧义类型的专用基准,导致不同歧义检测方法难以公平对比。
  4. 本文要解决什么? 构建一个针对厨房场景的纯文本歧义指令基准,支持统一评估 LLM 的歧义检测能力。
  5. 切入角度:基于"解决歧义所需的知识类型"来分类歧义(偏好/常识/安全),而非语言学分类,因为不同类型对应机器人的不同行动策略。
  6. 核心 idea 一句话:构建按"机器人应如何响应"分类的成对歧义/非歧义指令数据集,使歧义检测方法能在统一基准上公平对比。

方法详解

整体框架

AmbiK 是一个纯文本数据集,每条数据包含:环境描述(物体列表)、歧义指令、对应的非歧义指令、歧义类型标签、澄清问题-答案对、用户意图和任务计划。

关键设计

  1. 歧义类型分类(基于行动策略):
  2. 做什么:将歧义分为三类——人类偏好 (42%)、常识知识 (42.5%)、安全 (15.5%)
  3. 核心思路:偏好类歧义(如选哪个杯子)机器人应始终询问;常识类(如用什么烤面包→烤面包机)机器人不应频繁询问(符合 Grice 合作原则);安全类(如微波炉安全的餐具)即使是显而易见的也可以询问
  4. 设计动机:以往分类基于语言学(指代歧义/空间歧义等),但不同语言学类型的处理策略可能相同,这种分类不具有可操作性;按行动策略分类直接指导机器人行为

  5. 成对构造:

  6. 做什么:每条歧义指令都有一个语言上最小差异的非歧义对照
  7. 核心思路:如"请用咖啡机泡一杯咖啡倒入杯子"(歧义)vs "倒入陶瓷杯"(非歧义),仅在关键词上有差异
  8. 设计动机:成对构造允许直接测量模型能否区分歧义和非歧义指令,消除了其他混杂因素

  9. 数据收集流程:

  10. 做什么:半自动生成 + 人工验证
  11. 核心思路:手动创建 750+ 厨房物品列表 → 随机采样生成 1000 个环境 → Mistral 生成非歧义任务 → ChatGPT 生成歧义对照和问答对 → 人工标注和审核(标注者间一致性 >95%)
  12. 设计动机:LLM 辅助生成提高效率,人工验证保证质量

评估指标体系

  • Intent Coverage Rate (ICR):模型预测集中覆盖了多少用户意图关键词
  • Help Rate (HR):机器人请求帮助的频率
  • Correct Help Rate (CHR):根据歧义类型判断是否应该请求帮助的正确率
  • Set Size Correctness (SSC):预测选项集与正确选项集的 IoU
  • Ambiguity Differentiation (AmbDif):能否区分歧义和非歧义指令

实验关键数据

主实验

在 GPT-3.5、GPT-4、Llama-2-7B、Llama-3-8B 上测试五种方法:

方法 类型 GPT-3.5 AmbDif GPT-4 AmbDif Llama-3 AmbDif
KnowNo CP-based 0.27 0.16 0.40
LAP CP-based 0.18 0.15 0.40
LofreeCP CP-based (logit-free) 0.28 0.20 0.44
Binary Prompt-based 0.04 0.03 0.00
No Help Baseline 0.00 0.00 0.00

消融:AmbiK vs KnowNo 数据集

数据集 KnowNo方法 Help Rate KnowNo方法 Success Rate
KnowNo (原始数据集) 0.80 0.79
AmbiK 极低 极低

关键发现

  • 所有方法在 AmbiK 上表现都很差——AmbDif 最高仅 0.44,说明现有方法几乎无法区分歧义和非歧义任务
  • SSC 没有任何方法超过 20%,说明 CP 集与实际歧义选项严重不对齐
  • 机器人几乎要么从不请求帮助要么总是请求帮助,无法根据歧义类型灵活调整
  • 不依赖 logits 的方法(Binary、LofreeCP)反而比基于 logits 的方法更好,说明 LLM logits 作为不确定性代理是不可靠的
  • 在简单的 KnowNo 数据集上方法表现良好,说明 AmbiK 确实提供了更有挑战性的基准

亮点与洞察

  • 按行动策略分类歧义:不按语言学特性(指代/空间等)分类,而按"机器人该怎么做"分类(偏好→必须问、常识→不应问、安全→可以问),这种以应用为导向的分类更实用
  • 成对设计巧妙:歧义/非歧义指令仅有最小差异,让评估更精确,能直接测量模型的歧义敏感度
  • 验证了 LLM logits 不可靠:logit-free 方法优于 logit-based 方法,与已有文献(RLHF 导致过度自信)一致

局限性 / 可改进方向

  • 仅限厨房环境,未扩展到其他家居场景(车库、杂货店等)
  • 纯文本设计不包含视觉/空间信息,实际机器人需要多模态理解
  • 零上下文假设(不考虑对话历史)限制了真实交互场景的模拟
  • 每条歧义指令只有一个正确意图,未处理多意图场景
  • 仅用 few-shot prompting 评估,未尝试 fine-tuning 方法

相关工作与启发

  • vs KnowNo:KnowNo 仅有 170 条歧义任务且大多是单步简单指令;AmbiK 有 1000 条歧义任务,多步复杂指令,更贴近真实场景
  • vs SIF:SIF 的歧义仅限于物体位置搜索,AmbiK 涵盖偏好/常识/安全三大类
  • vs SaGC:SaGC 的"歧义"实际上是任务欠指定(如"做点好吃的"),与本文定义的"可能导致错误后果的选择"不同
  • 对具身 AI 中的指令理解和交互设计有启发:模型需要学会"什么时候该问,什么时候不该问"

评分

  • 新颖性: ⭐⭐⭐⭐ 按行动策略分类歧义的思路新颖,成对构造设计精巧
  • 实验充分度: ⭐⭐⭐⭐ 测试了多种方法和模型,指标设计全面,与 KnowNo 做了对比
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,分类体系合理,实验分析深入
  • 价值: ⭐⭐⭐⭐ 为具身 AI 歧义检测提供了急需的高质量基准,揭示了现有方法的严重不足