AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment¶

会议: ACL 2025
arXiv: 2506.04089
代码: https://github.com/cog-model/AmbiK-dataset
领域: LLM Agent / 具身智能
关键词: 歧义检测, 机器人任务规划, 厨房环境, conformal prediction, benchmark

一句话总结¶

提出 AmbiK，一个专门用于厨房环境中歧义指令检测的纯文本数据集，包含 1000 对歧义/非歧义指令，按三种歧义类型（用户偏好/常识/安全）分类标注，并评估了多种基于 conformal prediction 的歧义检测方法，发现现有方法在该基准上表现很差。

研究背景与动机¶

领域现状：LLM 在具身 AI 中被广泛用于根据自然语言指令进行行为规划。但现实中的指令常常是歧义的（如"把杯子放桌上"在有多个杯子的场景中就产生歧义），机器人需要判断何时该请求用户澄清。
现有痛点：已有数据集如 DialFred、TEACh 包含部分歧义任务但缺乏专门标注；KnowNo 数据集虽是歧义检测专用但任务过于简单（单步指令、少量物体），类型划分不一致；这些数据集无法作为统一的纯文本基准来公平比较不同方法。
核心矛盾：缺乏一个高质量、标注完整、支持多种歧义类型的专用基准，导致不同歧义检测方法难以公平对比。
本文要解决什么？ 构建一个针对厨房场景的纯文本歧义指令基准，支持统一评估 LLM 的歧义检测能力。
切入角度：基于"解决歧义所需的知识类型"来分类歧义（偏好/常识/安全），而非语言学分类，因为不同类型对应机器人的不同行动策略。
核心 idea 一句话：构建按"机器人应如何响应"分类的成对歧义/非歧义指令数据集，使歧义检测方法能在统一基准上公平对比。

方法详解¶

整体框架¶

AmbiK 是一个纯文本数据集，每条数据包含：环境描述（物体列表）、歧义指令、对应的非歧义指令、歧义类型标签、澄清问题-答案对、用户意图和任务计划。

关键设计¶

歧义类型分类（基于行动策略）:
做什么：将歧义分为三类——人类偏好 (42%)、常识知识 (42.5%)、安全 (15.5%)
核心思路：偏好类歧义（如选哪个杯子）机器人应始终询问；常识类（如用什么烤面包→烤面包机）机器人不应频繁询问（符合 Grice 合作原则）；安全类（如微波炉安全的餐具）即使是显而易见的也可以询问
设计动机：以往分类基于语言学（指代歧义/空间歧义等），但不同语言学类型的处理策略可能相同，这种分类不具有可操作性；按行动策略分类直接指导机器人行为
成对构造:
做什么：每条歧义指令都有一个语言上最小差异的非歧义对照
核心思路：如"请用咖啡机泡一杯咖啡倒入杯子"（歧义）vs "倒入陶瓷杯"（非歧义），仅在关键词上有差异
设计动机：成对构造允许直接测量模型能否区分歧义和非歧义指令，消除了其他混杂因素
数据收集流程:
做什么：半自动生成 + 人工验证
核心思路：手动创建 750+ 厨房物品列表 → 随机采样生成 1000 个环境 → Mistral 生成非歧义任务 → ChatGPT 生成歧义对照和问答对 → 人工标注和审核（标注者间一致性 >95%）
设计动机：LLM 辅助生成提高效率，人工验证保证质量

评估指标体系¶

Intent Coverage Rate (ICR)：模型预测集中覆盖了多少用户意图关键词
Help Rate (HR)：机器人请求帮助的频率
Correct Help Rate (CHR)：根据歧义类型判断是否应该请求帮助的正确率
Set Size Correctness (SSC)：预测选项集与正确选项集的 IoU
Ambiguity Differentiation (AmbDif)：能否区分歧义和非歧义指令

实验关键数据¶

主实验¶

在 GPT-3.5、GPT-4、Llama-2-7B、Llama-3-8B 上测试五种方法：

方法	类型	GPT-3.5 AmbDif	GPT-4 AmbDif	Llama-3 AmbDif
KnowNo	CP-based	0.27	0.16	0.40
LAP	CP-based	0.18	0.15	0.40
LofreeCP	CP-based (logit-free)	0.28	0.20	0.44
Binary	Prompt-based	0.04	0.03	0.00
No Help	Baseline	0.00	0.00	0.00

消融：AmbiK vs KnowNo 数据集¶

数据集	KnowNo方法 Help Rate	KnowNo方法 Success Rate
KnowNo (原始数据集)	0.80	0.79
AmbiK	极低	极低

关键发现¶

所有方法在 AmbiK 上表现都很差——AmbDif 最高仅 0.44，说明现有方法几乎无法区分歧义和非歧义任务
SSC 没有任何方法超过 20%，说明 CP 集与实际歧义选项严重不对齐
机器人几乎要么从不请求帮助要么总是请求帮助，无法根据歧义类型灵活调整
不依赖 logits 的方法（Binary、LofreeCP）反而比基于 logits 的方法更好，说明 LLM logits 作为不确定性代理是不可靠的
在简单的 KnowNo 数据集上方法表现良好，说明 AmbiK 确实提供了更有挑战性的基准

亮点与洞察¶

按行动策略分类歧义：不按语言学特性（指代/空间等）分类，而按"机器人该怎么做"分类（偏好→必须问、常识→不应问、安全→可以问），这种以应用为导向的分类更实用
成对设计巧妙：歧义/非歧义指令仅有最小差异，让评估更精确，能直接测量模型的歧义敏感度
验证了 LLM logits 不可靠：logit-free 方法优于 logit-based 方法，与已有文献（RLHF 导致过度自信）一致

局限性 / 可改进方向¶

仅限厨房环境，未扩展到其他家居场景（车库、杂货店等）
纯文本设计不包含视觉/空间信息，实际机器人需要多模态理解
零上下文假设（不考虑对话历史）限制了真实交互场景的模拟
每条歧义指令只有一个正确意图，未处理多意图场景
仅用 few-shot prompting 评估，未尝试 fine-tuning 方法

评分¶

新颖性: ⭐⭐⭐⭐ 按行动策略分类歧义的思路新颖，成对构造设计精巧
实验充分度: ⭐⭐⭐⭐ 测试了多种方法和模型，指标设计全面，与 KnowNo 做了对比
写作质量: ⭐⭐⭐⭐ 问题定义清晰，分类体系合理，实验分析深入
价值: ⭐⭐⭐⭐ 为具身 AI 歧义检测提供了急需的高质量基准，揭示了现有方法的严重不足