REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?¶

会议: ICLR 2026
arXiv: 2505.10872
代码: 项目页面
领域: 具身AI/任务规划
关键词: 指称表达, 模糊指令, LLM规划, 共指消解, 鲁棒性

一句话总结¶

首次系统研究人类模糊指令中的指称表达(Referring Expressions)对LLM机器人任务规划的影响——构建REI-Bench基准建模9级共指模糊度(3级RE难度×3级上下文)，发现隐式RE可使现有规划器成功率下降高达36.9%，提出Task-Oriented Context Cognition (TOCC)方法将任务理解与规划决策解耦，平均提升成功率6.5%。

研究背景与动机¶

领域现状：LLM驱动的机器人任务规划(SayCan、ProgPrompt、DAG-Plan等)已取得显著进展，但都基于一个理想化假设——用户指令清晰、完整、无歧义。然而真实场景中，人类语言天然带有模糊性。

核心痛点：真实用户(尤其是老人、儿童、阿尔茨海默症患者)的指令常包含隐式指称表达，如用"它"代替"锅"、用"那个重东西"代替"平底锅"。语言学研究表明，新闻中约20%的表达是描述性的(隐式RE)，日常对话中比例更高。这些群体恰恰是最需要机器人服务的。

研究空白：(1) 缺乏系统化评估模糊指令对机器人规划影响的基准；(2) 现有模糊性数据集(AmbiK、CLARA等)未系统建模RE的位置、频率和形式；(3) 不清楚LLM在规划场景中能否充分发挥其固有的语言理解能力。

理论基础：桥接推理理论(Clark, 1975)解释了人类解析隐式RE的机制：听到"那个重东西"时，人会从上下文记忆中找到多个候选(锅、食材、水槽)，选择最匹配的。语用学者Levinson进一步区分了指称表达(RE)和指示表达(DE)两种模糊类型。

关键发现动机：作者发现LLM在单独提示时可以正确解析隐式RE(如通过反思提示)，但在规划过程中这种能力无法充分发挥——LLM过度关注计划生成而忽略了语言理解。这挑战了"嵌入LLM即可保证机器人理解人类语言"的常见假设。

实际影响：隐式RE导致的失败主要表现为"目标遗漏"(object omission)——规划器无法正确识别指令中的目标对象，从而生成错误的动作序列。例如"the heated one"被错误识别为"plate"而非"potato"。

方法详解¶

整体框架¶

REI-Bench的核心思路是：系统建模真实人机交互中的共指模糊性，通过组合不同级别的RE难度和上下文类型，构建覆盖9种模糊等级的评估基准。整体框架包含三个部分：(1) RE与对话上下文的形式化建模；(2) REI数据集的自动构建流水线；(3) 缓解模糊性的TOCC方法。

数据构建流水线基于ALFRED数据集中的种子指令：先用GPT-4o-mini扩展上下文对话→生成3种上下文变体→将显式RE替换为隐式RE→最终得到覆盖9种模糊等级的2700个样本。

关键设计1：三级指称表达难度建模¶

功能：将指令中的指称表达分为三个难度级别——显式RE(Explicit)、混合RE(Mixed)、隐式RE(Implicit)，系统化模拟从清晰到模糊的梯度。
核心思路：显式RE包括专有名词("apple")、定冠词短语("the apple")、不定冠词短语("an apple")，可直接理解；隐式RE包括代词("it"/"them")和属性表达("sweet fruit")，有多个潜在对应对象，需要上下文推理。三级设计为：
- Explicit REs：保留原始数据集中的所有显式表达
- Mixed REs：指令中的显式RE替换为隐式RE，但上下文记忆中的显式RE保留不变
- Implicit REs：所有显式RE均替换为隐式RE，仅保留上下文中的第一个显式RE
设计动机：现实中人类不总是使用完全清晰的表达，模糊程度随个人习惯和认知能力变化。分级设计允许定量分析不同模糊程度对规划性能的影响。替换规则基于OntoNotes语料库中的共指消解模式，确保隐式RE符合自然语言习惯。

关键设计2：三级上下文记忆建模¶

功能：设计三种对话上下文类型——标准上下文(Standard)、噪声上下文(Noised)、简短上下文(Short)——模拟真实人机交互中的不同信息质量。
核心思路：
- Standard Context：提供完整的任务相关上下文信息
- Noised Context：引入"歧义名称"噪声，即与场景物体名称相似的人名/品牌名(如"Rose"→"Mrs. Rose")，反复出现在对话中造成干扰
- Short Context：在噪声的基础上随机删除部分包含任务相关显式RE的名词短语，进一步增加推理难度
设计动机：语言学家认为词语与对象的联系是在特定上下文中构建的(Levinson, 1983)。日常误导线索来自"一词多义"(如"apple"既指水果又指品牌)；语义缺失则反映老人/儿童的认知局限。通过3级RE × 3级上下文 = 9种模糊等级的组合，可以全面评估规划器的鲁棒性。

关键设计3：Task-Oriented Context Cognition (TOCC)¶

功能：将隐式RE的解析从规划过程中解耦出来，先用LLM理解模糊指令并生成清晰的重述指令，再基于清晰指令进行任务规划。
核心思路：TOCC分为两步：
上下文认知阶段：给定模糊指令和对话上下文，LLM专注于识别隐式RE并推断其真实指代对象，生成一条简洁清晰的重述指令
规划阶段：基于重述后的清晰指令执行任务规划，此时LLM无需再同时处理语言理解和动作生成

与对比方法的区别： - Aware Prompt (AP)：仅提示"指令可能有模糊性"，不促进深层推理→改进有限且可能导致幻觉 - Chain-of-Thought (CoT)：引导规划器逐步分析RE后再规划，但长prompt在小模型上效果受限 - In-Context Learning (ICL)：提供示例帮助推断隐式RE，但小模型从示例中学习的能力有限 - TOCC：物理解耦理解与规划两个阶段，避免单次生成中注意力过度分配给规划而忽略理解

设计动机：作者通过实验观察到两个关键现象：(1) LLM在被显式提示时可以正确解析隐式RE；(2) 但在规划场景中这种能力无法充分发挥。这说明问题不在于LLM缺乏理解能力，而在于同时执行理解和规划两个任务时产生了注意力竞争。TOCC通过任务分离避免了这一问题。

关键设计4：自动化数据构建流水线¶

功能：基于ALFRED数据集构建自动化的REI数据集生成管线，不依赖人工标注。
核心思路：
从ALFRED选择6种家务任务(Pick & Place、Stack & Place等)，排除不可靠的Pick Two & Place
用"LLaMA3.1-8B + SayCan"执行任务，仅保留成功案例作为种子指令(过滤清晰指令下就无法完成的任务)
用GPT-4o-mini扩展上下文对话(Step 1)→生成3种上下文变体(Step 2)→基于CoT方法替换显式RE为隐式RE(Step 3)
基于计数规则保证各任务中显式RE数量一致，丢弃违规数据
设计动机：现有模糊表达数据集(如OntoNotes、Winograd Schema)由语言学家标注，但未系统化RE的位置、频率和形式。自动化管线确保数据的规模(2700样本×9级)和一致性，同时消除人工标注的主观偏差。

实验关键数据¶

主实验：规划器成功率随模糊度的变化¶

规划器	Explicit+Standard	Mixed+Standard	Implicit+Standard	最大下降
LLaMA3.1-8B + SayCan	46.90%	30.10% (-16.8%)	22.10% (-24.8%)	-24.8%
GPT-4o-mini + SayCan	45.00%	25.90% (-19.1%)	24.30% (-20.7%)	-20.7%
DeepSeekMath-7B + SayCan	27.00%	19.80% (-7.2%)	14.70% (-12.3%)	-12.3%
LLaMA3.1-8B + DAG-Plan	—	—	—	最高36.9%
GPT-4o + SayCan	较高基线	下降较小	仍有明显下降	—

注：基线(不含上下文的Explicit REs)下LLaMA3.1-8B+SayCan成功率为57.7%，加入多轮对话后降至46.90%。

消融实验：不同提示方法对比 (LLaMA3.1-8B + SayCan, Standard Context)¶

方法	Explicit RE 总错误率	Mixed RE 总错误率	Implicit RE 总错误率	Implicit RE 目标遗漏率
原始 (Baseline)	53.1%	69.9%	77.9%	53.9%
+ AP	53.2% (+0.1)	71.0% (+1.1)	77.3% (-0.6)	49.9% (-4.0)
+ CoT	52.7% (-0.4)	69.1% (-0.8)	77.9% (+0.0)	47.6% (-6.3)
+ ICL	60.8% (+7.7)	71.7% (+1.8)	78.6% (+0.7)	49.9% (-4.0)
+ TOCC	41.0% (-12.1)	66.4% (-3.5)	70.7% (-7.2)	40.1% (-13.8)
- Context	42.3% (-10.8)	86.9% (+17.0)	90.6% (+12.7)	85.1% (+31.2)

关键发现¶

隐式RE是规划失败的主因：随着隐式RE比例增加，所有规划器的成功率持续下降。以LLaMA3.1-8B+SayCan为例，Mixed级别下降16.8%，Implicit级别再下降8.0%。而上下文噪声和信息缺失的影响相对较小。
失败根源是"目标遗漏"而非"执行错误"：错误分析显示，随隐式RE增加，目标遗漏率从22.6%飙升至53.9%(LLaMA3.1-8B)，而执行错误率反而从30.5%降至24.0%。这表明LLM并非不会规划，而是无法正确识别隐式指称的目标对象。
LLM具备RE解析能力但在规划中失效：当直接提示LLM解析"the heated one"指什么时，它能正确回答"potato"；但在规划任务中，同一段输入却导致错误识别为"plate"。这说明规划任务消耗了LLM的注意力资源，抑制了语言理解能力的发挥。
TOCC通过解耦实现全面提升：TOCC在所有模糊等级上都实现了最佳性能，平均提升6.5%的成功率。在Implicit REs级别上，目标遗漏率从53.9%降至40.1%(降幅13.8%)，是所有方法中改进最大的。
去掉上下文验证了语用学理论：仅使用指令(无上下文)时，Explicit REs表现与TOCC相当，但Mixed和Implicit REs下性能暴跌(目标遗漏率从38.8%跃升至81.6%)。这符合语用学理论——上下文对解析隐式RE不可或缺。

亮点与洞察¶

语言学理论驱动的AI系统设计：论文将桥接推理、语用学等语言学理论系统性地融入机器人规划评估，不是简单地测试"模糊指令"，而是从信号(Signifier)与所指(Signified)的一对多关系出发，构建了有理论深度的基准。
揭示了LLM能力的"场景依赖失效"：LLM并非缺乏理解隐式RE的能力，而是在规划场景的多任务压力下无法发挥。这个发现对所有依赖LLM的系统都有启示——不能假设LLM的所有能力在任意任务组合下都能同时生效。
简单方法的有效性：TOCC本质上就是"先理解再规划"的两步解耦，没有额外训练、没有新模块。这种简洁性反映了问题根源的准确定位——回到了软件工程中"关注点分离"的基本原则。

局限性¶

任务复杂度有限：为隔离RE的影响，数据集仅包含LLM在清晰指令下能完成的简单、短视野、单目标任务。更复杂的长视野多目标场景尚未覆盖。
仅考虑共指模糊：人类语言模糊性还包括指示表达(DE，依赖空间/时间)、句法模糊、范围模糊等，本文仅关注共指模糊一种类型。
缺乏多模态信息：实验在AI2-THOR模拟器中进行，仅评估文本层面的语义理解能力，未考虑视觉和空间感知信息(如VLM-based规划器可能通过视觉线索帮助解析"那个红色的东西")。
TOCC增加推理开销：两步解耦意味着LLM需要两次推理调用。对于资源受限的机器人端(小模型)，额外的推理成本可能影响实时性。

评分¶

维度	评分	理由
新颖性	★★★★☆	首次系统性建模指称表达模糊度对机器人规划的影响，理论驱动的基准设计有创新性；但TOCC方法本身较简单
技术深度	★★★☆☆	基准构建流水线完整，但核心方法(TOCC)仅是两步提示解耦，无模型训练或架构创新
实验完整性	★★★★★	12个规划器(6 LLM × 4框架)、9种模糊等级、4种提示方法的全面消融；错误归因分析深入(目标遗漏 vs 执行错误)
实际影响	★★★★☆	揭示了LLM规划器在真实场景中被忽视的脆弱性，对HRI领域有直接启发；局限于简单任务和仿真环境