跳转至

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

会议: ICLR 2026
arXiv: 2505.10872
代码: 项目页面
领域: 具身AI/任务规划
关键词: 指称表达, 模糊指令, LLM规划, 共指消解, 鲁棒性

一句话总结

首次系统研究人类模糊指令中的指称表达(Referring Expressions)对LLM机器人任务规划的影响——构建REI-Bench基准建模9级共指模糊度(3级RE难度×3级上下文),发现隐式RE可使现有规划器成功率下降高达36.9%,提出Task-Oriented Context Cognition (TOCC)方法将任务理解与规划决策解耦,平均提升成功率6.5%。

研究背景与动机

领域现状:LLM驱动的机器人任务规划(SayCan、ProgPrompt、DAG-Plan等)已取得显著进展,但都基于一个理想化假设——用户指令清晰、完整、无歧义。然而真实场景中,人类语言天然带有模糊性。

核心痛点:真实用户(尤其是老人、儿童、阿尔茨海默症患者)的指令常包含隐式指称表达,如用"它"代替"锅"、用"那个重东西"代替"平底锅"。语言学研究表明,新闻中约20%的表达是描述性的(隐式RE),日常对话中比例更高。这些群体恰恰是最需要机器人服务的。

研究空白:(1) 缺乏系统化评估模糊指令对机器人规划影响的基准;(2) 现有模糊性数据集(AmbiK、CLARA等)未系统建模RE的位置、频率和形式;(3) 不清楚LLM在规划场景中能否充分发挥其固有的语言理解能力。

理论基础:桥接推理理论(Clark, 1975)解释了人类解析隐式RE的机制:听到"那个重东西"时,人会从上下文记忆中找到多个候选(锅、食材、水槽),选择最匹配的。语用学者Levinson进一步区分了指称表达(RE)和指示表达(DE)两种模糊类型。

关键发现动机:作者发现LLM在单独提示时可以正确解析隐式RE(如通过反思提示),但在规划过程中这种能力无法充分发挥——LLM过度关注计划生成而忽略了语言理解。这挑战了"嵌入LLM即可保证机器人理解人类语言"的常见假设。

实际影响:隐式RE导致的失败主要表现为"目标遗漏"(object omission)——规划器无法正确识别指令中的目标对象,从而生成错误的动作序列。例如"the heated one"被错误识别为"plate"而非"potato"。

方法详解

整体框架

REI-Bench的核心思路是:系统建模真实人机交互中的共指模糊性,通过组合不同级别的RE难度和上下文类型,构建覆盖9种模糊等级的评估基准。整体框架包含三个部分:(1) RE与对话上下文的形式化建模;(2) REI数据集的自动构建流水线;(3) 缓解模糊性的TOCC方法。

数据构建流水线基于ALFRED数据集中的种子指令:先用GPT-4o-mini扩展上下文对话→生成3种上下文变体→将显式RE替换为隐式RE→最终得到覆盖9种模糊等级的2700个样本。

关键设计1:三级指称表达难度建模

  • 功能:将指令中的指称表达分为三个难度级别——显式RE(Explicit)、混合RE(Mixed)、隐式RE(Implicit),系统化模拟从清晰到模糊的梯度。
  • 核心思路:显式RE包括专有名词("apple")、定冠词短语("the apple")、不定冠词短语("an apple"),可直接理解;隐式RE包括代词("it"/"them")和属性表达("sweet fruit"),有多个潜在对应对象,需要上下文推理。三级设计为:
    • Explicit REs:保留原始数据集中的所有显式表达
    • Mixed REs:指令中的显式RE替换为隐式RE,但上下文记忆中的显式RE保留不变
    • Implicit REs:所有显式RE均替换为隐式RE,仅保留上下文中的第一个显式RE
  • 设计动机:现实中人类不总是使用完全清晰的表达,模糊程度随个人习惯和认知能力变化。分级设计允许定量分析不同模糊程度对规划性能的影响。替换规则基于OntoNotes语料库中的共指消解模式,确保隐式RE符合自然语言习惯。

关键设计2:三级上下文记忆建模

  • 功能:设计三种对话上下文类型——标准上下文(Standard)、噪声上下文(Noised)、简短上下文(Short)——模拟真实人机交互中的不同信息质量。
  • 核心思路
    • Standard Context:提供完整的任务相关上下文信息
    • Noised Context:引入"歧义名称"噪声,即与场景物体名称相似的人名/品牌名(如"Rose"→"Mrs. Rose"),反复出现在对话中造成干扰
    • Short Context:在噪声的基础上随机删除部分包含任务相关显式RE的名词短语,进一步增加推理难度
  • 设计动机:语言学家认为词语与对象的联系是在特定上下文中构建的(Levinson, 1983)。日常误导线索来自"一词多义"(如"apple"既指水果又指品牌);语义缺失则反映老人/儿童的认知局限。通过3级RE × 3级上下文 = 9种模糊等级的组合,可以全面评估规划器的鲁棒性。

关键设计3:Task-Oriented Context Cognition (TOCC)

  • 功能:将隐式RE的解析从规划过程中解耦出来,先用LLM理解模糊指令并生成清晰的重述指令,再基于清晰指令进行任务规划。
  • 核心思路:TOCC分为两步:
  • 上下文认知阶段:给定模糊指令和对话上下文,LLM专注于识别隐式RE并推断其真实指代对象,生成一条简洁清晰的重述指令
  • 规划阶段:基于重述后的清晰指令执行任务规划,此时LLM无需再同时处理语言理解和动作生成

与对比方法的区别: - Aware Prompt (AP):仅提示"指令可能有模糊性",不促进深层推理→改进有限且可能导致幻觉 - Chain-of-Thought (CoT):引导规划器逐步分析RE后再规划,但长prompt在小模型上效果受限 - In-Context Learning (ICL):提供示例帮助推断隐式RE,但小模型从示例中学习的能力有限 - TOCC:物理解耦理解与规划两个阶段,避免单次生成中注意力过度分配给规划而忽略理解

  • 设计动机:作者通过实验观察到两个关键现象:(1) LLM在被显式提示时可以正确解析隐式RE;(2) 但在规划场景中这种能力无法充分发挥。这说明问题不在于LLM缺乏理解能力,而在于同时执行理解和规划两个任务时产生了注意力竞争。TOCC通过任务分离避免了这一问题。

关键设计4:自动化数据构建流水线

  • 功能:基于ALFRED数据集构建自动化的REI数据集生成管线,不依赖人工标注。
  • 核心思路
  • 从ALFRED选择6种家务任务(Pick & Place、Stack & Place等),排除不可靠的Pick Two & Place
  • 用"LLaMA3.1-8B + SayCan"执行任务,仅保留成功案例作为种子指令(过滤清晰指令下就无法完成的任务)
  • 用GPT-4o-mini扩展上下文对话(Step 1)→生成3种上下文变体(Step 2)→基于CoT方法替换显式RE为隐式RE(Step 3)
  • 基于计数规则保证各任务中显式RE数量一致,丢弃违规数据
  • 设计动机:现有模糊表达数据集(如OntoNotes、Winograd Schema)由语言学家标注,但未系统化RE的位置、频率和形式。自动化管线确保数据的规模(2700样本×9级)和一致性,同时消除人工标注的主观偏差。

实验关键数据

主实验:规划器成功率随模糊度的变化

规划器 Explicit+Standard Mixed+Standard Implicit+Standard 最大下降
LLaMA3.1-8B + SayCan 46.90% 30.10% (-16.8%) 22.10% (-24.8%) -24.8%
GPT-4o-mini + SayCan 45.00% 25.90% (-19.1%) 24.30% (-20.7%) -20.7%
DeepSeekMath-7B + SayCan 27.00% 19.80% (-7.2%) 14.70% (-12.3%) -12.3%
LLaMA3.1-8B + DAG-Plan 最高36.9%
GPT-4o + SayCan 较高基线 下降较小 仍有明显下降

注:基线(不含上下文的Explicit REs)下LLaMA3.1-8B+SayCan成功率为57.7%,加入多轮对话后降至46.90%。

消融实验:不同提示方法对比 (LLaMA3.1-8B + SayCan, Standard Context)

方法 Explicit RE 总错误率 Mixed RE 总错误率 Implicit RE 总错误率 Implicit RE 目标遗漏率
原始 (Baseline) 53.1% 69.9% 77.9% 53.9%
+ AP 53.2% (+0.1) 71.0% (+1.1) 77.3% (-0.6) 49.9% (-4.0)
+ CoT 52.7% (-0.4) 69.1% (-0.8) 77.9% (+0.0) 47.6% (-6.3)
+ ICL 60.8% (+7.7) 71.7% (+1.8) 78.6% (+0.7) 49.9% (-4.0)
+ TOCC 41.0% (-12.1) 66.4% (-3.5) 70.7% (-7.2) 40.1% (-13.8)
- Context 42.3% (-10.8) 86.9% (+17.0) 90.6% (+12.7) 85.1% (+31.2)

关键发现

  • 隐式RE是规划失败的主因:随着隐式RE比例增加,所有规划器的成功率持续下降。以LLaMA3.1-8B+SayCan为例,Mixed级别下降16.8%,Implicit级别再下降8.0%。而上下文噪声和信息缺失的影响相对较小。

  • 失败根源是"目标遗漏"而非"执行错误":错误分析显示,随隐式RE增加,目标遗漏率从22.6%飙升至53.9%(LLaMA3.1-8B),而执行错误率反而从30.5%降至24.0%。这表明LLM并非不会规划,而是无法正确识别隐式指称的目标对象。

  • LLM具备RE解析能力但在规划中失效:当直接提示LLM解析"the heated one"指什么时,它能正确回答"potato";但在规划任务中,同一段输入却导致错误识别为"plate"。这说明规划任务消耗了LLM的注意力资源,抑制了语言理解能力的发挥。

  • TOCC通过解耦实现全面提升:TOCC在所有模糊等级上都实现了最佳性能,平均提升6.5%的成功率。在Implicit REs级别上,目标遗漏率从53.9%降至40.1%(降幅13.8%),是所有方法中改进最大的。

  • 去掉上下文验证了语用学理论:仅使用指令(无上下文)时,Explicit REs表现与TOCC相当,但Mixed和Implicit REs下性能暴跌(目标遗漏率从38.8%跃升至81.6%)。这符合语用学理论——上下文对解析隐式RE不可或缺。

亮点与洞察

  1. 语言学理论驱动的AI系统设计:论文将桥接推理、语用学等语言学理论系统性地融入机器人规划评估,不是简单地测试"模糊指令",而是从信号(Signifier)与所指(Signified)的一对多关系出发,构建了有理论深度的基准。

  2. 揭示了LLM能力的"场景依赖失效":LLM并非缺乏理解隐式RE的能力,而是在规划场景的多任务压力下无法发挥。这个发现对所有依赖LLM的系统都有启示——不能假设LLM的所有能力在任意任务组合下都能同时生效。

  3. 简单方法的有效性:TOCC本质上就是"先理解再规划"的两步解耦,没有额外训练、没有新模块。这种简洁性反映了问题根源的准确定位——回到了软件工程中"关注点分离"的基本原则。

局限性

  1. 任务复杂度有限:为隔离RE的影响,数据集仅包含LLM在清晰指令下能完成的简单、短视野、单目标任务。更复杂的长视野多目标场景尚未覆盖。

  2. 仅考虑共指模糊:人类语言模糊性还包括指示表达(DE,依赖空间/时间)、句法模糊、范围模糊等,本文仅关注共指模糊一种类型。

  3. 缺乏多模态信息:实验在AI2-THOR模拟器中进行,仅评估文本层面的语义理解能力,未考虑视觉和空间感知信息(如VLM-based规划器可能通过视觉线索帮助解析"那个红色的东西")。

  4. TOCC增加推理开销:两步解耦意味着LLM需要两次推理调用。对于资源受限的机器人端(小模型),额外的推理成本可能影响实时性。

相关工作与启发

vs AmbiK (Ivanova et al., 2025)

AmbiK是厨房环境下的模糊自然语言指令数据集(1k样本)。与REI-Bench相比:(1) AmbiK不支持任务规划评估(无Planning);(2) AmbiK不包含多轮对话上下文;(3) REI-Bench的模糊性建模更系统——通过RE类型和上下文类型的组合实现9级粒度控制,而AmbiK未系统区分模糊来源。REI-Bench在评估框架的全面性上更优。

vs CLARA (Park et al., 2023) / KNOWNO (Ren et al., 2023)

CLARA让LLM判断指令是否确定,KNOWNO测量并对齐LLM规划器的不确定性。两者都是"检测模糊性→请求澄清"的范式,而REI-Bench关注"在不请求澄清的前提下,规划器能否自行解析模糊性"。TOCC提供了一种不依赖用户二次交互的轻量解决方案。

vs DialFRED (Gao et al., 2022)

DialFRED采用"提问者-执行者"框架,通过53K问答对支持多轮交互。其核心思路是通过主动提问获取缺失信息。REI-Bench的视角不同——它假设机器人应能从已有上下文中自主推断,而非依赖额外交互。这两种范式互补:TOCC适用于用户不便回答追问的场景(如老年用户)。

评分

维度 评分 理由
新颖性 ★★★★☆ 首次系统性建模指称表达模糊度对机器人规划的影响,理论驱动的基准设计有创新性;但TOCC方法本身较简单
技术深度 ★★★☆☆ 基准构建流水线完整,但核心方法(TOCC)仅是两步提示解耦,无模型训练或架构创新
实验完整性 ★★★★★ 12个规划器(6 LLM × 4框架)、9种模糊等级、4种提示方法的全面消融;错误归因分析深入(目标遗漏 vs 执行错误)
实际影响 ★★★★☆ 揭示了LLM规划器在真实场景中被忽视的脆弱性,对HRI领域有直接启发;局限于简单任务和仿真环境

相关论文