跳转至

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization

会议: ICLR 2026
arXiv: 2505.16348
代码: github.com/Connoriginal/MEMENTO
领域: Embodied AI / Personalization
关键词: 具身智能体, 个性化辅助, 记忆利用, 情景记忆, 知识图谱

一句话总结

提出 Memento 评估框架,系统揭示 LLM 具身智能体在个性化辅助任务中的记忆利用瓶颈(信息过载、多记忆协调失败),并设计层次化知识图谱用户画像记忆模块显著改善性能。

背景与动机

  1. 现有 LLM 具身智能体在常规物体重排任务上表现良好,但个性化辅助需要理解用户特有知识(如"我最喜欢的杯子""早晨日常流程")
  2. 个性化知识只能从历史交互的情景记忆中获取,现有工作未系统评估记忆利用能力
  3. 两个关键维度:对象语义(基于个人含义识别物体)和用户模式(回忆行为序列)
  4. 缺乏量化记忆利用效果的评估框架

方法详解

Memento 评估框架(两阶段设计)

  • 记忆获取阶段:智能体执行常规重排任务(指令包含完整个性化信息),积累情景记忆
  • 记忆利用阶段:相同场景和目标,但指令为欠定义的个性化表述(如"设置我的远程工作环境"),需从记忆中推断
  • 通过两阶段的 ΔPC/ΔSR 量化记忆利用能力
  • 包含 单记忆联合记忆(需综合两条记忆)任务

发现的关键瓶颈

  1. 信息过载:增加 top-k 检索记忆数量反而降低性能,智能体转向依赖常识
  2. 协调失败:联合记忆任务中,即便 GPT-4o 的成功率也下降 30.5%
  3. 常识优先:智能体倾向用参数化常识代替非参数化个性化知识

层次化知识图谱用户画像记忆

  • 三层结构:用户 → 知识类型(对象语义/用户模式)→ 具体元素
  • 层次边表示结构关系,时序边表示用户模式中的顺序
  • 独立管理个性化知识,与情景记忆共存

实验

主实验(6个模型,438 episodes)

模型 单记忆 ΔSR 联合记忆 ΔSR
GPT-4o -9.9% -30.5%
Claude-3.5-Sonnet -30.3% -57.0%
Qwen-2.5-72b -23.8% -58.3%
Llama-3.1-70b -23.3% -83.4%
Llama-3.1-8b -33.5% -59.8%
  • 对象语义任务性能下降较小,用户模式任务下降严重
  • 小模型在记忆摘要后性能反而下降(失去了情景记忆的 in-context learning 收益)

用户画像记忆效果

  • 所有模型在单记忆和联合记忆任务上均显著提升
  • 用户模式任务改善尤其明显

亮点

  • 首个系统评估具身智能体个性化记忆利用能力的框架,设计精巧(两阶段对比)
  • 发现情景记忆提供双重价值:个性化知识 + in-context learning,简单摘要会损害小模型
  • 层次化知识图谱设计直觉清晰,支持动态更新
  • 实验涵盖 6 个模型(闭源+开源),分析深入(信息过载、协调失败、常识偏好)

局限性

  • 基于 Habitat 3.0 模拟器,未在真实物理环境验证
  • 个性化知识由 GPT-4o 合成,非真实用户数据
  • 检索阶段强制包含 gold memory,未完全反映真实检索噪声
  • 仅考虑对象语义和用户模式两个维度,未涵盖更复杂的个性化需求

相关工作

  • LLM 具身智能体:SayCan, PROGPROMPT, Voyager——聚焦通用任务,非个性化
  • 记忆系统:语义记忆(场景图)、程序记忆(技能库)——未系統评估情景记忆的个性化作用
  • 个性化机器人:偏好适配、空间布局——多为隐式偏好,非显式用户知识利用

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐