Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization¶
会议: ICLR 2026
arXiv: 2505.16348
代码: github.com/Connoriginal/MEMENTO
领域: Embodied AI / Personalization
关键词: 具身智能体, 个性化辅助, 记忆利用, 情景记忆, 知识图谱
一句话总结¶
提出 Memento 评估框架,系统揭示 LLM 具身智能体在个性化辅助任务中的记忆利用瓶颈(信息过载、多记忆协调失败),并设计层次化知识图谱用户画像记忆模块显著改善性能。
背景与动机¶
- 现有 LLM 具身智能体在常规物体重排任务上表现良好,但个性化辅助需要理解用户特有知识(如"我最喜欢的杯子""早晨日常流程")
- 个性化知识只能从历史交互的情景记忆中获取,现有工作未系统评估记忆利用能力
- 两个关键维度:对象语义(基于个人含义识别物体)和用户模式(回忆行为序列)
- 缺乏量化记忆利用效果的评估框架
方法详解¶
Memento 评估框架(两阶段设计)¶
- 记忆获取阶段:智能体执行常规重排任务(指令包含完整个性化信息),积累情景记忆
- 记忆利用阶段:相同场景和目标,但指令为欠定义的个性化表述(如"设置我的远程工作环境"),需从记忆中推断
- 通过两阶段的 ΔPC/ΔSR 量化记忆利用能力
- 包含 单记忆 和 联合记忆(需综合两条记忆)任务
发现的关键瓶颈¶
- 信息过载:增加 top-k 检索记忆数量反而降低性能,智能体转向依赖常识
- 协调失败:联合记忆任务中,即便 GPT-4o 的成功率也下降 30.5%
- 常识优先:智能体倾向用参数化常识代替非参数化个性化知识
层次化知识图谱用户画像记忆¶
- 三层结构:用户 → 知识类型(对象语义/用户模式)→ 具体元素
- 层次边表示结构关系,时序边表示用户模式中的顺序
- 独立管理个性化知识,与情景记忆共存
实验¶
主实验(6个模型,438 episodes)¶
| 模型 | 单记忆 ΔSR | 联合记忆 ΔSR |
|---|---|---|
| GPT-4o | -9.9% | -30.5% |
| Claude-3.5-Sonnet | -30.3% | -57.0% |
| Qwen-2.5-72b | -23.8% | -58.3% |
| Llama-3.1-70b | -23.3% | -83.4% |
| Llama-3.1-8b | -33.5% | -59.8% |
- 对象语义任务性能下降较小,用户模式任务下降严重
- 小模型在记忆摘要后性能反而下降(失去了情景记忆的 in-context learning 收益)
用户画像记忆效果¶
- 所有模型在单记忆和联合记忆任务上均显著提升
- 用户模式任务改善尤其明显
亮点¶
- 首个系统评估具身智能体个性化记忆利用能力的框架,设计精巧(两阶段对比)
- 发现情景记忆提供双重价值:个性化知识 + in-context learning,简单摘要会损害小模型
- 层次化知识图谱设计直觉清晰,支持动态更新
- 实验涵盖 6 个模型(闭源+开源),分析深入(信息过载、协调失败、常识偏好)
局限性¶
- 基于 Habitat 3.0 模拟器,未在真实物理环境验证
- 个性化知识由 GPT-4o 合成,非真实用户数据
- 检索阶段强制包含 gold memory,未完全反映真实检索噪声
- 仅考虑对象语义和用户模式两个维度,未涵盖更复杂的个性化需求
相关工作¶
- LLM 具身智能体:SayCan, PROGPROMPT, Voyager——聚焦通用任务,非个性化
- 记忆系统:语义记忆(场景图)、程序记忆(技能库)——未系統评估情景记忆的个性化作用
- 个性化机器人:偏好适配、空间布局——多为隐式偏好,非显式用户知识利用
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐