跳转至

📚 AI Paper Notes

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization¶

会议: ICLR 2026
arXiv: 2505.16348
代码: github.com/Connoriginal/MEMENTO
领域: Embodied AI / Personalization
关键词: 具身智能体, 个性化辅助, 记忆利用, 情景记忆, 知识图谱

一句话总结¶

提出 Memento 评估框架，系统揭示 LLM 具身智能体在个性化辅助任务中的记忆利用瓶颈（信息过载、多记忆协调失败），并设计层次化知识图谱用户画像记忆模块显著改善性能。

背景与动机¶

现有 LLM 具身智能体在常规物体重排任务上表现良好，但个性化辅助需要理解用户特有知识（如"我最喜欢的杯子""早晨日常流程"）
个性化知识只能从历史交互的情景记忆中获取，现有工作未系统评估记忆利用能力
两个关键维度：对象语义（基于个人含义识别物体）和用户模式（回忆行为序列）
缺乏量化记忆利用效果的评估框架

方法详解¶

Memento 评估框架（两阶段设计）¶

记忆获取阶段：智能体执行常规重排任务（指令包含完整个性化信息），积累情景记忆
记忆利用阶段：相同场景和目标，但指令为欠定义的个性化表述（如"设置我的远程工作环境"），需从记忆中推断
通过两阶段的 ΔPC/ΔSR 量化记忆利用能力
包含 单记忆 和 联合记忆（需综合两条记忆）任务

发现的关键瓶颈¶

信息过载：增加 top-k 检索记忆数量反而降低性能，智能体转向依赖常识
协调失败：联合记忆任务中，即便 GPT-4o 的成功率也下降 30.5%
常识优先：智能体倾向用参数化常识代替非参数化个性化知识

层次化知识图谱用户画像记忆¶

三层结构：用户 → 知识类型（对象语义/用户模式）→ 具体元素
层次边表示结构关系，时序边表示用户模式中的顺序
独立管理个性化知识，与情景记忆共存

实验¶

主实验（6个模型，438 episodes）¶

模型	单记忆 ΔSR	联合记忆 ΔSR
GPT-4o	-9.9%	-30.5%
Claude-3.5-Sonnet	-30.3%	-57.0%
Qwen-2.5-72b	-23.8%	-58.3%
Llama-3.1-70b	-23.3%	-83.4%
Llama-3.1-8b	-33.5%	-59.8%

对象语义任务性能下降较小，用户模式任务下降严重
小模型在记忆摘要后性能反而下降（失去了情景记忆的 in-context learning 收益）

用户画像记忆效果¶

所有模型在单记忆和联合记忆任务上均显著提升
用户模式任务改善尤其明显

亮点¶

首个系统评估具身智能体个性化记忆利用能力的框架，设计精巧（两阶段对比）
发现情景记忆提供双重价值：个性化知识 + in-context learning，简单摘要会损害小模型
层次化知识图谱设计直觉清晰，支持动态更新
实验涵盖 6 个模型（闭源+开源），分析深入（信息过载、协调失败、常识偏好）

局限性¶

基于 Habitat 3.0 模拟器，未在真实物理环境验证
个性化知识由 GPT-4o 合成，非真实用户数据
检索阶段强制包含 gold memory，未完全反映真实检索噪声
仅考虑对象语义和用户模式两个维度，未涵盖更复杂的个性化需求

相关工作¶

LLM 具身智能体：SayCan, PROGPROMPT, Voyager——聚焦通用任务，非个性化
记忆系统：语义记忆（场景图）、程序记忆（技能库）——未系統评估情景记忆的个性化作用
个性化机器人：偏好适配、空间布局——多为隐式偏好，非显式用户知识利用

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐