跳转至

PersonaVLM: Long-Term Personalized Multimodal LLMs

会议: CVPR 2026
arXiv: 2604.13074
代码: 项目主页
领域: 多模态VLM
关键词: 个性化, 长期记忆, 多模态助手, 大五人格, 智能体框架

一句话总结

本文提出 PersonaVLM,一个面向长期个性化的多模态智能体框架,通过主动记忆管理(四类记忆数据库)、多步推理检索和动量式人格演化机制,将通用 MLLM 转化为能适应用户偏好变化的个性化助手,在 128K 上下文下超越 GPT-4o 5.2%。

研究背景与动机

  1. 领域现状:多模态大语言模型正被数百万用户用作助手、创作伙伴和伴侣。用户期望正从通用问题解决转向个性化、有同理心的长期体验。现有个性化方法分为三类:基于适配的(Yo'LLaVA, MyVLM 等微调方法)、基于增强的(RAP 等检索方法)和基于对齐的(ALIGNXPERT, PAS 等偏好方法)。
  2. 现有痛点:适配方法需要为每个新概念微调,无法捕捉偏好演变;增强方法使用预定义数据库,缺乏主动管理和更新机制;对齐方法假设静态用户特征,无法适应随时间变化的人格。所有方法都为静态交互设计,无法处理偏好漂移(如从喜欢雪碧转为可乐)和人格演化。
  3. 核心矛盾:用户的偏好和人格本质上是多样且动态的,但现有方法在模型端使用固定窗口和"一刀切"范式,在用户端无法追踪持续演化的特征。
  4. 本文目标:设计一个统一框架,同时实现三个核心能力——记忆(主动提取和管理多模态记忆)、推理(基于检索的多轮推理)、对齐(根据演化的人格调整输出)。
  5. 切入角度:借鉴认知科学的记忆分类(核心/语义/情景/程序记忆)和心理学的大五人格模型,构建结构化的个性化记忆架构。
  6. 核心 idea:通过四类记忆数据库提供"知道用户的什么",通过 PEM 动量更新机制提供"了解用户是什么样的人",二者协同实现真正的长期个性化。

方法详解

整体框架

PersonaVLM 以 Qwen2.5-VL-7B 为骨干,包含个性化记忆架构(人格档案 + 四类记忆数据库)和两个协作阶段:响应阶段(输入→检索→推理→生成个性化回答)和更新阶段(分析交互→更新记忆和人格)。训练采用两阶段:SFT(78K 样本)+ GRPO 强化学习。

关键设计

  1. 个性化记忆架构:

    • 功能:构建和维护全面的长期用户画像
    • 核心思路:包含两个主要组成:(1) 用户人格档案 \(\mathcal{P}\)——大五人格维度的定量向量(开放性、尽责性、外向性、宜人性、神经质,各 1-5 分);(2) 多类型记忆数据库 \(\mathcal{M}\)——核心记忆(基本属性,仅保留最新版本)、语义记忆(事件无关的抽象知识,含实体、关系、多模态概念)、情景记忆(时间戳原子事件,含摘要、对话轮次、关键词)、程序记忆(计划、目标、习惯行为)。支持 CRUD 操作,情景和语义记忆按时间线存储,核心和程序记忆仅保留最新版本。
    • 设计动机:现有内存架构或依赖商用模型、或仅处理文本、或缺乏用户中心设计。四类记忆的划分覆盖了从"用户是谁"到"用户做了什么"到"用户习惯什么"的完整画像
  2. 人格演化机制(PEM):

    • 功能:动态追踪和更新用户的人格特征
    • 核心思路:维护长期人格向量 \(\mathbf{p} \in \mathbb{R}^5\)。每轮推断当前人格向量 \(\mathbf{p}'_m\),用指数移动平均(EMA)更新:\(\mathbf{p}_m \leftarrow \lambda \cdot \mathbf{p}_{m-1} + (1-\lambda) \cdot \mathbf{p}'_m\)。关键创新是 \(\lambda\) 使用余弦衰减调度——早期对话时 \(\lambda\) 低(快速适应),后期 \(\lambda\) 高(保持稳定)。更新后的数值向量转化为文本描述用于生成。
    • 设计动机:静态人格假设无法处理"用户最初外向,后来在交互中展现内向特质"的场景。EMA 的余弦衰减在"快速学习"和"长期稳定"间取得平衡
  3. 两阶段训练(SFT + GRPO):

    • 功能:从通用 MLLM 训练出具备个性化能力的模型
    • 核心思路:SFT 阶段用 78K 合成样本训练记忆管理和多轮推理的基础能力。RL 阶段用 GRPO 进一步增强推理——输出必须遵循 <think><retrieve>/<answer> 结构,奖励函数 \(r_i = f_{\text{acc}} \cdot f_{\text{cons}} + 0.5 \cdot f_{\text{format}}\) 联合衡量准确性、推理一致性和格式合规。训练数据通过 PersonaHub 生成 500 个多样化用户画像,模拟长期多模态交互(30K+ 交互)。
    • 设计动机:仅 SFT 无法学会策略性检索决策(何时检索、检索什么、从何时检索),RL 的探索性训练补充了这一能力

损失函数 / 训练策略

SFT 使用标准交叉熵损失。GRPO 使用组内标准化的优势函数,奖励由 Qwen3-30B-A3B 作为 LLM 评判器计算准确性和一致性分数。检索尝试最多 3 次/轨迹。

实验关键数据

主实验

Persona-MME 基准(128K 上下文)

模型 Overall Memory Intent Preference Behavior Growth
GPT-4o 72.35% 86.99 83.87 63.12 57.14 73.87
Qwen2.5-VL-7B (基线) 64.84% 66.13 66.85 59.75 59.24 70.69
PersonaVLM 77.5%

对比 GPT-4o

基准 PersonaVLM GPT-4o 提升
Persona-MME (128K) 77.5% 72.35% +5.2%
PERSONAMEM (128K) ~49% 39.20% +9.8%

消融实验

配置 Persona-MME 说明
PersonaVLM (SFT+RL) 77.5% 完整方法
仅 SFT ~72% RL 提升约 5%
无 PEM ~73% 人格演化机制贡献约 4%
Full context (无 RAG) 较低 长上下文下信息利用效率低
RAG 模式 较高 结构化检索优于直接长上下文

关键发现

  • 7B 模型超越 GPT-4o:PersonaVLM 在 Persona-MME 和 PERSONAMEM 上分别超过 GPT-4o 5.2% 和 9.8%,证明了专门化训练对个性化的价值
  • 128K 上下文下优势更大:长期交互积累更多记忆,结构化记忆架构的优势更加显著
  • RL 对推理策略至关重要:GRPO 训练让模型学会何时检索和如何选择推理路径

亮点与洞察

  • 记忆架构的认知科学灵感非常有说服力:四类记忆(核心/语义/情景/程序)直接映射到人类认知中的记忆分类,设计合理且功能互补
  • PEM 的余弦衰减设计巧妙地解决了"初始快速学习 vs 长期稳定"的矛盾:不需要手动调整学习率,自然适应交互生命周期
  • 数据合成流水线是一个被低估的贡献:500 个用户画像、30K+ 多模态交互的合成数据集解决了个性化训练数据稀缺的核心问题

局限与展望

  • 人格建模基于大五模型,可能无法覆盖所有文化和个体差异
  • 合成训练数据与真实用户交互可能存在分布差异
  • 仅在 Qwen2.5-VL-7B 上验证,未测试更大规模模型
  • 记忆的 CRUD 操作可能引入错误(如错误删除重要记忆),缺乏纠错机制
  • 未来可探索隐私保护的个性化(联邦学习)和多用户共享记忆

相关工作与启发

  • vs Yo'LLaVA/MyVLM: 这些方法通过微调嵌入学习用户特定视觉概念,但无法管理和更新记忆。PersonaVLM 的智能体架构支持动态 CRUD 操作
  • vs MemGPT: MemGPT 提供了类操作系统的记忆管理,但仅限文本且依赖商用模型。PersonaVLM 自包含、支持多模态、且有明确的个性化目标

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个面向长期动态个性化的多模态智能体框架,PEM 设计原创
  • 实验充分度: ⭐⭐⭐⭐⭐ 自建基准 Persona-MME,10+ 模型对比,多维度消融
  • 写作质量: ⭐⭐⭐⭐ 框架描述全面,但组件较多需要仔细跟读
  • 价值: ⭐⭐⭐⭐⭐ 为 MLLM 个性化开辟了长期动态交互的新方向

相关论文