跳转至

Aligning VLM Assistants with Personalized Situated Cognition

会议: ACL 2025
arXiv: 2506.00930
代码: https://github.com/NLPGM/PCogAlign
领域: 多模态VLM
关键词: personalized alignment, situated cognition, Role-Set, VLM assistant, reward model

一句话总结

基于社会学"角色集合"(Role-Set) 概念刻画用户多样性,提出 PCogAlign 框架,通过认知感知的动作导向奖励模型来为 VLM 助手生成个性化回复,使不同角色的用户在相同视觉场景下获得最适合自身需求的建议。

研究背景与动机

  1. 领域现状:VLM 已通过视觉指令微调、视觉偏好优化和安全对齐等技术,实现了遵循指令、减少幻觉、符合价值观等通用对齐目标。当前 VLM 对所有用户生成"一刀切"的统一回复。
  2. 现有痛点:即便面对同一视觉场景,不同背景的人有不同的认知和期望。例如看到一个坏了的秋千,小孩期望安抚和安全指导,修理工期望专业修理建议。通用对齐无法满足这种个性化需求。
  3. 核心矛盾:人类多样性来自无数因素(年龄、社会经济地位等),几乎不可能在实验中完全操作化,需要合理简化。且如何评估"个性化对齐是否成功"也缺乏明确标准。
  4. 本文要解决什么? (1) 如何定义多样化的个体? (2) 如何评估个性化对齐是否达成? (3) 如何训练 VLM 生成个性化回复?
  5. 切入角度:借鉴 Goffman 的角色理论中的"角色集合"概念,用"Role@Location"组合(如"教师@学校, 家长@家庭")来简洁地刻画个体多样性。通过评估回复是否帮助个体采取最优行动来判断对齐是否成功。
  6. 核心 idea 一句话:用角色集合定义个体差异,用动作导向的奖励模型选择最优个性化回复进行对齐训练。

方法详解

整体框架

输入为三元组 \(s = (RS, v, q)\)(角色集合、视觉场景、用户查询),输出为个性化回复 \(r\)。优化目标:\(\theta^* = \arg\max_\theta \mathbb{E}_{s \sim S_{\text{train}}} P_A(a^* | r=f_\theta(s), c)\),即让 VLM 生成的回复最大化用户采取最优行动的概率。

PCogAlign 框架分三步:(a) 估计用户的情境认知 \(c\) 和最优行动 \(a^*\);(b) 通过合作 agent 采样多个候选个性化回复;(c) 用认知感知的动作导向奖励模型选择最优回复用于对齐训练。

关键设计

  1. 角色集合与基准构建 (PCogAlignBench):
  2. 做什么:定义 8 个社会位置(家庭、社区、博物馆、机场、商店、学校、医院、餐厅),每个位置 3-5 个角色(共 32 个角色),通过组合约束构造 20 个不同的角色集合。
  3. 核心思路:将 20 个角色集合分为 LS1、LS2 两个子集(按不同位置集划分),支持跨角色集泛化测试(如 LS1→LS2)。使用分层收集策略(角色集→场景类型→场景短语→场景描述→搜索图片)确保数据多样性。
  4. 设计动机:简化人类多样性的建模,同时保持足够的表达力。分两子集是为了测试模型对未见角色集合的泛化能力。

  5. 认知与行动估计 (Step a):

  6. 做什么:利用 VLM 本身估计用户在特定视觉场景下的情境认知 \(c = C(s)\) 和最优行动 \(a^*\)
  7. 核心思路:通过 in-context learning 配合人类编写的示例来提示 VLM。认知包括三层:对视觉场景状态的认知、身心状态的认知、对适当行动的认知。行动分为外部身体行为和内部心理感受。
  8. 设计动机:\(c\)\(a^*\) 独立于 VLM 参数 \(\theta\),可以预先计算。

  9. 合作 Agent 采样个性化回复 (Step b):

  10. 做什么:设计 KeyG(关键点生成器)和 ResG(回复生成器)两个合作 agent 迭代采样候选回复。
  11. 核心思路:KeyG 基于用户认知和期望行动生成"如何考虑用户认知并增强身心状态"的关键要点,ResG 根据关键要点重新生成回复。多次迭代收集 \(N\) 个候选回复。
  12. 设计动机:直接让 VLM 生成个性化回复质量不稳定;双 agent 协作通过先规划关键要点再生成的方式提高回复的个性化程度。

  13. 认知感知动作导向奖励模型 (Step c):

  14. 做什么:训练奖励模型评估回复质量,然后用 Best-of-N 策略选择最优回复。
  15. 核心思路:用"负角色集合"收集偏好数据——对个体 I1(教师@学校),为 I2(学生@学校)生成的回复是不适合 I1 的负样本。将行动(身体行为+心理感受)纳入偏好对,训练认知感知的奖励模型。
  16. 设计动机:通用偏好数据不适用于个性化场景;利用角色互换自动构造负样本避免了大规模人工标注。

损失函数 / 训练策略

最优回复 \(r^*\) 选出后,用标准 SFT 损失训练 VLM:\(\theta^* = \arg\min_\theta \mathbb{E}_{s \sim S_{\text{train}}} -\log P(f_\theta(r^* | s))\)

实验关键数据

主实验

方法 LS1→LS1 P.Score LS1→LS2 P.Score LS2→LS1 P.Score LS2→LS2 P.Score
标准 Prompt 基线 基线 基线 基线
RS Prompt (加入角色描述) 提升 提升 提升 提升
PCogAlign 最优 最优 最优 最优
  • PCogAlign 在所有四种设置下均优于对比方法
  • 跨角色集泛化(如 LS1→LS2)虽有性能下降但保持领先

消融实验

配置 效果 说明
Full PCogAlign 最优 完整框架
w/o 认知估计 下降 缺少情境认知导致回复不够个性化
w/o 合作采样 下降 直接生成的回复个性化程度不足
w/o 动作导向奖励 下降 无法选择真正帮助用户行动的回复
通用奖励模型替代 明显下降 通用偏好无法捕获角色特异性

关键发现

  • 自动评估与人类高度一致:在 200 个样本上,自动评估与人类评估在 88% 的情况下一致,验证了 LLM-as-judge 在个性化评估中的可靠性。
  • 角色集合的泛化能力:在 LS1→LS2(完全不同的角色集合)设置下仍有显著提升,说明框架学习到了角色到行为的泛化映射。
  • 五维度评估中 RSA(角色集合感知)提升最大:说明框架最显著的贡献是让 VLM 真正"看到"用户角色并据此调整回复。

亮点与洞察

  • 社会学概念的巧妙借用:用 Role-Set 理论简化人类多样性建模,既有理论支撑又可操作化,这种跨学科思路值得借鉴。
  • 负角色集合构造偏好数据:利用"适合角色 A 的回复不适合角色 B"这一自然关系来自动构造偏好数据,免去了大规模人工标注,这个思路可以迁移到其他个性化任务。
  • 行动导向的评估视角:不只评估"回复是否个性化",而是评估"回复是否帮助用户采取更好的行动",这种以结果为导向的评估方式更接近实际应用需求。

局限性 / 可改进方向

  • 20 个角色集合仍然有限,无法覆盖真实世界的全部多样性。
  • 数据构建依赖 GPT-4o 和搜索引擎,可能引入偏差和噪声(虽然做了质量控制)。
  • 评估中"最优行动"的定义依赖 LLM 估计,对于道德困境等场景可能存在争议。
  • 仅在静态图像场景上实验,视频场景和多轮对话场景的适用性未探索。

相关工作与启发

  • vs 通用 VLM 对齐 (视觉偏好优化等): 通用对齐追求"对所有人都好",PCogAlign 追求"对特定个体最好",两者互补。
  • vs LLM 个性化助手 (Jang et al. 2023 等): 之前工作主要关注文本风格或价值观的个性化,且不涉及视觉场景;本文同时引入视觉场景和角色多样性。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将角色集合理论引入 VLM 个性化对齐,问题定义新颖
  • 实验充分度: ⭐⭐⭐⭐ 4 种设置 + 消融 + 人类评估,较为全面
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法流程图直观
  • 价值: ⭐⭐⭐⭐ 为 VLM 个性化研究开辟了新方向,基准和代码开源