跳转至

MMPB: It's Time for Multi-Modal Personalization

会议: NeurIPS 2025
arXiv: 2509.22820
代码: https://aidaslab.github.io/MMPB (项目页)
领域: 多模态VLM / 个性化
关键词: VLM, Personalization, Benchmark, Visual Question Answering, Cold-start

一句话总结

提出首个 VLM 个性化评测基准 MMPB,包含 111 个可个性化概念、10k+ 图文问答对和 15 种任务类型,评测了 23 个 VLM 后发现即使最强的 GPT-4o 在个性化任务上也表现不佳,揭示了 VLM 在偏好推理、视觉线索利用和安全对齐与个性化的冲突等方面的重大局限。

研究背景与动机

  1. 领域现状:VLM(如 GPT-4o、LLaVA)已广泛用于通用视觉问答,但都遵循 one-size-fits-all 模式——对所有用户响应相同,不适配个体身份、偏好或历史。
  2. 现有痛点:(a) 现有 VQA benchmark 只关注通用知识(常识、科学等),不评测个性化能力;(b) 已有个性化工作(如 MyVLM、Yo'LLaVA)规模小(29-95 概念)、不系统、不含偏好推理;(c) 缺乏统一的评估框架和冷启动设定。
  3. 核心矛盾:VLM 在通用任务上表现优秀≠在个性化场景下有效。个性化需要模型理解特定用户的视觉概念和偏好,这是通用能力无法覆盖的。
  4. 本文要解决什么?:建立全面、系统的 VLM 个性化评估基准。
  5. 切入角度:定义个性化的四个核心属性(Awareness, Appropriateness, Coherency, Persistency),设计对应的任务类型和评测协议。
  6. 核心 idea 一句话:通过系统化的基准测试揭示 VLM 个性化能力的真实水平和主要瓶颈。

方法详解

整体框架

MMPB 评测分三阶段: 1. 概念注入:通过参考图片或文本描述向 VLM 注入个性化概念 2. 多轮对话:通过通用对话测试概念保持能力 3. 个性化查询:在新图片上测试模型能否应用已注入的概念

关键设计

  1. 概念体系:
  2. 111 个概念,4 大类:人物、动物、物体、角色
  3. 每个概念:5 张参考图 + 4 级文本描述(简单/适中/详细/扩展)
  4. 人物类额外配备偏好信息:5 大领域 × 6 子领域 = 30 个偏好子域

  5. 任务类型:

  6. Awareness:概念是否被识别(正例图),区分单实体/多实体
  7. Appropriateness:是否正确抑制无关概念(负例图),动物类区分同种/异种
  8. Coherency:是否生成与概念一致的回答(4选1 MCQ)
  9. Persistency:通过多轮对话测试概念保持
  10. 3 种任务 × 5 种概念场景 = 15 个评测任务

  11. 质量控制:

  12. 防止 concept-only solvability:至少一个干扰项对概念合理但对图像不对
  13. 防止 image-only solvability:至少一个干扰项对图像合理但对概念不对
  14. 选项打乱避免位置偏差
  15. 每个问题至少 3 人标注,多数同意才保留

评测协议

  • 冷启动设定:仅用 moderate 级文本描述 或 2 张参考图
  • 0 轮和 10 轮对话两种设定
  • 评价指标:总体准确率

实验关键数据

主实验 — 23 个 VLM 个性化评测

模型 Awareness Appropriateness Coherency 总分
GPT-4o 中上 较好 ~60%
Claude-Sonnet 较好 ~55%
InternVL2.5-78B ~50%
LLaVA-NeXT ~40%

消融实验

配置 关键发现
文本 vs 图像注入 1 张图 ≈ 3 个文本关键词效果,说明模型难以利用视觉线索
0 轮 vs 10 轮对话 10 轮后性能显著下降,中间概念容易被遗忘
简单 vs 详细描述 更详细的描述不总是更好,模型可能受长上下文影响

关键发现

  • 即使 GPT-4o 也在偏好推理任务上挣扎,需要溯因推理(abductive reasoning)能力
  • 闭源模型的安全对齐阻碍个性化:涉及人物时经常拒绝回答
  • VLM 难以利用视觉线索做个性化:图像-文本个性化效果差距小说明视觉理解不深
  • 多轮对话中存在 mid-sequence forgetting:中间位置注入的概念最容易被忘记
  • 个性化偏差:模型对某些概念类型(如人物)的个性化显著弱于其他类型

亮点与洞察

  • 首个系统性 VLM 个性化基准:填补了现有 benchmark 的重大空白,111 概念 + 10k 问答 + 15 任务类型的规模远超之前工作。
  • 揭示安全对齐与个性化的冲突:闭源模型出于安全考虑拒绝人物相关个性化,这是一个重要的 policy + capability 权衡问题。
  • 四级文本描述设计巧妙:允许未来研究在不同粒度上探索最优个性化策略。
  • 质量控制严格:防 concept-only 和 image-only 作弊的设计确保了评测真正衡量多模态个性化推理。

局限性 / 可改进方向

  • 静态概念假设:不考虑概念随时间变化(如用户外貌变化、偏好漂移)
  • 冷启动设定固定:仅测试了 2 张图/moderate 描述,更多注入量的效果未探索
  • 仅 MCQ 格式:虽然可转开放式但当前评测限于选择题
  • 可改进:加入概念时变性;探索 post-hoc 训练(利用 5 张参考图 fine-tune);扩展到更多模态

相关工作与启发

  • vs MyVLM/Yo'LLaVA: 它们只有 29-40 个概念且不含偏好推理,MMPB 全面超越
  • vs MC-LLaVA: 95 概念但无系统评估、无偏好、无多轮测试
  • vs 通用 VQA benchmark: ScienceQA、MMBench 等不评测个性化

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个全面的 VLM 个性化基准,填补重要空白
  • 实验充分度: ⭐⭐⭐⭐⭐ 23 个模型 + 15 任务类型 + 多维度分析
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,形式化严谨,分析深入
  • 价值: ⭐⭐⭐⭐⭐ 对 VLM 个性化研究方向有重大推动作用