MMPB: It's Time for Multi-Modal Personalization¶
会议: NeurIPS 2025
arXiv: 2509.22820
代码: https://aidaslab.github.io/MMPB (项目页)
领域: 多模态VLM / 个性化
关键词: VLM, Personalization, Benchmark, Visual Question Answering, Cold-start
一句话总结¶
提出首个 VLM 个性化评测基准 MMPB,包含 111 个可个性化概念、10k+ 图文问答对和 15 种任务类型,评测了 23 个 VLM 后发现即使最强的 GPT-4o 在个性化任务上也表现不佳,揭示了 VLM 在偏好推理、视觉线索利用和安全对齐与个性化的冲突等方面的重大局限。
研究背景与动机¶
- 领域现状:VLM(如 GPT-4o、LLaVA)已广泛用于通用视觉问答,但都遵循 one-size-fits-all 模式——对所有用户响应相同,不适配个体身份、偏好或历史。
- 现有痛点:(a) 现有 VQA benchmark 只关注通用知识(常识、科学等),不评测个性化能力;(b) 已有个性化工作(如 MyVLM、Yo'LLaVA)规模小(29-95 概念)、不系统、不含偏好推理;(c) 缺乏统一的评估框架和冷启动设定。
- 核心矛盾:VLM 在通用任务上表现优秀≠在个性化场景下有效。个性化需要模型理解特定用户的视觉概念和偏好,这是通用能力无法覆盖的。
- 本文要解决什么?:建立全面、系统的 VLM 个性化评估基准。
- 切入角度:定义个性化的四个核心属性(Awareness, Appropriateness, Coherency, Persistency),设计对应的任务类型和评测协议。
- 核心 idea 一句话:通过系统化的基准测试揭示 VLM 个性化能力的真实水平和主要瓶颈。
方法详解¶
整体框架¶
MMPB 评测分三阶段: 1. 概念注入:通过参考图片或文本描述向 VLM 注入个性化概念 2. 多轮对话:通过通用对话测试概念保持能力 3. 个性化查询:在新图片上测试模型能否应用已注入的概念
关键设计¶
- 概念体系:
- 111 个概念,4 大类:人物、动物、物体、角色
- 每个概念:5 张参考图 + 4 级文本描述(简单/适中/详细/扩展)
-
人物类额外配备偏好信息:5 大领域 × 6 子领域 = 30 个偏好子域
-
任务类型:
- Awareness:概念是否被识别(正例图),区分单实体/多实体
- Appropriateness:是否正确抑制无关概念(负例图),动物类区分同种/异种
- Coherency:是否生成与概念一致的回答(4选1 MCQ)
- Persistency:通过多轮对话测试概念保持
-
3 种任务 × 5 种概念场景 = 15 个评测任务
-
质量控制:
- 防止 concept-only solvability:至少一个干扰项对概念合理但对图像不对
- 防止 image-only solvability:至少一个干扰项对图像合理但对概念不对
- 选项打乱避免位置偏差
- 每个问题至少 3 人标注,多数同意才保留
评测协议¶
- 冷启动设定:仅用 moderate 级文本描述 或 2 张参考图
- 0 轮和 10 轮对话两种设定
- 评价指标:总体准确率
实验关键数据¶
主实验 — 23 个 VLM 个性化评测¶
| 模型 | Awareness | Appropriateness | Coherency | 总分 |
|---|---|---|---|---|
| GPT-4o | 中上 | 较好 | 差 | ~60% |
| Claude-Sonnet | 中 | 较好 | 差 | ~55% |
| InternVL2.5-78B | 中 | 中 | 中 | ~50% |
| LLaVA-NeXT | 低 | 低 | 低 | ~40% |
消融实验¶
| 配置 | 关键发现 |
|---|---|
| 文本 vs 图像注入 | 1 张图 ≈ 3 个文本关键词效果,说明模型难以利用视觉线索 |
| 0 轮 vs 10 轮对话 | 10 轮后性能显著下降,中间概念容易被遗忘 |
| 简单 vs 详细描述 | 更详细的描述不总是更好,模型可能受长上下文影响 |
关键发现¶
- 即使 GPT-4o 也在偏好推理任务上挣扎,需要溯因推理(abductive reasoning)能力
- 闭源模型的安全对齐阻碍个性化:涉及人物时经常拒绝回答
- VLM 难以利用视觉线索做个性化:图像-文本个性化效果差距小说明视觉理解不深
- 多轮对话中存在 mid-sequence forgetting:中间位置注入的概念最容易被忘记
- 个性化偏差:模型对某些概念类型(如人物)的个性化显著弱于其他类型
亮点与洞察¶
- 首个系统性 VLM 个性化基准:填补了现有 benchmark 的重大空白,111 概念 + 10k 问答 + 15 任务类型的规模远超之前工作。
- 揭示安全对齐与个性化的冲突:闭源模型出于安全考虑拒绝人物相关个性化,这是一个重要的 policy + capability 权衡问题。
- 四级文本描述设计巧妙:允许未来研究在不同粒度上探索最优个性化策略。
- 质量控制严格:防 concept-only 和 image-only 作弊的设计确保了评测真正衡量多模态个性化推理。
局限性 / 可改进方向¶
- 静态概念假设:不考虑概念随时间变化(如用户外貌变化、偏好漂移)
- 冷启动设定固定:仅测试了 2 张图/moderate 描述,更多注入量的效果未探索
- 仅 MCQ 格式:虽然可转开放式但当前评测限于选择题
- 可改进:加入概念时变性;探索 post-hoc 训练(利用 5 张参考图 fine-tune);扩展到更多模态
相关工作与启发¶
- vs MyVLM/Yo'LLaVA: 它们只有 29-40 个概念且不含偏好推理,MMPB 全面超越
- vs MC-LLaVA: 95 概念但无系统评估、无偏好、无多轮测试
- vs 通用 VQA benchmark: ScienceQA、MMBench 等不评测个性化
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个全面的 VLM 个性化基准,填补重要空白
- 实验充分度: ⭐⭐⭐⭐⭐ 23 个模型 + 15 任务类型 + 多维度分析
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,形式化严谨,分析深入
- 价值: ⭐⭐⭐⭐⭐ 对 VLM 个性化研究方向有重大推动作用