RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models¶
会议: CVPR 2025
arXiv: 2410.13360
代码: https://hoar012.github.io/RAP-Project/ (有)
领域: 多模态VLM
关键词: 个性化多模态大模型, 检索增强生成, 用户概念记忆, 个性化对话, 数据构建
一句话总结¶
提出 RAP(Retrieval-Augmented Personalization)框架,通过"记忆-检索-生成"三步实现 MLLM 的个性化:用外部数据库存储用户概念,用多模态检索器动态检索相关概念信息,再注入 MLLM 生成个性化响应,每个概念仅需1张图+描述即可,且支持实时更新。
研究背景与动机¶
现有 MLLM 虽然在通用视觉理解上表现优异,但不具备用户特定知识(如宠物名字、朋友身份等),无法作为个性化助手。已有方法如 MyVLM 和 Yo'LLaVA 通过学习外部分类头或特殊 token 来记忆概念,但存在三大问题:(1) 需要大量标注图像(5张正样本+150~200张负样本);(2) 每增加新概念都需要重新训练模型;(3) 无法实时编辑概念。RAP 的核心动机是借鉴 RAG 的思路,将概念知识从模型参数中解耦到外部数据库,实现"训练一次,适配无限用户"。
方法详解¶
整体框架¶
RAP 由三个阶段组成:(a) Remember:构建键值数据库存储每个概念的图像和描述;(b) Retrieve:用户发起对话时,用开放世界检测器检测图像中的 ROI,再用多模态检索器从数据库中检索相关概念;(c) Generate:将检索到的概念信息(图像+文本描述)与原始输入一起送入 MLLM 生成个性化响应。
关键设计¶
-
外部概念数据库(Remember):
- 功能:以键值对形式存储用户的个人概念,每个概念包含头像 \(\mathbf{I}_j\)、名称和简短描述 \(\mathbf{T}_j\)
- 核心思路:概念的键 \(k_j\) 是其图像经预训练图像编码器 \(\mathcal{E}(\cdot)\) 提取的视觉特征。数据库支持实时增删概念,无需重新训练
- 设计动机:将用户知识从模型参数解耦到外部存储,每个概念仅需1张图+描述,大幅降低个性化门槛
-
多模态检索器(Retrieve):
- 功能:在用户发起对话时,自动识别图像中可能的概念并从数据库中检索匹配项
- 核心思路:使用 YOLO-World 作为通用检测器 \(\mathcal{R}(\cdot)\) 检测 ROI,对每个 ROI 提取 CLIP 视觉特征 \(v_i = \mathcal{E}(\mathbf{X}_u^i)\),计算与数据库所有键的欧氏距离 \(Dist(v_i, k_j) = \|v_i - k_j\|\),选取 Top-K 最近邻。同时支持基于概念名称的文本检索
- 设计动机:用通用检测器替代针对每个概念学习专用分类头,实现对无限新概念的泛化,无需重新训练
-
个性化训练数据集构建流水线:
- 功能:为 MLLM 的个性化生成能力提供大规模训练数据
- 核心思路:包含三类数据:(a) 视觉定位数据(RefCOCO + ILSVRC-VID + TAO + CustomConcept101),训练模型识别概念在图中的位置;(b) 指令跟随数据(图像描述、问答),用 Gemini-1.5 生成标注;(c) 负样本数据(在输入中加噪声概念但保持答案不变),训练模型的噪声过滤能力。此外用扩散模型做数据增强生成新视角
- 设计动机:现有缺乏面向个性化的大规模训练数据,且模型需要学会"利用相关信息+忽略无关信息"
损失函数 / 训练策略¶
- 使用标准自回归语言建模损失 \(\prod_{i=1}^{L} p_\theta(\mathbf{X}_{a,i} | \mathbf{X}_v, \mathbf{X}_q, \mathbf{M}_1, \cdots \mathbf{M}_K, \mathbf{X}_{a,<i})\)
- 训练时冻结检测器和检索器参数,仅训练 MLLM(使用 LoRA 减少可训练参数)
- 基于 LLaVA-1.5-13B 和 Phi3-V-3.8B 训练,8xA100,batch size 64,学习率 1e-4,1个 epoch
- 保留部分 LLaVA-Instruct-665k 数据以保持通用知识
实验关键数据¶
主实验¶
| 任务 | 指标 | RAP-LLaVA | MyVLM | Yo'LLaVA | LLaVA-LoRA |
|---|---|---|---|---|---|
| 个性化图像描述 | F1-score | 94.97 | 85.50 | - | 87.82 |
| 视觉问答 | Weighted Acc | 0.936 | - | 0.906 | 0.741 |
| 视觉识别 | Weighted Acc | 0.980 | 0.919 | 0.924 | 0.825 |
| 文本问答 | Acc | 0.938 | - | 0.883 | 0.583 |
| 对比方法 | 所需正样本数 | 所需负样本数 | 支持实时编辑 | 支持纯文本QA |
|---|---|---|---|---|
| RAP(Ours) | 1 | 0 | ✓ | ✓ |
| MyVLM | n | 150 | ✗ | ✗ |
| Yo'LLaVA | n | 200 | ✗ | ✓ |
| Fine-tuning | n | 0 | ✗ | ✓ |
消融实验¶
| 配置 | Recall | Precision | F1-score | 说明 |
|---|---|---|---|---|
| RAP-LLaVA (完整) | 93.51 | 96.47 | 94.97 | - |
| 跳过检索(给完美信息) | 96.16 | 100.0 | 98.04 | 检索瓶颈约3%性能 |
| 去掉文本信息 | 94.91 | 88.66 | 91.68 | 文本描述帮助精确匹配 |
| 去掉数据增强 | 89.25 | 98.01 | 93.42 | 增强提升recall |
| 去掉负样本训练 | 95.74 | 58.21 | 72.40 | 负样本对precision至关重要 |
关键发现¶
- 负样本训练是精度的关键:去掉后 Precision 从96.47%暴跌至58.21%,模型会将不相关概念也错误输出
- RAP 可与 GPT-4V 竞争:RAP-LLaVA 用1张图的表现(0.936)接近 GPT-4V 用5张图的表现(0.937)
- 数据库中概念数量增加时,RAP 的性能衰减最慢(得益于检索而非记忆的架构)
- 纯文本问答中,RAP-LLaVA(0.938)远超 LLaVA-LoRA(0.583),因为RAP可基于文本名称检索相关信息
亮点与洞察¶
- 最低数据需求:每个概念仅需1张图+描述,无需负样本和重新训练,是目前数据效率最高的个性化方案
- 实时概念编辑:通过修改外部数据库即可增删概念,无需模型更新,适合真实动态场景
- RAG+个性化的首次结合:将RAG思路引入MLLM个性化,是检索增强与用户个性化交叉的开创性工作
- 数据构建流水线:系统性设计了包含定位、指令跟随、负样本三类数据的构建流程,可复用
局限与展望¶
- 检索器的准确度是系统瓶颈:在完美检索条件下 F1 可达98.04%,说明检索仍有~3%的提升空间
- 受限于LLM上下文长度,RAP-LLaVA仅能检索2个概念(RAP-Phi3-V为3个),限制了多概念场景
- 需要用户手动提供每个概念的描述信息,自动化描述生成可进一步降低用户负担
- 未在视频理解等时序场景中验证
相关工作与启发¶
- 与 MyVLM(外部分类头)和 Yo'LLaVA(学习special token)的核心区别:RAP将概念知识外化到数据库,避免了持续学习的计算开销
- RAG 在 NLP 中已被充分验证(DPR, Self-RAG),但在 MLLM 个性化领域是首次系统性应用
- 负样本训练策略对检索增强系统的鲁棒性至关重要,可推广到其他 RAG 场景
评分¶
- 新颖性: ⭐⭐⭐⭐ RAG+个性化是新组合,但各组件(检索、数据库、LoRA微调)本身是成熟技术
- 实验充分度: ⭐⭐⭐⭐ 覆盖了描述、问答、识别三大任务,消融充分,但评估数据集规模偏小
- 写作质量: ⭐⭐⭐⭐ 结构清晰,动机阐述到位,数据构建流水线描述详细
- 价值: ⭐⭐⭐⭐ 极低的数据需求和实时编辑能力使其在实际应用中非常有价值
相关论文¶
- [ICCV 2025] Training-Free Personalization via Retrieval and Reasoning on Fingerprints
- [CVPR 2025] CoLLM: A Large Language Model for Composed Image Retrieval
- [CVPR 2025] Cross-modal Information Flow in Multimodal Large Language Models
- [CVPR 2025] EventGPT: Event Stream Understanding with Multimodal Large Language Models
- [CVPR 2025] 4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models