Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs¶
会议: ICCV 2025
arXiv: 2503.20309
代码: 数据集
领域: multimodal_vlm
关键词: 多模态大模型, 偏好对齐, 指令遵循, DPO, 幻觉缓解
作者: Zitian Wang, Yue Liao, Kang Rong, Fengyun Rao, Yibo Yang, Si Liu (北航, NUS, KAUST)
一句话总结¶
提出指令导向偏好对齐(IPA)框架,通过自动化偏好构建机制和渐进式偏好数据收集管线,将对齐信号锚定在指令完成效能而非仅局限于幻觉因素,在 Qwen2VL-7B 上跨 9 个基准(幻觉评估、通用VQA、文本理解)实现一致性提升。
研究背景与动机¶
多模态大语言模型(MLLMs)在视觉-语言理解方面取得了令人瞩目的进展,但 SFT 数据中的噪声或模糊标注会导致模型学习到不正确的信息。偏好对齐作为后训练策略应运而生。
然而,现有偏好对齐方法存在根本性问题:
过度聚焦幻觉因素:RLHF-V、RLAIF-V、Topic-Overwrite 等方法主要通过注入或检测幻觉来构建偏好对,将改进局限于幻觉缓解
忽略内在质量维度:当多个响应在幻觉方面无显著差异时,这些方法缺乏区分能力
人工/商业模型依赖:人工标注成本高,依赖 GPT-4V 则财务开销大
作者提出的核心问题:偏好对中哪些因素真正决定了对齐方向?
答案:指令完成效能——响应是否充分满足了指令的核心要求。例如,对于 "Is there a cat in the image?" 这一问题,"Yes." 和 "The image's lower-left corner displays a gray cat." 在幻觉维度上无差异,但后者通过展示观察逻辑和细节完整度,更好地满足了指令要求。
方法详解¶
整体框架¶
IPA 由两部分组成:自动化偏好构建机制 + 渐进式偏好数据收集管线。
阶段一:响应采样 (Sampling)¶
对每个样本 \(s = (V, I, r^{ref})\),采用两种策略:
正常采样: $\(r^{norm} \sim \pi_G(\cdot | V, I; \theta_{\pi_G})\)$
对比采样(受 VCD 启发): $\(r^{cont} \sim \pi_G(\cdot | t(V), I; \theta_{\pi_G}), \quad t \sim \mathcal{T}\)$
其中 \(t\) 是从扰动集 \(\mathcal{T}\)(噪声、模糊、缩放等)中随机选择的扰动算子。对比采样旨在增强与 \(\pi_G\) 鲁棒性相关的缺陷响应模式多样性。
阶段二:反射式响应修正 (Reflective Revision)¶
通过两个阶段改进响应:
-
诊断反馈生成:修正模型 \(\pi_R\) 识别初始响应中的关键缺陷 $\(fb \sim \pi_R(\cdot | V, I, r, I^{fb}; \theta_{\pi_R})\)$
-
反馈驱动精修:根据反馈信息精修响应 $\(r^{rev} \sim \pi_R(\cdot | V, I, r, fb, I^{rf}; \theta_{\pi_R})\)$
修正阶段不仅纠正视觉幻觉,更重要的是扩展任务相关信息的深度。
阶段三:指令导向验证 (Instruction-Oriented Verification)¶
核心设计——通过验证过程将对齐信号提取从格式约束中解耦:
验证模型评估四个维度: - 逻辑蕴含:参考答案能否从响应中逻辑推导出 - 细节完整性:是否缺失关键细节 - 矛盾检测:响应与参考是否存在矛盾 - 指令遵从:是否遵循指令
\(v = 1\) 表示通过所有条件(preferred),\(v = 0\) 表示存在某些失败模式(dispreferred)。最终构建偏好对 \(\mathcal{P}^{resp} = \{(r^w, r^l)\}\)。
渐进式偏好收集管线¶
Round 1:在种子数据集上执行偏好构建,收集初始偏好数据。无法生成 \(\mathcal{R}^{win}\) 的困难样本保留到 \(\mathcal{D}_2\)。
Round 2(自我进化):用 Round 1 的偏好数据通过 DPO 优化生成器和修正器: $\(\pi_G^+ = \text{DPO}(\pi_G, \mathcal{P}_1^{resp}), \quad \pi_R^+ = \text{DPO}(\pi_R, \mathcal{P}_1^{fb})\)$ 增强后的模型重新处理困难样本。
Round 3(参考引导):对剩余困难样本,在修正阶段引入参考响应 \(r^{ref}\): $\(fb \sim \pi_R(\cdot | V, I, r, r^{ref}, I^{fb}; \theta_{\pi_R})\)$
最终收集 89K 偏好对。
训练细节¶
- 基座模型:Qwen2VL-7B
- 对齐方式:DPO + LoRA
- 训练 1 epoch
- 数据集涵盖 VQA、文本理解、开放指令等多源多模态样本
实验关键数据¶
主实验:跨基准一致性提升¶
| 模型 | HallBench | POPE | MMHal | MMMU | MMStar | MMVet | MME | LLaVA | OCR |
|---|---|---|---|---|---|---|---|---|---|
| Qwen2VL-7B | 50.0 | 86.2 | 3.6 | 53.8 | 60.7 | 63.1 | 1676 | 76.6 | 86.2 |
| + IPA | 54.3 | 87.2 | 3.7 | 54.6 | 61.7 | 64.2 | 1687 | 84.0 | 87.3 |
| 提升 | +4.3 | +1.0 | +0.1 | +0.8 | +1.0 | +1.1 | +11 | +7.4 | +1.1 |
| Qwen2.5VL-7B | 54.7 | 86.2 | 3.7 | 57.6 | 64.7 | 65.6 | 1694 | 75.2 | 87.5 |
| + IPA | 55.7 | 86.6 | 3.9 | 59.8 | 66.5 | 68.3 | 1707 | 87.3 | 88.2 |
在 Qwen2.5VL-7B 上的提升同样一致,说明偏好数据具有跨模型迁移能力。
与现有方法对比¶
| 方法 | HallBench | POPE | MMMU | MMStar | MMVet | MME | LLaVA | OCR |
|---|---|---|---|---|---|---|---|---|
| RLHF-V | 50.2 | 86.4 | 52.9 | 61.0 | 60.4 | 1682 | 76.6 | 86.3 |
| RLAIF-V | 50.2 | 86.5 | 53.8 | 61.1 | 58.2 | 1674 | 78.8 | 86.4 |
| VLFeedback | 52.2 | 84.7 | 53.7 | 60.7 | 60.6 | 1682 | 81.4 | 86.6 |
| MMPR | 53.4 | 86.4 | 54.3 | 58.5 | 61.7 | 1681 | 83.5 | 86.3 |
| IPA (ours) | 54.3 | 87.2 | 54.6 | 61.7 | 64.2 | 1687 | 84.0 | 87.3 |
- 幻觉导向方法(RLHF-V、RLAIF-V、Topic-Overwrite)往往在多维评估中出现性能权衡
- IPA 在各维度上实现一致提升,特别是 MMVet (+1.1) 和 LLaVABench (+7.4) 大幅领先
消融实验¶
| 配置 | 平均分 | HallBench | MMMU | MMStar | MMVet | OCR |
|---|---|---|---|---|---|---|
| Baseline | 68.1 | 50.0 | 53.8 | 60.7 | 63.1 | 86.2 |
| Round 1 w/o CS | 69.1 | 52.3 | 53.4 | 61.2 | 61.7 | 87.0 |
| Round 1 | 70.1 | 52.9 | 54.2 | 61.9 | 62.7 | 87.0 |
| + Round 2 | 70.4 | 53.7 | 54.6 | 61.7 | 63.8 | 86.9 |
| + Round 3 w/ RGS | 69.8 | 53.4 | 54.7 | 61.1 | 62.7 | 87.2 |
| + Round 3 | 70.5 | 54.3 | 54.6 | 61.7 | 64.2 | 87.3 |
关键发现: - 对比采样贡献 1.0 分平均增益,在 HallBench 上贡献 +2.9 - 自我进化(Round 2)进一步提升 0.3 分 - 参考引导采样(RGS)会诱发简单模仿,性能反而下降 0.7 分 - 参考引导反馈(Round 3 正式版)有效回收困难样本
亮点与洞察¶
- 范式转换:从幻觉导向→指令导向的偏好对齐,锚定在 MLLM 的指令完成能力上,实现全面性能提升而非单一维度优化
- 验证机制的巧妙设计:将偏好判断转化为二值验证任务,通过解耦格式变异来建立清晰的决策边界
- 渐进式收集管线:三轮渐进策略最大化困难样本利用率,89K 偏好对覆盖多源多模态场景
- 跨模型泛化:在 Qwen2.5VL-7B 上的一致提升证明偏好信号的通用性
- 对比采样的有效性:视觉扰动不仅增加负样本多样性,还暴露了模型在多模态理解鲁棒性上的薄弱环节
局限性¶
- 由于计算资源限制,未在更大规模模型(如数百亿参数)上验证
- 验证模型和被对齐模型使用相同的 Qwen2VL-7B,可能存在偏差
- 偏好数据主要基于 Qwen2VL 构建,在更弱的模型(LLaVA-1.5-7B)上需要额外过滤
- 未探索在线偏好优化(如 online DPO 或 RLHF with PPO)的效果
相关工作与启发¶
- 与 MMPR 的差异:MMPR 聚焦 CoT 推理和格式化答案匹配,IPA 聚焦指令完成能力
- 与 VLFeedback 的对比:VLFeedback 依赖 GPT-4V 标注且优化 helpfulness/faithfulness/ethics,IPA 完全自动化且以指令遵从为核心
- 对后续工作的启发:指令导向的偏好构建范式可以推广到任意多模态任务和 MLLM 架构
评分¶
- 新颖性: ⭐⭐⭐⭐ — 指令导向的偏好对齐视角新颖,验证机制设计巧妙
- 实验: ⭐⭐⭐⭐ — 9 个基准全面覆盖,消融充分,跨模型验证增强说服力
- 写作: ⭐⭐⭐⭐ — 结构清晰,动机阐述充分,Figure 1 的对比直观有力
- 价值: ⭐⭐⭐⭐ — 提供了可扩展的偏好数据构建范式,对 MLLM 社区有实际应用价值
相关论文¶
- [NeurIPS 2025] Guiding Cross-Modal Representations with MLLM Priors via Preference Alignment
- [ACL 2025] OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference
- [ICCV 2025] Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension
- [ICCV 2025] Large Multi-modal Models Can Interpret Features in Large Multi-modal Models
- [ICCV 2025] Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning