Mitigating Hallucination Through Theory-Consistent Symmetric Multimodal Preference Optimization¶
会议: NeurIPS 2025
arXiv: 2506.11712
代码: https://github.com/Liuwq-bit/SymMPO
领域: llm_alignment
关键词: DPO, 多模态幻觉, 偏好优化, 视觉理解, 对称偏好学习
一句话总结¶
提出 SymMPO(对称多模态偏好优化),通过对比图像的对称配对偏好学习和偏好边际一致性正则化,解决了现有视觉增强型 DPO 方法中目标函数不严格和间接偏好监督两大局限,在五个幻觉评测基准上取得了一致的性能提升。
研究背景与动机¶
多模态大语言模型 (MLLMs) 虽然在视觉问答、图像描述等任务上表现出色,但严重受到幻觉问题困扰——生成与输入图像不一致的内容。DPO 已被广泛应用于减轻 MLLM 幻觉,现有方法通常包含两个组件:
- 回复导向偏好学习:比较同一输入下好的回复 \(y_w\) 和差的回复 \(y_l\)
- 视觉导向偏好学习(可选):使用对比图像 \((m_w, m_l)\) 搭配相同回复 \(y_w\),增强模型对视觉输入的关注
然而,作者深入分析后发现现有方法存在两个关键缺陷:
缺陷1:目标函数不严格。 在视觉导向偏好学习中,对比图像 \(m_w \neq m_l\) 导致配分函数 \(Z(m_w, x)\) 和 \(Z(m_l, x)\) 不能直接消去。现有方法直接假设它们可消除,与标准 DPO 的理论推导不一致。作者在附录 B 中给出了详细的数学证明。
缺陷2:间接偏好监督。 现有的视觉导向方法使用对比图像+相同回复的三元组,本质上依赖图像对比而非回复对比。这偏离了 DPO 的核心原理——通过配对回复建立偏好关系,导致视觉理解提升效果有限。
方法详解¶
整体框架¶
SymMPO 的完整损失函数为:
其中四个组件分别负责回复质量保证、对称配对偏好学习、偏好边际一致性正则化和锚定偏好正则化。
关键设计¶
1. 对称配对偏好学习 (\(\mathcal{L}_{Pair}\))
核心创新在于为对比图像 \(m'\) 额外生成其最优回复 \(y_{w}'\)。由于 \(m'\) 和 \(m\) 高度相似(通过 CLIP 相似度选择),它们的最优回复也相似但有微小差异,自然构成"硬负例"。
对称偏好建模:
即在图像 \(m\) 下 \(y_w\) 优于 \(y_{w}'\),在图像 \(m'\) 下 \(y_{w}'\) 优于 \(y_w\)。由于使用了回复对作为偏好监督(而非图像对),配分函数可以自然消去,目标函数严格符合标准 DPO 推导。
2. 偏好边际一致性正则化 (\(\mathcal{L}_{Margin}\))
Bradley-Terry 模型只约束偏好的序关系,但对于高度相似的输入 \((m,x)\) 和 \((m',x)\),偏好边际也应当一致。因此引入:
其中 \(\Delta(m,x,y_w,y_{w}') = r(m,x,y_w) - r(m,x,y_{w}')\),确保两个方向的偏好差距量级一致。
3. 锚定偏好正则化 (\(\mathcal{L}_{AncPO}\))
防止模型通过降低正面回复概率来扩大偏好差距:
4. 低成本偏好数据构建管道
提出 Caption-Anchored Claim Extraction-and-Rewriting 四阶段管道: 1. 开源 MLLM(Qwen2.5-VL-32B)生成图像描述 2. 参考模型多次采样生成回复 3. LLM(DeepSeek-V3)对比回复与描述,提取一致/不一致声明 4. LLM 基于声明改写生成正/负回复
对比图像通过 CLIP 最近邻而非传统的图像变换生成,保持语义相似性。
损失函数 / 训练策略¶
超参数设置:\(\beta=0.1\),\(\delta=0\),\(\lambda=0.5\),\(\gamma=1e-4\),\(\eta=1.0\)。训练 2 个 epoch,学习率 5e-6,batch size 64,4 × NVIDIA A100-40GB。训练数据来自 TPO 的 21.4k 图像-提示对。
实验关键数据¶
主实验¶
在 LLaVA-1.5-7B 上的严格对比(相同数据/训练条件下 DPO vs mDPO vs SymMPO):
| 方法 | HallusionBench aAcc↑ | MMHal Score↑ | AMBER Acc↑ | AMBER F1↑ | MMStar↑ |
|---|---|---|---|---|---|
| DPO | 40.21 | 2.44 | 71.3 | 82.6 | 33.4 |
| mDPO | 42.78 | 2.71 | 80.6 | 86.3 | 34.2 |
| SymMPO | 44.28 | 2.89 | 82.6 | 87.7 | 34.8 |
在 LLaVA-1.5-13B 上同样保持优势:
| 方法 | HallusionBench aAcc↑ | MMHal Score↑ | AMBER Acc↑ | AMBER F1↑ | MMStar↑ |
|---|---|---|---|---|---|
| DPO | 39.50 | 2.65 | 69.2 | 84.6 | 33.0 |
| mDPO | 39.85 | 2.93 | 83.8 | 88.8 | 35.0 |
| SymMPO | 44.55 | 3.01 | 84.9 | 89.1 | 35.2 |
消融实验¶
LLaVA-1.5-7B 上的组件消融:
| 变体 | HallusionBench aAcc↑ | MMHal Score↑ | AMBER Acc↑ | MMStar↑ |
|---|---|---|---|---|
| SymMPO (完整) | 44.28 | 2.89 | 82.6 | 34.8 |
| w/o \(\mathcal{L}_{Pair}\) | 43.22 | 2.53 | 81.7 | 33.8 |
| w/o \(\mathcal{L}_{Margin}\) | 44.46 | 2.40 | 82.0 | 34.5 |
| w/o \(\mathcal{L}_{AncPO}\) | 40.83 | 2.39 | 79.5 | 36.2 |
对比图像类型实验测试了 5 种策略(Similar/Black/Cropped/Noisy/Synthetic),发现: - SymMPO 在几乎所有类型下优于 mDPO(Black 除外) - Similar、Noisy、Synthetic 效果优于 Black 和 Cropped,因为前三者更好地保留了语义相似性
关键发现¶
- 配对偏好学习 (\(\mathcal{L}_{Pair}\)) 对整体性能贡献最大,移除后 MMHal Score 下降 0.36
- 锚定正则化对 HallusionBench 至关重要(移除后 aAcc 降 3.45 个百分点)
- SymMPO 和 mDPO 在 Object-HalBench 上均弱于 DPO,这与数据构建管道偏向场景概述而非细粒度视觉描述有关
- CLIP 最近邻对比图像比传统的噪声注入/裁剪策略更有效
亮点与洞察¶
- 理论严格性:深入分析了配分函数在多模态 DPO 中的角色,指出现有方法直接消去 \(Z(m_w,x)\) 和 \(Z(m_l,x)\) 的理论缺陷,并给出了严格的替代方案
- 对称设计自然解决配分函数问题:通过让每个方向都使用相同多模态输入+不同回复,配分函数自然消去
- 量化偏好边际:超越传统的序偏好(\(y_w \succ y_l\)),引入偏好差距大小的一致性约束
- 实用的数据构建管道:避免了昂贵的 GPT-4V API 调用,使用开源模型 + DeepSeek-V3 的组合方案
局限性 / 可改进方向¶
- 细粒度视觉理解有限:在 Object-HalBench 上的表现不佳,说明数据构建管道需要增强对细节描述的关注
- 额外计算开销:需要为对比图像构建对应的最优回复,增加了数据准备成本
- 仅在 LLaVA-1.5 架构上验证,未测试更强的基础模型(如 Qwen-VL、InternVL)
- 对比图像使用 CLIP 最近邻可能引入选择偏差,对数据集分布敏感
相关工作与启发¶
- mDPO (Wang et al., 2024):引入视觉导向对比学习,但目标函数不严格。SymMPO 直接修正了其理论缺陷
- RLAIF-V (Yu et al., 2024):去混淆的候选回复生成,SymMPO 在数据构建上更高效
- TPO (He et al., 2024):主题级自纠正范式,与 SymMPO 关注不同层面
- OPA-DPO (Yang et al., 2025):自适应探索-利用平衡,但仍使用间接偏好监督
- SymMPO 的对称思想可以推广到其他需要多视角对比的偏好学习场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 对称偏好学习和边际一致性正则化是有价值的创新,理论分析揭示了被忽略的问题
- 实验充分度: ⭐⭐⭐⭐ 五个基准、两个模型规模、完整消融和对比图像类型分析
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,数学推导严谨,但部分符号较为密集
- 价值: ⭐⭐⭐⭐ 对多模态偏好优化的理论基础做出了实质性贡献,方法通用性强