跳转至

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

会议: ACL 2025
arXiv: 2502.13928
代码: https://s-vco.github.io/
领域: 多模态VLM
关键词: visual grounding, contrastive optimization, VLM alignment, hallucination, DPO

一句话总结

提出 S-VCO(对称视觉对比优化),一种新的 VLM 微调目标,通过对称地对齐/拒绝匹配/矛盾的图像-文本对来增强视觉依赖,配合最小视觉对比数据集 MVC,在幻觉检测上减少 22%,视觉依赖任务上显著提升。

研究背景与动机

  1. 领域现状:VLM 倾向于过度依赖语言模型先验而忽略视觉内容,导致视觉幻觉。在多个基准上,有无视觉输入对 VLM 的性能差异很小。
  2. 现有痛点:Perplexity 实验揭示了反直觉现象——VLM 在没有图像输入时困惑度最低,在给出匹配图像时困惑度反而最高。说明模型学会了"忽略图像比使用图像更好"。现有 DPO/mDPO 方法用随机裁剪或加噪的图像作为负样本,但这些损坏图像与文本没有有意义的关联,模型可以通过"拒绝不自然图像"的捷径学习而不真正理解视觉细节。
  3. 核心矛盾:偏好对齐范式(DPO)本质上把视觉监督当作"偏好"——原图总是优于损坏图,但这不会教模型为什么原图更好,也不会让模型学会将视觉细节与文本 token 精确对应。
  4. 本文要解决什么? 设计一种微调目标,不仅让模型"关注匹配图像",还要"拒绝矛盾图像",且通过对称机制避免捷径学习。
  5. 切入角度:不把图像分为"好/坏",而是把它们视为具有对比细节的平等图像——当配对对应文本时任何一张都可以是"正确的"。同时构建具有最小但有意义视觉差异的对比图像数据集。
  6. 核心 idea 一句话:用对称的视觉对比优化替代单向偏好优化,配合最小视觉对比数据集,让模型真正学会将视觉细节与文本对齐。

方法详解

整体框架

输入为一对对比图像 \((i_w, i_l)\),共享查询 \(q\),各自有对应的文本回复 \((y_w, y_l)\)。S-VCO 训练模型同时:(1) 关注匹配图像 + 拒绝矛盾图像 (VCO);(2) 对称翻转角色让"负"图像也作为"正"条件 (Symmetry)。

关键设计

  1. 视觉对比监督 (VCO):
  2. 做什么:设计两个互补的损失项——Attend(关注匹配图像)和 Reject(拒绝矛盾图像)。
  3. Attend 损失: 鼓励模型在给定匹配图像 \(i_w\) 时比无图像输入时更好地生成 \(y_w\)\(L_{\text{Attend}} = -\log\sigma(\beta_1 \log\frac{\pi_\theta(y_w|i_w,q)}{\pi_{\text{ref}}(y_w|i_w,q)} - \beta_1 \log\frac{\pi_\theta(y_w|q)}{\pi_{\text{ref}}(y_w|q)})\)
  4. Reject 损失: 鼓励模型在矛盾图像 \(i_l\) 下比无图像时更地生成 \(y_w\)\(L_{\text{Reject}} = -\log\sigma(\beta_2 \log\frac{\pi_\theta(y_w|q)}{\pi_{\text{ref}}(y_w|q)} - \beta_2 \log\frac{\pi_\theta(y_w|i_l,q)}{\pi_{\text{ref}}(y_w|i_l,q)})\)
  5. 设计动机:Attend 解决"忽略图像"问题,Reject 解决"不拒绝矛盾图像"问题。以"无图像"为锚点进行对比,比以"损坏图像"为锚点更有意义。

  6. 对称对齐:

  7. 做什么:翻转 VCO 目标,让 \(i_l\) 作为匹配条件、\(i_w\) 作为矛盾条件,配合文本 \(y_l\)
  8. 核心思路:\(L_{\text{S-VCO}} = L_{\text{VCO}}(i_w, y_w, i_l) + L_{\text{VCO}}(i_l, y_l, i_w)\)
  9. 设计动机:单向公式总是偏好 \(i_w\) 而拒绝 \(i_l\),模型会学到"拒绝看起来像合成图像的输入"的捷径(因为大多数对比图像由 inpainting 生成)。对称设计让两张图地位平等,迫使模型关注图文对齐而非图像表面特征。

  10. MVC 数据集(最小视觉对比):

  11. 做什么:构建高质量的对比图像-文本训练数据。
  12. 核心思路:从 CounterCurate 和 FineCops-Ref 等视觉反事实数据源出发,包含 4 种对比类型(物体替换、属性替换、数量修改、位置翻转)。用双阈值过滤:(1) CLIP 相似度 >0.7(语义整体相似、对当前 VLM 困难);(2) DINOv2 相似度 <0.5(视觉特征确实不同)。再用 GPT-4o 将简短 caption 重写为对话式问答格式。
  13. 设计动机:现有数据质量不一致(合成图像可能未真正产生对比),双阈值过滤选择"困难但有意义"的样本。语言增强使数据适合 VLM instruction tuning。

损失函数 / 训练策略

\(L_{\text{S-VCO}} = L_{\text{VCO}}(i_w, y_w, i_l) + L_{\text{VCO}}(i_l, y_l, i_w)\),其中每个 VCO 包含 Attend + Reject 两项。标准 LoRA 微调,数据集约 11K 对对比图像-文本样本。

实验关键数据

主实验

方法 幻觉 (MMHal↑) 幻觉率↓ CVBench↑ MMVP↑ MMVet↑ 平均提升
LLaVA-1.5-7B (BASE) 2.16 57% 59.3 21.3 30.46 0%
DPO_VLF 2.06 65% 57.0 16.7 31.65 -1.25%
DPO_MVC 2.45 53% 63.2 22.0 33.53 +8.11%
mDPO_VLF 2.39 57% 53.2 18.7 31.79 +2.11%
S-VCO_MVC 2.75 46% 63.5 25.3 34.68 +14.26%

关键结果: S-VCO 将幻觉率从 57% 降至 46%(减少 22%),在视觉中心基准上提升 4+ 点,总平均提升 14.26%,远超 DPO 和 mDPO。

消融实验

配置 平均提升 说明
S-VCO + MVC (完整) +14.26% 最优
VCO w/o 对称 提升但不如完整 对称防止捷径学习
S-VCO + 无过滤数据 提升受限 数据质量很重要
S-VCO + VLF数据 低于 MVC VLF 的裁剪/噪声图像不如有意义对比
仅 Attend 正向但有限 需要 Reject 配合
仅 Reject 正向但有限 需要 Attend 配合

关键发现

  • 视觉依赖度越高,改进越大:在高视觉依赖的基准(如 MMVP, CVBench)上提升最显著,验证了 S-VCO 确实增强了视觉利用。
  • MVC 数据集质量关键:同样的 DPO 使用 MVC 数据 (+8.11%) 远优于 VLF 数据 (-1.25%),说明数据对比质量比优化方法更重要。
  • 保持甚至提升通用能力:S-VCO 在视觉任务提升的同时,OCR (TextVQA) 和知识 (SQA) 基准也有小幅提升,不会牺牲通用能力。

亮点与洞察

  • 对称设计的深刻洞察:将"偏好"范式改为"对比"范式是关键转变——不再有固定的"好图"和"坏图",而是根据配对文本动态决定。这避免了模型学习到"拒绝所有合成图"的捷径。这个思路可以推广到其他多模态对齐任务。
  • 无图像 baseline 作为锚点:用"无图像条件"而非"损坏图像"作为对比锚点非常巧妙——它直接衡量了"图像是否真的帮助了生成",是一个更干净的信号。
  • 双阈值过滤策略 (CLIP+DINOv2):CLIP 高相似度确保语义整体一致(对 VLM 困难),DINOv2 低相似度确保视觉特征确实不同。这种"困难但有意义"的样本选择策略值得在其他对比学习场景中借鉴。

局限性 / 可改进方向

  • MVC 数据依赖合成/编辑的反事实图像,可能存在伪影,虽然有过滤但不能完全消除。
  • 仅在 LLaVA-1.5-7B 上实验,对更大/更新模型的效果未验证。
  • 对比类型主要是物体/属性级别,缺乏更高层语义(如场景/关系/动作)的对比。
  • 训练数据构建需要 GPT-4o 辅助,成本不低。

相关工作与启发

  • vs mDPO (Wang et al. 2024): mDPO 用随机裁剪图像作为负样本,本质上还是偏好范式且负样本与文本无关;S-VCO 用最小对比图像且对称优化,从根本上解决了捷径学习问题。
  • vs RLHF-V (Jiang et al. 2024): RLHF-V 给图像加扩散噪声作为负样本,同样面临负样本无意义的问题;S-VCO 的负样本是另一张真实图像,只是与文本不匹配。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 对称对比优化的提出有深度,从"偏好"到"对比"的范式转换有洞察力
  • 实验充分度: ⭐⭐⭐⭐ 多个基准覆盖幻觉/视觉/通用,消融充分
  • 写作质量: ⭐⭐⭐⭐⭐ 困惑度实验的动机论证极其有说服力,图表清晰
  • 价值: ⭐⭐⭐⭐⭐ 对 VLM 视觉对齐提供了新范式,幻觉减少 22% 有显著实用价值