HSCR: Hierarchical Self-Contrastive Rewarding for Aligning Medical Vision Language Models¶
会议: ACL2025
arXiv: 2506.00805
代码: GitHub
领域: Multimodal VLM / 医学视觉语言模型对齐
关键词: Medical VLM, Preference Optimization, Self-Contrastive Rewarding, Modality Alignment, Hallucination
一句话总结¶
提出层级自对比奖励方法 HSCR,通过视觉 token dropout 暴露模型内在的模态失对齐(misalignment),自动生成高质量偏好数据,并结合显式/隐式多层级偏好优化,仅用2000条训练样本即显著提升医学VLM的零样本性能和可信度。
研究背景与动机¶
问题定义¶
医学视觉语言模型(Med-VLM)通过将视觉编码器集成到LLM中来处理医学图像,但有限的配对多模态医学训练数据导致了严重的模态失对齐问题——模型可能对图像内容产生幻觉,偏好基于文本的先验而忽略实际视觉信息。这在高风险的医学场景中严重损害了模型的可信度。
现有方法的两大挑战¶
挑战一:偏好数据采样概率低 - 人工标注或GPT-4o生成的偏好数据与Med-VLM的解码行为存在分布偏差 - 这些外部偏好数据在Med-VLM优化时的采样概率很低 - 导致奖励信号微弱,对齐效果不佳
挑战二:相邻层级对比的有效性不足 - 传统的二元偏好优化(正确 vs 错误)中,偏好gap过大 - 弱训练的Med-VLM很容易饱和其区分预选/非预选输出的能力 - 粗粒度的对比无法学习到细微的偏好差异
方法详解¶
整体框架¶
HSCR 包含三个步骤: 1. Token级自对比奖励数据生成(Section 3.1) 2. 相似度感知偏好重排序(Section 3.2) 3. 层级多层级偏好优化(MLPO)(Section 3.3)
关键设计1:Token级自对比奖励数据生成¶
核心思路:利用Med-VLM自身的内在失对齐来生成非偏好响应,无需外部工具或标注。
Step 1 - 视觉 Token Dropout: - 对原始视觉token \(i\) 应用 70% 的dropout率得到 \(i'\) - 分别计算完整和dropout后的token logits:\(\text{logit}_\theta(y|i,x)\) 和 \(\text{logit}_\theta(y|i',x)\)
Step 2 - 识别模态耦合token: 通过对比两组logits的差异定位最容易被视觉信息影响的token:
其中 \(\beta=0.9\) 控制对比强度。选取logit差异最大的top-\(n\)个token(\(n=10\)),这些token与视觉模态强耦合,容易在失对齐时诱发幻觉。
Step 3 - 生成非偏好响应: 对识别出的敏感token,基于 \(P_{\text{diff}}\) 按升序解码替换为弱视觉相关的token(即幻觉输出)。通过替换不同数量的敏感token,生成具有不同错误程度的非偏好响应集合 \(\{y_{l1}, y_{l2}, ..., y_{lk}\}\)。
关键设计2:相似度感知偏好重排序¶
为确保偏好排序准确反映语义差异: - 计算每个非偏好响应 \(y_{lk}\) 与偏好响应 \(y_w\) 的语义相似度 \(\text{sim}(y_{lk}, y_w)\) - 按相似度降序重排 - 选择相似度差异至少为0.1的 \(j\) 个响应(\(j=3\))用于优化
关键设计3:层级多层级偏好优化(MLPO)¶
显式偏好学习——区分正确与错误响应:
这与标准DPO类似,但将偏好响应与所有非偏好响应进行对比(而非仅一对)。
隐式偏好学习——区分不同程度的错误响应:
这鼓励模型学习非偏好响应之间的相对质量排序(更接近正确的应高于更远离正确的)。
总损失:\(L_{\text{HSCR}} = L_E + L_I\)
损失函数设计的巧妙之处¶
- 显式偏好提供粗粒度的对齐方向
- 隐式偏好捕捉细粒度的偏好梯度
- 两者互补,使模型同时学会"什么是正确的"和"错误有多严重"
实验¶
实验设置¶
- 视觉编码器:CLIP-ViT-L/14@336px
- LLM:Mistral-7B
- 训练数据:仅2000条训练样本
- 超参数:\(j=3, \beta=0.9, n=10, \gamma=0.1\),LoRA rank=16,2 epochs
- 评估:Rad-VQA, SLAKE, PathVQA(开放/封闭);captioning & instruction-following
Med-VQA 主结果¶
| 方法 | RAD-VQA Open/Closed | SLAKE Open/Closed | PathVQA Open/Closed |
|---|---|---|---|
| GPT-4o | 51.6/63.97 | 59.06/71.63 | 24.14/75.97 |
| LLaVA-Med1.5 | 32.31/56.62 | 42.45/56.49 | 10.01/59.75 |
| ST-LLaVA | 33.81/59.16 | 40.13/55.53 | 10.38/52.05 |
| LiPO | 31.85/57.37 | 43.18/58.13 | 9.37/60.17 |
| HSCR | 35.92/60.13 | 45.32/63.46 | 12.36/64.17 |
HSCR 在零样本设置下取得 SOTA,在 SLAKE 封闭题上提升 6.97%,在 RAD-VQA 封闭题上接近 GPT-4 水平。
Captioning & Instruction-Following 结果¶
| 方法 | Conversation | Description | Overall |
|---|---|---|---|
| LLaVA-Med1.5 SFT(60K-IM) | 58.6 | 42.5 | 54.4 |
| HSCR (2K) | 59.4(+0.8) | 52.9(+10.4) | 57.7(+3.3) |
关键发现:2000条样本的HSCR比从10K扩展到60K的SFT带来更大的性能提升(描述任务+10.4% vs +4.4%)。
消融实验¶
1. 显式 vs 隐式偏好
| 显式 | 隐式 | SLAKE Closed |
|---|---|---|
| ✗ | ✗ | 56.49 |
| ✓ | ✗ | 57.78(+1.29) |
| ✗ | ✓ | 60.32(+3.83) |
| ✓ | ✓ | 63.46(+6.97) |
隐式偏好单独使用时效果优于显式偏好,但二者结合效果最佳。
2. 偏好数据构建方式
| 方法 | SLAKE Closed |
|---|---|
| LLaVA-Med1.5 基线 | 56.49 |
| GPT-4o 生成偏好 | 57.96(+1.47) |
| HSCR 自对比偏好 | 63.46(+6.97) |
自对比偏好远优于GPT-4o外部偏好,验证了利用模型内在失对齐的有效性。
3. 掩码策略对比
| 策略 | SLAKE Closed | PathVQA Closed |
|---|---|---|
| Pixel-Level Mask | 57.49 | 60.79 |
| Patch-Level Mask | 58.44 | 61.83 |
| Latent Space Mask | 60.32 | 62.77 |
| Visual Token Dropout | 63.46 | 64.17 |
越接近LLM骨干输入的扰动越有效,视觉token dropout直接消除视觉信息传入LLM,最能有效触发内在失对齐。
4. 掩码比例:70%为最优,低于50%的掩码不足以有效扰动视觉信息。
通用多模态任务泛化性¶
将HSCR应用于通用VLM(LLaVA-v1.5)后,在AMBER基准上超越DPO基线,证明方法不局限于医学领域。
亮点与洞察¶
- 巧妙利用"缺陷":不是试图修复模型的失对齐,而是利用这种失对齐来生成高质量的偏好数据——让模型"暴露自己的问题"来训练自己
- 极高的数据效率:仅2000条样本即可达到SOTA,比标准SFT扩展数据量更有效
- 隐式偏好学习的价值:揭示了非偏好响应之间的相对质量包含丰富的信号,传统二元DPO忽略了这些信息
- 视觉token dropout的设计动机:受MAE和ViT启发,通过直接在LLM输入层面消除视觉信息来暴露模态耦合程度
- 表示学习分析:通过t-SNE可视化展示HSCR使正确响应嵌入与图像嵌入更紧密对齐,直观验证了模态对齐效果
局限性¶
- 医学数据质量和多样性仍然有限,影响模型在稀少病例上的泛化
- 评估主要在受控实验环境中进行,缺乏临床工作流整合和真实世界验证
- 70%的dropout率较高,是否会在某些场景下丢失关键视觉信息值得探讨
- 隐式偏好的计算复杂度为 \(O(k^2)\)——随非偏好响应数量增加成二次增长
- 仅在 Mistral-7B 上验证,更大规模模型或不同架构的效果未知
相关工作¶
- VLM偏好优化:RLHF-V(人工反馈), POVID(扩散噪声生成拒绝响应), RLAIF-V(多VLM聚合)
- 医学VLM对齐:ST-LLaVA(自训练+GPT-4o评分), MMedPO(多智能体构建偏好数据)
- 对比解码:VCD(Contrastive Decoding减少幻觉)
- DPO及变体:Rafailov et al., LiPO(listwise偏好优化)
评分 ⭐⭐⭐⭐¶
方法设计巧妙且有深刻的动机分析,数据效率极高(2K样本),多层级偏好优化的设计有创新性。消融实验充分验证了各组件的贡献。不足在于仅限7B模型验证,且缺少临床环境下的真实应用评估。
相关论文¶
- [ACL 2025] Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images
- [ACL 2025] Retrieval Visual Contrastive Decoding to Mitigate Object Hallucinations in Large Vision-Language Models
- [NeurIPS 2025] BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning
- [ACL 2025] Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback
- [ACL 2025] Hierarchical Safety Realignment: Lightweight Restoration of Safety in Pruned Large Vision-Language Models