跳转至

CheXalign: Preference Fine-tuning in Chest X-ray Interpretation Models without Human Feedback

会议: ACL 2025
arXiv: 2410.07025
代码: https://github.com/StanfordMIMI/CheXalign
领域: 医学图像
关键词: 偏好对齐, 放射报告生成, DPO, 胸部X光, 长度利用

一句话总结

CheXalign 提出了一种无需放射科医生反馈的自动化偏好数据生成管线,利用公开数据集中的参考报告和基于参考的评估指标(如 GREEN、BERTScore)构造偏好对,通过 DPO 等直接对齐算法对胸部X光报告生成模型进行偏好微调,在 MIMIC-CXR 上取得 SOTA CheXbert 分数。

研究背景与动机

  1. 领域现状:胸部X光(CXR)是临床中最常见的影像检查之一,全球每年约 14 亿次。视觉-语言模型(VLM)在放射报告生成(RRG)任务中展现出辅助放射科医生的潜力,主流做法是对 VLM 进行监督微调(SFT)。
  2. 现有痛点:SFT 存在根本性不足——训练过程中 "坏回复" 的对数概率会随着 "好回复" 一起不经意地升高,导致模型仍然会产生不符合事实的幻觉。在放射学这种高风险领域,幻觉可能直接影响诊断和治疗决策。通用领域的 LLM 已经广泛采用 RLHF/DPO 等偏好微调来解决此问题,但医学 VLM 领域几乎没有探索过。
  3. 核心矛盾:偏好微调需要大量高质量的偏好数据,而在放射学领域获取放射科医生的反馈成本极高、不可扩展。
  4. 本文要解决什么? (a) 如何在不使用人工反馈的情况下大规模生成高质量偏好数据;(b) 如何系统性地将 DAA 算法应用于医学 VLM;(c) 如何应对奖励过度优化中的长度利用问题。
  5. 切入角度:公开医学数据集(如 MIMIC-CXR)已包含放射科医生撰写的参考报告,作者提出利用这些参考报告配合基于参考的评估指标(GREEN、BERTScore)作为自动化 Judge,代替人工反馈。
  6. 核心idea一句话:用参考报告 + 自动评估指标构造偏好对,绕过了放射科医生反馈的瓶颈,实现低成本、可扩展的医学 VLM 对齐。

方法详解

整体框架

输入是 CXR 图像 + 放射科医生撰写的参考报告数据集(如 MIMIC-CXR),输出是经过偏好微调的 VLM。管线分三步:(1) 从 SFT 基线模型重复采样 N=4 个候选报告,(2) 用自动化 Judge(基于参考的指标)对每个候选报告打分,(3) 取最高分和最低分构成 chosen/rejected 偏好对,输入 DAA 算法进行偏好微调。

关键设计

  1. 自动化偏好数据生成:
  2. 做什么:无需额外人工标注,自动构造偏好对
  3. 核心思路:对每个训练样本,用 SFT 模型采样 4 个候选报告,用参考报告的 GREEN 或 BERTScore 打分,最高分为 chosen、最低分为 rejected。若 4 个分数全相同则丢弃该样本(GREEN 丢弃约 1.6%,BERTScore 仅 0.04%)
  4. 设计动机:利用已有数据集中的参考报告作为事实基准,使偏好数据具有临床相关的事实 grounding,无需多模态 Judge

  5. 长度控制 GREEN 分数 (LC-GREEN):

  6. 做什么:缓解奖励过度优化中的长度利用问题
  7. 核心思路:\(\text{LC-GREEN} := \text{GREEN} / \max(\text{rel\_verbosity}, 1)\),其中 rel_verbosity 是候选报告相对于参考报告的相对冗余度(词数比)
  8. 设计动机:实验发现 GREEN 作为 Judge 时,DPO 训练后的报告平均长度从 55.8 词膨胀到 140.2 词(2.51 倍冗余),主要是语义或句法重复。LC-GREEN 通过惩罚过长报告来遏制这一现象

  9. 系统化 DAA 算法比较:

  10. 做什么:比较 5 种直接对齐算法在 RRG 任务上的表现
  11. 涵盖算法:DPO(基线)、LC-DPO(显式长度正则化,额外超参 \(\alpha\))、IPO(放松 Bradley-Terry 模型假设)、KTO(无需偏好对,只需二元反馈,数据量翻倍)、ORPO(在 SFT 损失后附加负梯度惩罚项)
  12. 设计动机:不同 DAA 在长度控制、数据需求、计算效率上各有权衡,系统比较有助于找到医学 VLM 的最佳对齐方案

损失函数 / 训练策略

5 种 DAA 各有不同目标函数。以 DPO 为例:\(\mathcal{L}_{\text{DPO}} = -\log\sigma(\beta\log\frac{\pi_\theta(y_c|x)}{\pi_{\text{ref}}(y_c|x)} - \beta\log\frac{\pi_\theta(y_r|x)}{\pi_{\text{ref}}(y_r|x)})\)。LC-DPO 在此基础上增加长度惩罚项 \(\alpha(|y_c| - |y_r|)\)。KTO 不需要偏好对,使用 Kahneman-Tversky 前景理论的损失。ORPO 则直接在 NLL 损失上附加 odds-ratio 对比项,不需要 reference model,训练最快(相对 DPO 仅 0.7 倍时间)。

实验关键数据

主实验

基线模型:CheXagent (8B) 和 CheXagent-2 (3B)。训练集:MIMIC-CXR(80k/148k 样本)。测试集:MIMIC-CXR + CheXpert Plus。

模型 Judge GREEN ↑ LC-GREEN ↑ BERTScore ↑
CheXagent (SFT) - 0.249 0.218 0.856
+KTO GREEN 0.328 (+31.9%) 0.293 (+34.1%) 0.867
+KTO BERTScore 0.304 (+21.9%) 0.279 (+28.2%) 0.872 (+1.88%)
CheXagent-2 (SFT) - 0.326 0.297 0.888
+DPO GREEN 0.387 (+18.9%) 0.339 (+14.1%) 0.891

CheXbert F1 分数(MIMIC-CXR 测试集,Avg. F1):

模型 Judge Avg. F1 ↑
CheXagent (SFT) - 47.9
+KTO BERTScore 54.6 (+14.0%)
CheXagent-2 (SFT) - 55.1
+DPO GREEN 56.4 (+2.4%)
MAIRA-2 (对比) - 52.3

消融实验

长度利用分析(MIMIC-CXR 验证集,GREEN 作为 Judge):

配置 平均报告长度 相对冗余度 说明
CheXagent (SFT) 55.8 1.00 基线
+DPO (GREEN选择) 140.2 2.51 严重长度膨胀
+DPO (LC-GREEN选择) 68.7 1.23 LC-GREEN 有效控制
+KTO (LC-GREEN选择) 55.9 1.00 几乎无膨胀
参考报告 58.4 1.05 -

关键发现

  • BERTScore 作为 Judge 在 CheXbert 分数上出人意料地优于 GREEN:可能因为 GREEN 更容易被长度利用,导致奖励过度优化
  • KTO 综合表现最好(CheXagent):不需要偏好对、数据量翻倍、长度膨胀最小
  • 对齐税几乎为零:在 6 个额外视觉感知/推理任务上,对齐后的模型与 SFT 基线表现持平
  • 廉价的通用 NLG 指标也能有效改善临床表现:即使用 BERTScore 这种通用指标作为 Judge,CheXbert 分数也有显著提升

亮点与洞察

  • 巧妙利用已有数据避开人工标注瓶颈:公开医学数据集中的参考报告本身就是高质量的"人工反馈",只需配上自动评估指标就能构造偏好对。这种思路可以迁移到任何有参考标准的生成任务(如法律文书、学术写作)
  • LC-GREEN 简单有效地解决长度利用:一个简单的除法归一化就将报告长度从 140 词降到 69 词,且性能更好。这种长度控制启发式可广泛应用于所有 DAA 的指标设计
  • 通用指标 vs 领域专用指标的意外发现:用便宜的 BERTScore 做 Judge 在 CheXbert F1 上竟然优于昂贵的 GREEN,说明过度优化领域专用指标可能带来反效果

局限性 / 可改进方向

  • 仅测试了 CheXagent 和 CheXagent-2 两个模型家族,泛化性有待验证
  • 未进行大规模放射科医生读者研究,临床评估仍依赖自动指标
  • 仅使用离线 DAA,未探索在线 RL 算法(如 RLVR / GRPO 等近期热门方法)
  • 未研究偏好数据中可能嵌入的人口统计学偏见(种族、性别等)
  • 超参搜索不够充分,不同方法的相对排名可能随更细致的调优而改变

相关工作与启发

  • vs Sun et al. (2024): 他们使用 reference-free 多模态 Judge 做偏好对齐,本文使用 reference-based 单模态 Judge,优势在于事实 grounding 更可靠且不需要高质量多模态评估器
  • vs MAIRA-2: MAIRA-2 使用额外信息(如先前报告)达到高 CheXbert 分数,本文在不使用额外信息的情况下通过对齐达到可比甚至更优的结果
  • vs DeepSeek-R1: 作者在局限性中提到 RLVR 是有前景的方向,RRG 任务的 verification function 设计是关键

评分

  • 新颖性: ⭐⭐⭐⭐ 核心idea并不复杂(用参考报告做Judge),但首次系统化地将 DAA 应用于医学VLM并分析长度利用问题
  • 实验充分度: ⭐⭐⭐⭐⭐ 5种DAA、2种Judge、2个模型、多个数据集、CheXbert/GREEN/BERTScore多指标、对齐税分析、定性评估,非常全面
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰、实验设置详尽、图表设计优秀
  • 价值: ⭐⭐⭐⭐ 为医学VLM对齐提供了实用且可复现的管线,LC-GREEN和长度利用的分析对社区有普遍参考价值