CheXalign: Preference Fine-tuning in Chest X-ray Interpretation Models without Human Feedback¶
会议: ACL 2025
arXiv: 2410.07025
代码: https://github.com/StanfordMIMI/CheXalign
领域: 医学图像
关键词: 偏好对齐, 放射报告生成, DPO, 胸部X光, 长度利用
一句话总结¶
CheXalign 提出了一种无需放射科医生反馈的自动化偏好数据生成管线,利用公开数据集中的参考报告和基于参考的评估指标(如 GREEN、BERTScore)构造偏好对,通过 DPO 等直接对齐算法对胸部X光报告生成模型进行偏好微调,在 MIMIC-CXR 上取得 SOTA CheXbert 分数。
研究背景与动机¶
- 领域现状:胸部X光(CXR)是临床中最常见的影像检查之一,全球每年约 14 亿次。视觉-语言模型(VLM)在放射报告生成(RRG)任务中展现出辅助放射科医生的潜力,主流做法是对 VLM 进行监督微调(SFT)。
- 现有痛点:SFT 存在根本性不足——训练过程中 "坏回复" 的对数概率会随着 "好回复" 一起不经意地升高,导致模型仍然会产生不符合事实的幻觉。在放射学这种高风险领域,幻觉可能直接影响诊断和治疗决策。通用领域的 LLM 已经广泛采用 RLHF/DPO 等偏好微调来解决此问题,但医学 VLM 领域几乎没有探索过。
- 核心矛盾:偏好微调需要大量高质量的偏好数据,而在放射学领域获取放射科医生的反馈成本极高、不可扩展。
- 本文要解决什么? (a) 如何在不使用人工反馈的情况下大规模生成高质量偏好数据;(b) 如何系统性地将 DAA 算法应用于医学 VLM;(c) 如何应对奖励过度优化中的长度利用问题。
- 切入角度:公开医学数据集(如 MIMIC-CXR)已包含放射科医生撰写的参考报告,作者提出利用这些参考报告配合基于参考的评估指标(GREEN、BERTScore)作为自动化 Judge,代替人工反馈。
- 核心idea一句话:用参考报告 + 自动评估指标构造偏好对,绕过了放射科医生反馈的瓶颈,实现低成本、可扩展的医学 VLM 对齐。
方法详解¶
整体框架¶
输入是 CXR 图像 + 放射科医生撰写的参考报告数据集(如 MIMIC-CXR),输出是经过偏好微调的 VLM。管线分三步:(1) 从 SFT 基线模型重复采样 N=4 个候选报告,(2) 用自动化 Judge(基于参考的指标)对每个候选报告打分,(3) 取最高分和最低分构成 chosen/rejected 偏好对,输入 DAA 算法进行偏好微调。
关键设计¶
- 自动化偏好数据生成:
- 做什么:无需额外人工标注,自动构造偏好对
- 核心思路:对每个训练样本,用 SFT 模型采样 4 个候选报告,用参考报告的 GREEN 或 BERTScore 打分,最高分为 chosen、最低分为 rejected。若 4 个分数全相同则丢弃该样本(GREEN 丢弃约 1.6%,BERTScore 仅 0.04%)
-
设计动机:利用已有数据集中的参考报告作为事实基准,使偏好数据具有临床相关的事实 grounding,无需多模态 Judge
-
长度控制 GREEN 分数 (LC-GREEN):
- 做什么:缓解奖励过度优化中的长度利用问题
- 核心思路:\(\text{LC-GREEN} := \text{GREEN} / \max(\text{rel\_verbosity}, 1)\),其中 rel_verbosity 是候选报告相对于参考报告的相对冗余度(词数比)
-
设计动机:实验发现 GREEN 作为 Judge 时,DPO 训练后的报告平均长度从 55.8 词膨胀到 140.2 词(2.51 倍冗余),主要是语义或句法重复。LC-GREEN 通过惩罚过长报告来遏制这一现象
-
系统化 DAA 算法比较:
- 做什么:比较 5 种直接对齐算法在 RRG 任务上的表现
- 涵盖算法:DPO(基线)、LC-DPO(显式长度正则化,额外超参 \(\alpha\))、IPO(放松 Bradley-Terry 模型假设)、KTO(无需偏好对,只需二元反馈,数据量翻倍)、ORPO(在 SFT 损失后附加负梯度惩罚项)
- 设计动机:不同 DAA 在长度控制、数据需求、计算效率上各有权衡,系统比较有助于找到医学 VLM 的最佳对齐方案
损失函数 / 训练策略¶
5 种 DAA 各有不同目标函数。以 DPO 为例:\(\mathcal{L}_{\text{DPO}} = -\log\sigma(\beta\log\frac{\pi_\theta(y_c|x)}{\pi_{\text{ref}}(y_c|x)} - \beta\log\frac{\pi_\theta(y_r|x)}{\pi_{\text{ref}}(y_r|x)})\)。LC-DPO 在此基础上增加长度惩罚项 \(\alpha(|y_c| - |y_r|)\)。KTO 不需要偏好对,使用 Kahneman-Tversky 前景理论的损失。ORPO 则直接在 NLL 损失上附加 odds-ratio 对比项,不需要 reference model,训练最快(相对 DPO 仅 0.7 倍时间)。
实验关键数据¶
主实验¶
基线模型:CheXagent (8B) 和 CheXagent-2 (3B)。训练集:MIMIC-CXR(80k/148k 样本)。测试集:MIMIC-CXR + CheXpert Plus。
| 模型 | Judge | GREEN ↑ | LC-GREEN ↑ | BERTScore ↑ |
|---|---|---|---|---|
| CheXagent (SFT) | - | 0.249 | 0.218 | 0.856 |
| +KTO | GREEN | 0.328 (+31.9%) | 0.293 (+34.1%) | 0.867 |
| +KTO | BERTScore | 0.304 (+21.9%) | 0.279 (+28.2%) | 0.872 (+1.88%) |
| CheXagent-2 (SFT) | - | 0.326 | 0.297 | 0.888 |
| +DPO | GREEN | 0.387 (+18.9%) | 0.339 (+14.1%) | 0.891 |
CheXbert F1 分数(MIMIC-CXR 测试集,Avg. F1):
| 模型 | Judge | Avg. F1 ↑ |
|---|---|---|
| CheXagent (SFT) | - | 47.9 |
| +KTO | BERTScore | 54.6 (+14.0%) |
| CheXagent-2 (SFT) | - | 55.1 |
| +DPO | GREEN | 56.4 (+2.4%) |
| MAIRA-2 (对比) | - | 52.3 |
消融实验¶
长度利用分析(MIMIC-CXR 验证集,GREEN 作为 Judge):
| 配置 | 平均报告长度 | 相对冗余度 | 说明 |
|---|---|---|---|
| CheXagent (SFT) | 55.8 | 1.00 | 基线 |
| +DPO (GREEN选择) | 140.2 | 2.51 | 严重长度膨胀 |
| +DPO (LC-GREEN选择) | 68.7 | 1.23 | LC-GREEN 有效控制 |
| +KTO (LC-GREEN选择) | 55.9 | 1.00 | 几乎无膨胀 |
| 参考报告 | 58.4 | 1.05 | - |
关键发现¶
- BERTScore 作为 Judge 在 CheXbert 分数上出人意料地优于 GREEN:可能因为 GREEN 更容易被长度利用,导致奖励过度优化
- KTO 综合表现最好(CheXagent):不需要偏好对、数据量翻倍、长度膨胀最小
- 对齐税几乎为零:在 6 个额外视觉感知/推理任务上,对齐后的模型与 SFT 基线表现持平
- 廉价的通用 NLG 指标也能有效改善临床表现:即使用 BERTScore 这种通用指标作为 Judge,CheXbert 分数也有显著提升
亮点与洞察¶
- 巧妙利用已有数据避开人工标注瓶颈:公开医学数据集中的参考报告本身就是高质量的"人工反馈",只需配上自动评估指标就能构造偏好对。这种思路可以迁移到任何有参考标准的生成任务(如法律文书、学术写作)
- LC-GREEN 简单有效地解决长度利用:一个简单的除法归一化就将报告长度从 140 词降到 69 词,且性能更好。这种长度控制启发式可广泛应用于所有 DAA 的指标设计
- 通用指标 vs 领域专用指标的意外发现:用便宜的 BERTScore 做 Judge 在 CheXbert F1 上竟然优于昂贵的 GREEN,说明过度优化领域专用指标可能带来反效果
局限性 / 可改进方向¶
- 仅测试了 CheXagent 和 CheXagent-2 两个模型家族,泛化性有待验证
- 未进行大规模放射科医生读者研究,临床评估仍依赖自动指标
- 仅使用离线 DAA,未探索在线 RL 算法(如 RLVR / GRPO 等近期热门方法)
- 未研究偏好数据中可能嵌入的人口统计学偏见(种族、性别等)
- 超参搜索不够充分,不同方法的相对排名可能随更细致的调优而改变
相关工作与启发¶
- vs Sun et al. (2024): 他们使用 reference-free 多模态 Judge 做偏好对齐,本文使用 reference-based 单模态 Judge,优势在于事实 grounding 更可靠且不需要高质量多模态评估器
- vs MAIRA-2: MAIRA-2 使用额外信息(如先前报告)达到高 CheXbert 分数,本文在不使用额外信息的情况下通过对齐达到可比甚至更优的结果
- vs DeepSeek-R1: 作者在局限性中提到 RLVR 是有前景的方向,RRG 任务的 verification function 设计是关键
评分¶
- 新颖性: ⭐⭐⭐⭐ 核心idea并不复杂(用参考报告做Judge),但首次系统化地将 DAA 应用于医学VLM并分析长度利用问题
- 实验充分度: ⭐⭐⭐⭐⭐ 5种DAA、2种Judge、2个模型、多个数据集、CheXbert/GREEN/BERTScore多指标、对齐税分析、定性评估,非常全面
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰、实验设置详尽、图表设计优秀
- 价值: ⭐⭐⭐⭐ 为医学VLM对齐提供了实用且可复现的管线,LC-GREEN和长度利用的分析对社区有普遍参考价值