CheXalign: Preference Fine-tuning in Chest X-ray Interpretation Models without Human Feedback¶

会议: ACL 2025
arXiv: 2410.07025
代码: https://github.com/StanfordMIMI/CheXalign
领域: 医学图像
关键词: 偏好对齐, 放射报告生成, DPO, 胸部X光, 长度利用

一句话总结¶

CheXalign 提出了一种无需放射科医生反馈的自动化偏好数据生成管线，利用公开数据集中的参考报告和基于参考的评估指标（如 GREEN、BERTScore）构造偏好对，通过 DPO 等直接对齐算法对胸部X光报告生成模型进行偏好微调，在 MIMIC-CXR 上取得 SOTA CheXbert 分数。

研究背景与动机¶

领域现状：胸部X光（CXR）是临床中最常见的影像检查之一，全球每年约 14 亿次。视觉-语言模型（VLM）在放射报告生成（RRG）任务中展现出辅助放射科医生的潜力，主流做法是对 VLM 进行监督微调（SFT）。
现有痛点：SFT 存在根本性不足——训练过程中 "坏回复" 的对数概率会随着 "好回复" 一起不经意地升高，导致模型仍然会产生不符合事实的幻觉。在放射学这种高风险领域，幻觉可能直接影响诊断和治疗决策。通用领域的 LLM 已经广泛采用 RLHF/DPO 等偏好微调来解决此问题，但医学 VLM 领域几乎没有探索过。
核心矛盾：偏好微调需要大量高质量的偏好数据，而在放射学领域获取放射科医生的反馈成本极高、不可扩展。
本文要解决什么？ (a) 如何在不使用人工反馈的情况下大规模生成高质量偏好数据；(b) 如何系统性地将 DAA 算法应用于医学 VLM；(c) 如何应对奖励过度优化中的长度利用问题。
切入角度：公开医学数据集（如 MIMIC-CXR）已包含放射科医生撰写的参考报告，作者提出利用这些参考报告配合基于参考的评估指标（GREEN、BERTScore）作为自动化 Judge，代替人工反馈。
核心idea一句话：用参考报告 + 自动评估指标构造偏好对，绕过了放射科医生反馈的瓶颈，实现低成本、可扩展的医学 VLM 对齐。

方法详解¶

整体框架¶

输入是 CXR 图像 + 放射科医生撰写的参考报告数据集（如 MIMIC-CXR），输出是经过偏好微调的 VLM。管线分三步：(1) 从 SFT 基线模型重复采样 N=4 个候选报告，(2) 用自动化 Judge（基于参考的指标）对每个候选报告打分，(3) 取最高分和最低分构成 chosen/rejected 偏好对，输入 DAA 算法进行偏好微调。

关键设计¶

自动化偏好数据生成:
做什么：无需额外人工标注，自动构造偏好对
核心思路：对每个训练样本，用 SFT 模型采样 4 个候选报告，用参考报告的 GREEN 或 BERTScore 打分，最高分为 chosen、最低分为 rejected。若 4 个分数全相同则丢弃该样本（GREEN 丢弃约 1.6%，BERTScore 仅 0.04%）
设计动机：利用已有数据集中的参考报告作为事实基准，使偏好数据具有临床相关的事实 grounding，无需多模态 Judge
长度控制 GREEN 分数 (LC-GREEN):
做什么：缓解奖励过度优化中的长度利用问题
核心思路：\(\text{LC-GREEN} := \text{GREEN} / \max(\text{rel\_verbosity}, 1)\)，其中 rel_verbosity 是候选报告相对于参考报告的相对冗余度（词数比）
设计动机：实验发现 GREEN 作为 Judge 时，DPO 训练后的报告平均长度从 55.8 词膨胀到 140.2 词（2.51 倍冗余），主要是语义或句法重复。LC-GREEN 通过惩罚过长报告来遏制这一现象
系统化 DAA 算法比较:
做什么：比较 5 种直接对齐算法在 RRG 任务上的表现
涵盖算法：DPO（基线）、LC-DPO（显式长度正则化，额外超参 \(\alpha\)）、IPO（放松 Bradley-Terry 模型假设）、KTO（无需偏好对，只需二元反馈，数据量翻倍）、ORPO（在 SFT 损失后附加负梯度惩罚项）
设计动机：不同 DAA 在长度控制、数据需求、计算效率上各有权衡，系统比较有助于找到医学 VLM 的最佳对齐方案

损失函数 / 训练策略¶

5 种 DAA 各有不同目标函数。以 DPO 为例：\(\mathcal{L}_{\text{DPO}} = -\log\sigma(\beta\log\frac{\pi_\theta(y_c|x)}{\pi_{\text{ref}}(y_c|x)} - \beta\log\frac{\pi_\theta(y_r|x)}{\pi_{\text{ref}}(y_r|x)})\)。LC-DPO 在此基础上增加长度惩罚项 \(\alpha(|y_c| - |y_r|)\)。KTO 不需要偏好对，使用 Kahneman-Tversky 前景理论的损失。ORPO 则直接在 NLL 损失上附加 odds-ratio 对比项，不需要 reference model，训练最快（相对 DPO 仅 0.7 倍时间）。

实验关键数据¶

主实验¶

基线模型：CheXagent (8B) 和 CheXagent-2 (3B)。训练集：MIMIC-CXR（80k/148k 样本）。测试集：MIMIC-CXR + CheXpert Plus。

模型	Judge	GREEN ↑	LC-GREEN ↑	BERTScore ↑
CheXagent (SFT)	-	0.249	0.218	0.856
+KTO	GREEN	0.328 (+31.9%)	0.293 (+34.1%)	0.867
+KTO	BERTScore	0.304 (+21.9%)	0.279 (+28.2%)	0.872 (+1.88%)
CheXagent-2 (SFT)	-	0.326	0.297	0.888
+DPO	GREEN	0.387 (+18.9%)	0.339 (+14.1%)	0.891

CheXbert F1 分数（MIMIC-CXR 测试集，Avg. F1）：

模型	Judge	Avg. F1 ↑
CheXagent (SFT)	-	47.9
+KTO	BERTScore	54.6 (+14.0%)
CheXagent-2 (SFT)	-	55.1
+DPO	GREEN	56.4 (+2.4%)
MAIRA-2 (对比)	-	52.3

消融实验¶

长度利用分析（MIMIC-CXR 验证集，GREEN 作为 Judge）：

配置	平均报告长度	相对冗余度	说明
CheXagent (SFT)	55.8	1.00	基线
+DPO (GREEN选择)	140.2	2.51	严重长度膨胀
+DPO (LC-GREEN选择)	68.7	1.23	LC-GREEN 有效控制
+KTO (LC-GREEN选择)	55.9	1.00	几乎无膨胀
参考报告	58.4	1.05	-

关键发现¶

BERTScore 作为 Judge 在 CheXbert 分数上出人意料地优于 GREEN：可能因为 GREEN 更容易被长度利用，导致奖励过度优化
KTO 综合表现最好（CheXagent）：不需要偏好对、数据量翻倍、长度膨胀最小
对齐税几乎为零：在 6 个额外视觉感知/推理任务上，对齐后的模型与 SFT 基线表现持平
廉价的通用 NLG 指标也能有效改善临床表现：即使用 BERTScore 这种通用指标作为 Judge，CheXbert 分数也有显著提升

亮点与洞察¶

巧妙利用已有数据避开人工标注瓶颈：公开医学数据集中的参考报告本身就是高质量的"人工反馈"，只需配上自动评估指标就能构造偏好对。这种思路可以迁移到任何有参考标准的生成任务（如法律文书、学术写作）
LC-GREEN 简单有效地解决长度利用：一个简单的除法归一化就将报告长度从 140 词降到 69 词，且性能更好。这种长度控制启发式可广泛应用于所有 DAA 的指标设计
通用指标 vs 领域专用指标的意外发现：用便宜的 BERTScore 做 Judge 在 CheXbert F1 上竟然优于昂贵的 GREEN，说明过度优化领域专用指标可能带来反效果

局限性 / 可改进方向¶

仅测试了 CheXagent 和 CheXagent-2 两个模型家族，泛化性有待验证
未进行大规模放射科医生读者研究，临床评估仍依赖自动指标
仅使用离线 DAA，未探索在线 RL 算法（如 RLVR / GRPO 等近期热门方法）
未研究偏好数据中可能嵌入的人口统计学偏见（种族、性别等）
超参搜索不够充分，不同方法的相对排名可能随更细致的调优而改变

评分¶

新颖性: ⭐⭐⭐⭐ 核心idea并不复杂（用参考报告做Judge），但首次系统化地将 DAA 应用于医学VLM并分析长度利用问题
实验充分度: ⭐⭐⭐⭐⭐ 5种DAA、2种Judge、2个模型、多个数据集、CheXbert/GREEN/BERTScore多指标、对齐税分析、定性评估，非常全面
写作质量: ⭐⭐⭐⭐⭐ 结构清晰、实验设置详尽、图表设计优秀
价值: ⭐⭐⭐⭐ 为医学VLM对齐提供了实用且可复现的管线，LC-GREEN和长度利用的分析对社区有普遍参考价值