Online Iterative Self-Alignment for Radiology Report Generation¶
会议: ACL 2025
arXiv: 2505.11983
代码: 无
领域: 文本生成
关键词: 放射学报告生成, 自对齐, 迭代优化, 多目标偏好, RLHF
一句话总结¶
提出在线迭代自对齐(OISA)方法用于放射学报告生成——四阶段循环(自生成多样数据→自评估多目标偏好→自对齐多目标优化→自迭代进一步提升),无需额外人工标注即可迭代提升报告质量,在多个评估指标上达到 SOTA。
研究背景与动机¶
- 领域现状:放射学报告生成(RRG)模型通常通过 SFT 在影像-报告对上训练,近期研究开始用 RL 做后训练对齐。但高质量标注数据有限,存在过拟合和泛化问题。
- 现有痛点:(a) 人工标注偏好数据成本极高——需要放射科专家逐一评估报告质量;(b) 单次对齐后模型无法继续自我改进;(c) RRG 是多目标任务(临床准确性+语言流畅度+完整性),单一奖励信号不够。
- 核心矛盾:对齐需要大量偏好数据,但医疗领域的专家标注极其昂贵且不可扩展。
- 本文要解决什么? 构建一个不依赖额外人工标注、可迭代自我改进的 RRG 对齐框架。
- 切入角度:让模型自己生成数据→自己评估→自己对齐→迭代改进——完全自主的改进循环。
- 核心idea一句话:四阶段自循环(生成-评估-对齐-迭代)实现无人工标注的持续改进。
方法详解¶
整体框架¶
OISA 的四阶段循环:(1) Self-Generation——让 RRG 模型在不同采样策略下生成多样化报告;(2) Self-Evaluation——模型自评估每份报告在多个临床目标上的质量,构造偏好对;(3) Self-Alignment——用多目标 DPO 进行偏好优化;(4) Self-Iteration——用对齐后的模型重新进入第一阶段,循环改进。
关键设计¶
- 多样化自生成(Self-Generation):
- 做什么:为每张影像生成多份不同风格的候选报告
- 核心思路:使用不同的采样温度和提示变体来增加报告的多样性
-
设计动机:偏好对齐需要"好"和"不好"的对比——多样化生成自然产生不同质量的报告
-
多目标自评估(Self-Evaluation):
- 做什么:在多个临床维度上评估每份报告的质量
- 核心思路:定义多个评估目标(如疾病检测准确性、描述完整性、语言规范性),模型对每个目标独立打分,构造多目标偏好对
-
设计动机:单一分数无法区分"准确但不完整"和"完整但不准确"的报告——多目标评估更精确
-
多目标自对齐(Self-Alignment):
- 做什么:用多目标 DPO 进行偏好优化
- 核心思路:对每个目标独立构造偏好对,用加权 DPO 同时优化多个目标
-
设计动机:不同临床目标可能冲突(如详细描述 vs 简洁规范),需要多目标平衡
-
自迭代(Self-Iteration):
- 做什么:将对齐后的模型作为新的起点重新循环
- 设计动机:单次对齐改进有限,迭代可持续提升——类似 Self-Play
损失函数 / 训练策略¶
- 多目标 DPO 损失——各目标的 DPO 损失加权组合
- 通常 2-3 次迭代即可收敛
实验关键数据¶
主实验¶
| 方法 | 临床准确性(↑) | 语言质量(↑) | 完整性(↑) |
|---|---|---|---|
| SFT baseline | 基线 | 基线 | 基线 |
| 单次 DPO | 中高 | 中高 | 中 |
| OISA (迭代) | SOTA | SOTA | SOTA |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| w/o 自评估(随机偏好对) | 性能下降 | 自评估质量是关键 |
| w/o 多目标(单目标DPO) | 某些维度退化 | 多目标平衡必要 |
| w/o 迭代(单次对齐) | 改进有限 | 迭代持续提升 |
| 1次 vs 2次 vs 3次迭代 | 2-3次最优 | 之后边际收益递减 |
关键发现¶
- 自迭代能持续提升性能——每次迭代都能在上一轮基础上改进,但 3 次后收敛
- 多目标评估比单目标更能发现报告的不同缺陷——避免了"以偏概全"
- 完全不需要额外的人工标注——模型自己生成、评估和优化
- OISA 可泛化到不同的 RRG 架构——框架无关
亮点与洞察¶
- "四阶段自循环"是一个通用的自改进框架——不仅适用于 RRG,任何有明确评估指标的生成任务都可以使用。
- 多目标自评估解决了医疗报告的多维度质量要求——不同于通用文本的"好不好",医疗报告有精确的临床维度。
- 完全自主的改进循环消除了对稀缺专家标注的依赖——对医疗AI的实际部署意义重大。
- 自迭代与 Self-Play、SPIN 等方法理念相通——通过与自身过去版本竞争来提升。
局限性 / 可改进方向¶
- 自评估的质量是瓶颈——如果评估不准确,对齐方向会偏离
- 仅在胸部X光报告上验证——CT等其他影像模态未测试
- 迭代可能导致某些罕见疾病描述的退化(模型坍缩风险)
- 未与人类放射科医师的报告做直接对比
相关工作与启发¶
- vs RADAR: RADAR 用外部知识补充;OISA 用自对齐迭代改进——互补方向
- vs Self-Play (SPIN): 类似的自博弈思想但应用于医疗报告生成
- vs Constitutional AI: 类似的自评估-自改进循环但添加了多目标和迭代维度
评分¶
- 新颖性: ⭐⭐⭐⭐ 四阶段自循环+多目标自评估在RRG中新颖
- 实验充分度: ⭐⭐⭐⭐ 消融+迭代分析+多指标评估
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰
- 价值: ⭐⭐⭐⭐ 对医疗报告生成的实用改进