跳转至

Online Iterative Self-Alignment for Radiology Report Generation

会议: ACL 2025
arXiv: 2505.11983
代码: 无
领域: 文本生成
关键词: 放射学报告生成, 自对齐, 迭代优化, 多目标偏好, RLHF

一句话总结

提出在线迭代自对齐(OISA)方法用于放射学报告生成——四阶段循环(自生成多样数据→自评估多目标偏好→自对齐多目标优化→自迭代进一步提升),无需额外人工标注即可迭代提升报告质量,在多个评估指标上达到 SOTA。

研究背景与动机

  1. 领域现状:放射学报告生成(RRG)模型通常通过 SFT 在影像-报告对上训练,近期研究开始用 RL 做后训练对齐。但高质量标注数据有限,存在过拟合和泛化问题。
  2. 现有痛点:(a) 人工标注偏好数据成本极高——需要放射科专家逐一评估报告质量;(b) 单次对齐后模型无法继续自我改进;(c) RRG 是多目标任务(临床准确性+语言流畅度+完整性),单一奖励信号不够。
  3. 核心矛盾:对齐需要大量偏好数据,但医疗领域的专家标注极其昂贵且不可扩展。
  4. 本文要解决什么? 构建一个不依赖额外人工标注、可迭代自我改进的 RRG 对齐框架。
  5. 切入角度:让模型自己生成数据→自己评估→自己对齐→迭代改进——完全自主的改进循环。
  6. 核心idea一句话:四阶段自循环(生成-评估-对齐-迭代)实现无人工标注的持续改进。

方法详解

整体框架

OISA 的四阶段循环:(1) Self-Generation——让 RRG 模型在不同采样策略下生成多样化报告;(2) Self-Evaluation——模型自评估每份报告在多个临床目标上的质量,构造偏好对;(3) Self-Alignment——用多目标 DPO 进行偏好优化;(4) Self-Iteration——用对齐后的模型重新进入第一阶段,循环改进。

关键设计

  1. 多样化自生成(Self-Generation):
  2. 做什么:为每张影像生成多份不同风格的候选报告
  3. 核心思路:使用不同的采样温度和提示变体来增加报告的多样性
  4. 设计动机:偏好对齐需要"好"和"不好"的对比——多样化生成自然产生不同质量的报告

  5. 多目标自评估(Self-Evaluation):

  6. 做什么:在多个临床维度上评估每份报告的质量
  7. 核心思路:定义多个评估目标(如疾病检测准确性、描述完整性、语言规范性),模型对每个目标独立打分,构造多目标偏好对
  8. 设计动机:单一分数无法区分"准确但不完整"和"完整但不准确"的报告——多目标评估更精确

  9. 多目标自对齐(Self-Alignment):

  10. 做什么:用多目标 DPO 进行偏好优化
  11. 核心思路:对每个目标独立构造偏好对,用加权 DPO 同时优化多个目标
  12. 设计动机:不同临床目标可能冲突(如详细描述 vs 简洁规范),需要多目标平衡

  13. 自迭代(Self-Iteration):

  14. 做什么:将对齐后的模型作为新的起点重新循环
  15. 设计动机:单次对齐改进有限,迭代可持续提升——类似 Self-Play

损失函数 / 训练策略

  • 多目标 DPO 损失——各目标的 DPO 损失加权组合
  • 通常 2-3 次迭代即可收敛

实验关键数据

主实验

方法 临床准确性(↑) 语言质量(↑) 完整性(↑)
SFT baseline 基线 基线 基线
单次 DPO 中高 中高
OISA (迭代) SOTA SOTA SOTA

消融实验

配置 效果 说明
w/o 自评估(随机偏好对) 性能下降 自评估质量是关键
w/o 多目标(单目标DPO) 某些维度退化 多目标平衡必要
w/o 迭代(单次对齐) 改进有限 迭代持续提升
1次 vs 2次 vs 3次迭代 2-3次最优 之后边际收益递减

关键发现

  • 自迭代能持续提升性能——每次迭代都能在上一轮基础上改进,但 3 次后收敛
  • 多目标评估比单目标更能发现报告的不同缺陷——避免了"以偏概全"
  • 完全不需要额外的人工标注——模型自己生成、评估和优化
  • OISA 可泛化到不同的 RRG 架构——框架无关

亮点与洞察

  • "四阶段自循环"是一个通用的自改进框架——不仅适用于 RRG,任何有明确评估指标的生成任务都可以使用。
  • 多目标自评估解决了医疗报告的多维度质量要求——不同于通用文本的"好不好",医疗报告有精确的临床维度。
  • 完全自主的改进循环消除了对稀缺专家标注的依赖——对医疗AI的实际部署意义重大。
  • 自迭代与 Self-Play、SPIN 等方法理念相通——通过与自身过去版本竞争来提升。

局限性 / 可改进方向

  • 自评估的质量是瓶颈——如果评估不准确,对齐方向会偏离
  • 仅在胸部X光报告上验证——CT等其他影像模态未测试
  • 迭代可能导致某些罕见疾病描述的退化(模型坍缩风险)
  • 未与人类放射科医师的报告做直接对比

相关工作与启发

  • vs RADAR: RADAR 用外部知识补充;OISA 用自对齐迭代改进——互补方向
  • vs Self-Play (SPIN): 类似的自博弈思想但应用于医疗报告生成
  • vs Constitutional AI: 类似的自评估-自改进循环但添加了多目标和迭代维度

评分

  • 新颖性: ⭐⭐⭐⭐ 四阶段自循环+多目标自评估在RRG中新颖
  • 实验充分度: ⭐⭐⭐⭐ 消融+迭代分析+多指标评估
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰
  • 价值: ⭐⭐⭐⭐ 对医疗报告生成的实用改进