Online Iterative Self-Alignment for Radiology Report Generation¶

会议: ACL 2025
arXiv: 2505.11983
代码: 无
领域: 文本生成
关键词: 放射学报告生成, 自对齐, 迭代优化, 多目标偏好, RLHF

一句话总结¶

提出在线迭代自对齐（OISA）方法用于放射学报告生成——四阶段循环（自生成多样数据→自评估多目标偏好→自对齐多目标优化→自迭代进一步提升），无需额外人工标注即可迭代提升报告质量，在多个评估指标上达到 SOTA。

研究背景与动机¶

领域现状：放射学报告生成（RRG）模型通常通过 SFT 在影像-报告对上训练，近期研究开始用 RL 做后训练对齐。但高质量标注数据有限，存在过拟合和泛化问题。
现有痛点：(a) 人工标注偏好数据成本极高——需要放射科专家逐一评估报告质量；(b) 单次对齐后模型无法继续自我改进；(c) RRG 是多目标任务（临床准确性+语言流畅度+完整性），单一奖励信号不够。
核心矛盾：对齐需要大量偏好数据，但医疗领域的专家标注极其昂贵且不可扩展。
本文要解决什么？ 构建一个不依赖额外人工标注、可迭代自我改进的 RRG 对齐框架。
切入角度：让模型自己生成数据→自己评估→自己对齐→迭代改进——完全自主的改进循环。
核心idea一句话：四阶段自循环（生成-评估-对齐-迭代）实现无人工标注的持续改进。

方法详解¶

整体框架¶

OISA 的四阶段循环：(1) Self-Generation——让 RRG 模型在不同采样策略下生成多样化报告；(2) Self-Evaluation——模型自评估每份报告在多个临床目标上的质量，构造偏好对；(3) Self-Alignment——用多目标 DPO 进行偏好优化；(4) Self-Iteration——用对齐后的模型重新进入第一阶段，循环改进。

关键设计¶

多样化自生成（Self-Generation）:
做什么：为每张影像生成多份不同风格的候选报告
核心思路：使用不同的采样温度和提示变体来增加报告的多样性
设计动机：偏好对齐需要"好"和"不好"的对比——多样化生成自然产生不同质量的报告
多目标自评估（Self-Evaluation）:
做什么：在多个临床维度上评估每份报告的质量
核心思路：定义多个评估目标（如疾病检测准确性、描述完整性、语言规范性），模型对每个目标独立打分，构造多目标偏好对
设计动机：单一分数无法区分"准确但不完整"和"完整但不准确"的报告——多目标评估更精确
多目标自对齐（Self-Alignment）:
做什么：用多目标 DPO 进行偏好优化
核心思路：对每个目标独立构造偏好对，用加权 DPO 同时优化多个目标
设计动机：不同临床目标可能冲突（如详细描述 vs 简洁规范），需要多目标平衡
自迭代（Self-Iteration）:
做什么：将对齐后的模型作为新的起点重新循环
设计动机：单次对齐改进有限，迭代可持续提升——类似 Self-Play

损失函数 / 训练策略¶

多目标 DPO 损失——各目标的 DPO 损失加权组合
通常 2-3 次迭代即可收敛

实验关键数据¶

主实验¶

方法	临床准确性(↑)	语言质量(↑)	完整性(↑)
SFT baseline	基线	基线	基线
单次 DPO	中高	中高	中
OISA (迭代)	SOTA	SOTA	SOTA

消融实验¶

配置	效果	说明
w/o 自评估（随机偏好对）	性能下降	自评估质量是关键
w/o 多目标（单目标DPO）	某些维度退化	多目标平衡必要
w/o 迭代（单次对齐）	改进有限	迭代持续提升
1次 vs 2次 vs 3次迭代	2-3次最优	之后边际收益递减

关键发现¶

自迭代能持续提升性能——每次迭代都能在上一轮基础上改进，但 3 次后收敛
多目标评估比单目标更能发现报告的不同缺陷——避免了"以偏概全"
完全不需要额外的人工标注——模型自己生成、评估和优化
OISA 可泛化到不同的 RRG 架构——框架无关

亮点与洞察¶

"四阶段自循环"是一个通用的自改进框架——不仅适用于 RRG，任何有明确评估指标的生成任务都可以使用。
多目标自评估解决了医疗报告的多维度质量要求——不同于通用文本的"好不好"，医疗报告有精确的临床维度。
完全自主的改进循环消除了对稀缺专家标注的依赖——对医疗AI的实际部署意义重大。
自迭代与 Self-Play、SPIN 等方法理念相通——通过与自身过去版本竞争来提升。

局限性 / 可改进方向¶

自评估的质量是瓶颈——如果评估不准确，对齐方向会偏离
仅在胸部X光报告上验证——CT等其他影像模态未测试
迭代可能导致某些罕见疾病描述的退化（模型坍缩风险）
未与人类放射科医师的报告做直接对比

评分¶

新颖性: ⭐⭐⭐⭐ 四阶段自循环+多目标自评估在RRG中新颖
实验充分度: ⭐⭐⭐⭐ 消融+迭代分析+多指标评估
写作质量: ⭐⭐⭐⭐ 方法描述清晰
价值: ⭐⭐⭐⭐ 对医疗报告生成的实用改进