Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach¶

会议: ACL 2026
arXiv: 2604.11547
代码: https://github.com/tdlhl/MedSSR
领域: 医学NLP / LLM推理
关键词: 医学推理、罕见病、数据合成、半监督强化学习、GRPO

一句话总结¶

本文提出MedSSR框架，通过注入罕见病知识的可控数据合成和"自监督RL→监督RL"的半监督训练范式，高效提升LLM的医学推理能力，在罕见病任务上实现最高+5.93%的提升，突破了现有方法+3%的改进上限。

研究背景与动机¶

领域现状：LLM在医学推理方面的发展受限于高质量推理数据的稀缺。现有方法主要通过从GPT-4o等大型闭源模型蒸馏CoT推理链来初始化策略模型，然后进行RL训练。

现有痛点：(1) 现有医学基准中仅22%是推理密集型问题，其中仅3%涉及罕见病；(2) 从闭源模型蒸馏长推理链成本高昂；(3) 所有现有方法在罕见病上的改进都无法超过+3%的上限——即使使用全监督GRPO；(4) 隐私约束和专业知识要求使得获取复杂医学推理数据极具挑战。

核心矛盾：罕见病数据极度稀缺，而现有方法的数据分布受限于已有标注数据，导致在罕见病任务上的改进天花板很低。同时，合成数据可能包含事实错误，在医学场景中不可接受。

本文目标：在不依赖昂贵的推理链蒸馏的前提下，高效提升LLM在包括罕见病在内的广泛医学推理任务上的表现。

切入角度：(1) 只合成问题（而非长推理链），大幅降低生成成本；(2) 注入罕见病知识来控制合成数据的分布；(3) 用策略模型自身生成伪标签，避免对外部模型的依赖。

核心 idea：合成分布可控的医学推理问题（通过罕见病知识注入），用模型自身的多数投票生成伪标签，然后执行"自监督RL→监督RL"的课程训练。

方法详解¶

整体框架¶

MedSSR包含两个协同组件：(1) 医学知识增强的数据合成管线——从种子问题出发合成新问题，通过阈值 \(\alpha\) 控制罕见病比例，并用策略模型自身生成伪标签；(2) 半监督RL训练策略——先在伪标签合成数据上做自监督RL（内在学习），再在人工标注真实数据上做监督RL（外在学习）。

关键设计¶

知识增强的数据合成:
- 功能：生成分布可控的医学推理问题，特别增加罕见病问题的比例。
- 核心思路：给定两个种子问题 \(\{x_1^s, x_2^s\}\)，使用GPT-4.1合成新问题。通过阈值 \(\alpha\) 控制罕见病比例：采样 \(\rho \sim \text{Uniform}(0,1)\)，当 \(\rho < \alpha\) 时，从罕见病列表中选择实体 \(e\)，用MedCPT检索top-k相关医学文献 \(\mathcal{C}(e)\)，注入到合成prompt中。只合成问题（不合成推理链），每个样本的API token成本远低于蒸馏方法。
- 设计动机：直接合成推理链成本高且可能引入错误。只合成问题则可以用策略模型自身的推理能力来回答，避免依赖外部模型的推理质量。知识注入确保合成问题的医学准确性。
伪标签生成与质量控制:
- 功能：为合成问题生成可靠的答案标签，使其可用于RL训练。
- 核心思路：使用策略模型（base model）对每个合成问题离线采样多个回答，通过多数投票选择最一致的答案作为伪标签。只保留置信度超过阈值的伪标签。
- 设计动机：用外部模型标注可能引入分布不匹配（reward hacking）。用策略模型自身标注确保数据与模型的学习轨迹匹配。多数投票提供了自然的质量过滤。
半监督RL训练策略:
- 功能：有效利用合成数据和真实数据的互补优势，实现从内在到外在的课程学习。
- 核心思路：两阶段课程——(a) 自监督RL：在伪标签合成数据上用GRPO训练，让模型从自身的知识和推理中学习（内在学习），扩大知识覆盖范围特别是罕见病；(b) 监督RL：在人工标注的真实数据上用GRPO训练（外在学习），校准和巩固模型的推理能力。
- 设计动机：直接在合成数据上做监督可能因伪标签噪声导致不稳定。先自监督RL探索再监督RL精炼的课程设计，让模型先广泛学习再精确校准。

损失函数 / 训练策略¶

使用GRPO优化，验证奖励 \(r(y, y') = \mathbb{I}[\text{ans}(y') = y]\)。KL散度约束偏离参考策略。在Qwen3-8B和Llama-3.1-8B-Instruct上验证。

实验关键数据¶

主实验¶

方法	通用医学提升	罕见病提升	每样本API Token消耗
HuatuoGPT-O1	中等	<3%	高（长推理链）
MedReason	中等	<3%	高
全监督GRPO	中等	<3%	低
MedSSR (Llama)	+3.91%	+5.93%	低（仅生成问题）
MedSSR (Qwen3)	显著提升	突破3%上限	低

消融实验¶

配置	通用	罕见病	说明
Full MedSSR	最优	最优	完整框架
w/o 知识注入	下降	显著下降	罕见病数据比例不足
w/o 自监督RL阶段	下降	下降	缺少合成数据的广泛覆盖
w/o 伪标签过滤	下降	下降	噪声标签影响训练
单阶段混合训练	低于两阶段	低于两阶段	课程设计的必要性

关键发现¶

MedSSR是首个在罕见病任务上突破+3%改进上限的方法，达到+5.93%
仅合成问题（不合成推理链）就能有效提升推理能力，且成本大幅降低
半监督RL的两阶段课程优于单阶段混合训练，验证了"先广后精"策略的有效性
罕见病知识注入的阈值 \(\alpha\) 提供了对数据分布的精确控制
在10个医学基准上全面超越现有方法

亮点与洞察¶

只合成问题不合成答案：巧妙地将高成本的"问题+推理链"合成简化为低成本的"仅问题"合成，然后利用策略模型自身的推理能力生成答案。这大幅降低了对闭源API的依赖。
伪标签的自举式学习：用模型自身的多数投票生成伪标签是一种优雅的自举策略，确保训练数据与模型能力匹配。
分布可控的数据合成：通过 \(\alpha\) 阈值精确控制罕见病数据的比例，这为解决医学领域的长尾分布问题提供了直接工具。

局限与展望¶

伪标签质量依赖于策略模型自身的能力——如果模型对某些罕见病完全无知，伪标签可能不可靠
罕见病知识库的覆盖范围可能有限，未涵盖的罕见病仍难以生成高质量问题
仅在8B规模模型上验证，更大规模模型的效果未知
合成问题的多样性受限于种子问题的质量和数量

评分¶

新颖性: ⭐⭐⭐⭐ "合成问题+自伪标签+半监督RL"的组合是新颖且高效的范式
实验充分度: ⭐⭐⭐⭐⭐ 10个医学基准、两个基础模型、充分的消融和对比
写作质量: ⭐⭐⭐⭐ 动机清晰，问题界定精确（罕见病的3%天花板）
价值: ⭐⭐⭐⭐⭐ 为医学LLM的数据稀缺问题提供了实用且高效的解决方案