MDCure: A Scalable Pipeline for Multi-Document Instruction-Following¶

基本信息¶

会议: ACL 2025
arXiv: 2410.23463
代码: yale-nlp/MDCure
机构: Yale University / Google Research
领域: 多文档处理 / 指令微调 / 数据合成
关键词: multi-document, instruction tuning, synthetic data, reward model, data filtering, long-context

一句话总结¶

提出 MDCure 框架，通过两阶段流程（生成+过滤）自动构建高质量的多文档指令数据，并训练 MDCureRM 多目标奖励模型进行数据过滤，使微调后的 LLM（最高 70B）在多文档和长上下文任务上相比基线提升高达 75.1%，且实现跨任务、跨领域的强泛化能力。

研究背景与动机¶

多文档处理的重要性：科学、金融、教育、新闻等领域需要跨多文档的摘要、问答和推理能力
LLM 的局限：虽然 LLM 现在可以处理数十万 token 的输入，但在多文档理解和推理方面仍面临独特挑战：
- 跨文档信息聚合
- 矛盾信息处理
- 冗余信息过滤
- 信息缺口弥合
- 构建连贯叙事
现有方法的不足：
- 预训练方法（PRIMERA、QAMDen）需大量预训练数据，不可扩展到更广泛任务
- 人工标注数据成本高且范围有限
- 现有合成数据方法多聚焦单文档或仅支持 QA 任务
核心目标：构建首个系统性的多文档指令数据生成框架，无需预训练即可提升 LLM 的多文档能力

方法详解¶

整体框架：MDCure 两阶段流程¶

Phase 1: Generation（生成阶段）¶

输入：一组相关文档集合
方法：使用精心设计的零样本 prompt 模板生成跨文档指令-回答对
模板设计原则：
- 要求答案必须综合多文档信息
- 模板多样化以覆盖不同任务形式（单词答案到详细摘要）
- 鼓励跨文档推理，加强跨文档理解
文档来源：基于 NewSHead 数据集的主题相关新闻文档集合
生成器模型：GPT-3.5-Turbo（平衡质量和成本），也兼容开源 LLaMA3.1-70B

Phase 2: Filtering（过滤阶段）¶

训练 MDCureRM——一个多目标、多文档专用的奖励模型来评估和过滤生成的指令数据。

MDCureRM 的六维评分标准： 1. 指令质量 2. 回答质量 3. 事实性 4. 多文档相关性 5. 跨文档推理要求 6. 样本多样性

训练数据： - 使用 GPT-4o-mini 和 Mistral-7B 生成不同质量的多文档指令数据（约 20,000 条） - 使用 GPT-4o 对每条样本按六维标准评分 - 目标评分归一化到 [0, 1]

模型架构： - 基于 Llama3-8B，从 Bradley-Terry 奖励模型初始化 - 替换输出层为 6 维线性回归层 - 使用 MSE 损失训练，冻结基座模型 - 推理时生成 6 元素评分，加权平均后选取 Top-N 样本

MDCureRM + PPO¶

MDCureRM 可无缝集成 PPO 策略优化： - 使用 MDCureRM 的奖励信号训练自定义多文档指令生成器 - 使小型开源模型（如 LLaMA3.1-8B-Instruct）生成质量超越 GPT 级别的多文档指令数据 - 无需后续数据过滤

实验¶

实验设置¶

微调模型： - FlanT5-Base (250M) & Large (750M) - Qwen2-Instruct 1.5B & 7B - LLaMA3.1-Instruct 8B & 70B

数据规模：12K, 36K, 72K（最优为 72K）

基线： - 预训练方法：PRIMERA、QAMDen - 长上下文 LLM：LongAlign-7B、ProLong-8B-64k - 通用 LLM：GPT-4o、Gemini 1.5 Pro

评估基准（6 个）： - 多文档：SEAM（含 MultiNews、OpenAsp、MuSiQue、ECB+、SciCo）、WikiHop、HotpotQA、Multi-XScience、QMDSCNN - 长上下文：ZeroScrolls

主实验结果（表1 选录）¶

模型	HQA	WikiHop	Multi-XSci	QMDSCNN	SEAM	ZeroScrolls	Avg
FlanT5-Base
无微调	4.4	45.1	38.7	48.0	1.7	13.1	14.5
+MDCure	47.3	48.3	93.8	57.3	2.1	22.6	25.4
Qwen2-7B
无微调	30.5	39.6	95.6	79.3	7.4	23.9	27.4
+MDCure	44.7	46.0	95.1	87.3	10.3	29.8	32.7
LLaMA3.1-8B
无微调	35.5	27.1	95.1	65.3	10.2	18.7	24.3
+MDCure	44.7	43.7	95.3	93.8	11.9	30.9	34.0
LLaMA3.1-70B
无微调	53.9	38.1	95.1	88.2	13.0	36.4	37.1
+MDCure	58.4	45.5	95.1	88.7	13.3	37.7	38.5

关键发现¶

跨模型一致有效：MDCure 在所有模型家族和尺寸上均带来显著提升
提升幅度惊人：FlanT5-Base 平均提升 75.1%，LLaMA3.1-8B 提升 40.2%
提升随模型增大递减：70B 模型仅提升 3.8%，说明大模型已有较强的内建能力

MDCureRM 过滤的重要性¶

过滤方式	FlanT5-Base Avg	Qwen2-7B Avg	LLaMA3.1-8B Avg
无过滤	23.2	29.9	31.1
GPT-3.5 过滤	24.1	31.4	32.1
MDCureRM	25.4	32.7	34.0

MDCureRM 在所有设置中均优于 GPT-3.5 作为裁判的过滤效果。

跨任务、跨领域泛化¶

MDCure 不仅提升训练过的多文档任务，还改善了分布外（OOD）任务：多文档共指消解、多文档分类、文本排序等
跨领域泛化到科学、文学、媒体等训练数据中不存在的领域
单文档长上下文性能（ZeroScrolls）也有提升

兼容性实验¶

与 ProLong 结合：在已经很强的长上下文模型上继续提升（Avg 32.1→34.9）
开源生成器：LLaMA3.1-70B 作为生成器与 GPT-3.5 效果相当
PPO 训练：使用 MDCureRM 奖励信号训练 LLaMA3.1-8B-Instruct 作为生成器，质量超越闭源模型

亮点与洞察¶

首个多文档指令数据生成框架：填补了多文档后训练数据的空白，方法论贡献显著
MDCureRM 的双重价值：既是数据过滤器，又可作为 PPO 的奖励信号，使开源模型自主生成高质量数据
实用性强：兼容开源和闭源模型，生成流程简单可扩展
强泛化能力：从新闻领域训练数据泛化到科学、文学等多领域，超越了领域特定的预训练方法
互补性发现：MDCure 数据与 FLAN 等通用指令数据互补，可叠加使用

局限性¶

训练数据领域单一：主要使用新闻领域文档，可能限制了某些特定领域的能力
依赖文档集合：需要预先组织好的相关文档集合，对于任意文档的适用性需进一步验证
评估局限：部分评估依赖 LLM-as-a-Judge，可能引入偏差
生成成本：虽然比预训练便宜，但 72K 数据的生成和过滤仍需一定 API 成本
规模效应递减：在 70B 模型上提升仅 3.8%，对于超大模型的边际收益有限

评分¶

⭐⭐⭐⭐⭐ (4.5/5)

创新性：首个系统性多文档指令数据生成框架，填补重要空白（+1）
实验全面性：6 种基准 × 6 种模型家族 × 3 种数据规模 × 多种过滤策略（+1）
实用价值：框架和数据集开源，兼容多种模型，可直接使用（+0.5）
方法设计：两阶段流程清晰，MDCureRM 的多目标设计合理且有效（+0.5）
扣分：训练数据领域较单一、超大模型提升有限（-0.5）