MDCure: A Scalable Pipeline for Multi-Document Instruction-Following¶
基本信息¶
会议: ACL 2025
arXiv: 2410.23463
代码: yale-nlp/MDCure
机构: Yale University / Google Research
领域: 多文档处理 / 指令微调 / 数据合成
关键词: multi-document, instruction tuning, synthetic data, reward model, data filtering, long-context
一句话总结¶
提出 MDCure 框架,通过两阶段流程(生成+过滤)自动构建高质量的多文档指令数据,并训练 MDCureRM 多目标奖励模型进行数据过滤,使微调后的 LLM(最高 70B)在多文档和长上下文任务上相比基线提升高达 75.1%,且实现跨任务、跨领域的强泛化能力。
研究背景与动机¶
- 多文档处理的重要性:科学、金融、教育、新闻等领域需要跨多文档的摘要、问答和推理能力
- LLM 的局限:虽然 LLM 现在可以处理数十万 token 的输入,但在多文档理解和推理方面仍面临独特挑战:
- 跨文档信息聚合
- 矛盾信息处理
- 冗余信息过滤
- 信息缺口弥合
- 构建连贯叙事
- 现有方法的不足:
- 预训练方法(PRIMERA、QAMDen)需大量预训练数据,不可扩展到更广泛任务
- 人工标注数据成本高且范围有限
- 现有合成数据方法多聚焦单文档或仅支持 QA 任务
- 核心目标:构建首个系统性的多文档指令数据生成框架,无需预训练即可提升 LLM 的多文档能力
方法详解¶
整体框架:MDCure 两阶段流程¶
Phase 1: Generation(生成阶段)¶
- 输入:一组相关文档集合
- 方法:使用精心设计的零样本 prompt 模板生成跨文档指令-回答对
- 模板设计原则:
- 要求答案必须综合多文档信息
- 模板多样化以覆盖不同任务形式(单词答案到详细摘要)
- 鼓励跨文档推理,加强跨文档理解
- 文档来源:基于 NewSHead 数据集的主题相关新闻文档集合
- 生成器模型:GPT-3.5-Turbo(平衡质量和成本),也兼容开源 LLaMA3.1-70B
Phase 2: Filtering(过滤阶段)¶
训练 MDCureRM——一个多目标、多文档专用的奖励模型来评估和过滤生成的指令数据。
MDCureRM 的六维评分标准: 1. 指令质量 2. 回答质量 3. 事实性 4. 多文档相关性 5. 跨文档推理要求 6. 样本多样性
训练数据: - 使用 GPT-4o-mini 和 Mistral-7B 生成不同质量的多文档指令数据(约 20,000 条) - 使用 GPT-4o 对每条样本按六维标准评分 - 目标评分归一化到 [0, 1]
模型架构: - 基于 Llama3-8B,从 Bradley-Terry 奖励模型初始化 - 替换输出层为 6 维线性回归层 - 使用 MSE 损失训练,冻结基座模型 - 推理时生成 6 元素评分,加权平均后选取 Top-N 样本
MDCureRM + PPO¶
MDCureRM 可无缝集成 PPO 策略优化: - 使用 MDCureRM 的奖励信号训练自定义多文档指令生成器 - 使小型开源模型(如 LLaMA3.1-8B-Instruct)生成质量超越 GPT 级别的多文档指令数据 - 无需后续数据过滤
实验¶
实验设置¶
微调模型: - FlanT5-Base (250M) & Large (750M) - Qwen2-Instruct 1.5B & 7B - LLaMA3.1-Instruct 8B & 70B
数据规模:12K, 36K, 72K(最优为 72K)
基线: - 预训练方法:PRIMERA、QAMDen - 长上下文 LLM:LongAlign-7B、ProLong-8B-64k - 通用 LLM:GPT-4o、Gemini 1.5 Pro
评估基准(6 个): - 多文档:SEAM(含 MultiNews、OpenAsp、MuSiQue、ECB+、SciCo)、WikiHop、HotpotQA、Multi-XScience、QMDSCNN - 长上下文:ZeroScrolls
主实验结果(表1 选录)¶
| 模型 | HQA | WikiHop | Multi-XSci | QMDSCNN | SEAM | ZeroScrolls | Avg |
|---|---|---|---|---|---|---|---|
| FlanT5-Base | |||||||
| 无微调 | 4.4 | 45.1 | 38.7 | 48.0 | 1.7 | 13.1 | 14.5 |
| +MDCure | 47.3 | 48.3 | 93.8 | 57.3 | 2.1 | 22.6 | 25.4 |
| Qwen2-7B | |||||||
| 无微调 | 30.5 | 39.6 | 95.6 | 79.3 | 7.4 | 23.9 | 27.4 |
| +MDCure | 44.7 | 46.0 | 95.1 | 87.3 | 10.3 | 29.8 | 32.7 |
| LLaMA3.1-8B | |||||||
| 无微调 | 35.5 | 27.1 | 95.1 | 65.3 | 10.2 | 18.7 | 24.3 |
| +MDCure | 44.7 | 43.7 | 95.3 | 93.8 | 11.9 | 30.9 | 34.0 |
| LLaMA3.1-70B | |||||||
| 无微调 | 53.9 | 38.1 | 95.1 | 88.2 | 13.0 | 36.4 | 37.1 |
| +MDCure | 58.4 | 45.5 | 95.1 | 88.7 | 13.3 | 37.7 | 38.5 |
关键发现¶
- 跨模型一致有效:MDCure 在所有模型家族和尺寸上均带来显著提升
- 提升幅度惊人:FlanT5-Base 平均提升 75.1%,LLaMA3.1-8B 提升 40.2%
- 提升随模型增大递减:70B 模型仅提升 3.8%,说明大模型已有较强的内建能力
MDCureRM 过滤的重要性¶
| 过滤方式 | FlanT5-Base Avg | Qwen2-7B Avg | LLaMA3.1-8B Avg |
|---|---|---|---|
| 无过滤 | 23.2 | 29.9 | 31.1 |
| GPT-3.5 过滤 | 24.1 | 31.4 | 32.1 |
| MDCureRM | 25.4 | 32.7 | 34.0 |
MDCureRM 在所有设置中均优于 GPT-3.5 作为裁判的过滤效果。
跨任务、跨领域泛化¶
- MDCure 不仅提升训练过的多文档任务,还改善了分布外(OOD)任务:多文档共指消解、多文档分类、文本排序等
- 跨领域泛化到科学、文学、媒体等训练数据中不存在的领域
- 单文档长上下文性能(ZeroScrolls)也有提升
兼容性实验¶
- 与 ProLong 结合:在已经很强的长上下文模型上继续提升(Avg 32.1→34.9)
- 开源生成器:LLaMA3.1-70B 作为生成器与 GPT-3.5 效果相当
- PPO 训练:使用 MDCureRM 奖励信号训练 LLaMA3.1-8B-Instruct 作为生成器,质量超越闭源模型
亮点与洞察¶
- 首个多文档指令数据生成框架:填补了多文档后训练数据的空白,方法论贡献显著
- MDCureRM 的双重价值:既是数据过滤器,又可作为 PPO 的奖励信号,使开源模型自主生成高质量数据
- 实用性强:兼容开源和闭源模型,生成流程简单可扩展
- 强泛化能力:从新闻领域训练数据泛化到科学、文学等多领域,超越了领域特定的预训练方法
- 互补性发现:MDCure 数据与 FLAN 等通用指令数据互补,可叠加使用
局限性¶
- 训练数据领域单一:主要使用新闻领域文档,可能限制了某些特定领域的能力
- 依赖文档集合:需要预先组织好的相关文档集合,对于任意文档的适用性需进一步验证
- 评估局限:部分评估依赖 LLM-as-a-Judge,可能引入偏差
- 生成成本:虽然比预训练便宜,但 72K 数据的生成和过滤仍需一定 API 成本
- 规模效应递减:在 70B 模型上提升仅 3.8%,对于超大模型的边际收益有限
相关工作¶
- 多文档建模:PRIMERA (Xiao et al., 2022)、QAMDen (Caciularu et al., 2023)、Longformer (Beltagy et al., 2020)
- 合成数据生成:Self-Instruct (Wang et al., 2023)、Alpaca (Taori et al., 2023)
- 奖励模型:Bradley-Terry RM、多目标 RM (Wu et al., 2023; Wang et al., 2024)
- 长上下文 LLM:LongAlign (Bai et al., 2024)、ProLong (Gao et al., 2024)
评分¶
⭐⭐⭐⭐⭐ (4.5/5)
- 创新性:首个系统性多文档指令数据生成框架,填补重要空白(+1)
- 实验全面性:6 种基准 × 6 种模型家族 × 3 种数据规模 × 多种过滤策略(+1)
- 实用价值:框架和数据集开源,兼容多种模型,可直接使用(+0.5)
- 方法设计:两阶段流程清晰,MDCureRM 的多目标设计合理且有效(+0.5)
- 扣分:训练数据领域较单一、超大模型提升有限(-0.5)
相关论文¶
- [ACL 2025] SOTOPIA-Ω: Dynamic Strategy Injection Learning and Social Instruction Following Evaluation for Social Agents
- [ACL 2025] Principled Content Selection to Generate Diverse and Personalized Multi-Document Summaries
- [ACL 2025] ProxAnn: Use-Oriented Evaluations of Topic Models and Document Clustering
- [ACL 2025] Unlocking Speech Instruction Data Potential with Query Rewriting
- [ACL 2025] Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction