跳转至

MDCure: A Scalable Pipeline for Multi-Document Instruction-Following

基本信息

会议: ACL 2025
arXiv: 2410.23463
代码: yale-nlp/MDCure
机构: Yale University / Google Research
领域: 多文档处理 / 指令微调 / 数据合成
关键词: multi-document, instruction tuning, synthetic data, reward model, data filtering, long-context

一句话总结

提出 MDCure 框架,通过两阶段流程(生成+过滤)自动构建高质量的多文档指令数据,并训练 MDCureRM 多目标奖励模型进行数据过滤,使微调后的 LLM(最高 70B)在多文档和长上下文任务上相比基线提升高达 75.1%,且实现跨任务、跨领域的强泛化能力。

研究背景与动机

  • 多文档处理的重要性:科学、金融、教育、新闻等领域需要跨多文档的摘要、问答和推理能力
  • LLM 的局限:虽然 LLM 现在可以处理数十万 token 的输入,但在多文档理解和推理方面仍面临独特挑战:
    • 跨文档信息聚合
    • 矛盾信息处理
    • 冗余信息过滤
    • 信息缺口弥合
    • 构建连贯叙事
  • 现有方法的不足
    • 预训练方法(PRIMERA、QAMDen)需大量预训练数据,不可扩展到更广泛任务
    • 人工标注数据成本高且范围有限
    • 现有合成数据方法多聚焦单文档或仅支持 QA 任务
  • 核心目标:构建首个系统性的多文档指令数据生成框架,无需预训练即可提升 LLM 的多文档能力

方法详解

整体框架:MDCure 两阶段流程

Phase 1: Generation(生成阶段)

  • 输入:一组相关文档集合
  • 方法:使用精心设计的零样本 prompt 模板生成跨文档指令-回答对
  • 模板设计原则
    • 要求答案必须综合多文档信息
    • 模板多样化以覆盖不同任务形式(单词答案到详细摘要)
    • 鼓励跨文档推理,加强跨文档理解
  • 文档来源:基于 NewSHead 数据集的主题相关新闻文档集合
  • 生成器模型:GPT-3.5-Turbo(平衡质量和成本),也兼容开源 LLaMA3.1-70B

Phase 2: Filtering(过滤阶段)

训练 MDCureRM——一个多目标、多文档专用的奖励模型来评估和过滤生成的指令数据。

MDCureRM 的六维评分标准: 1. 指令质量 2. 回答质量 3. 事实性 4. 多文档相关性 5. 跨文档推理要求 6. 样本多样性

训练数据: - 使用 GPT-4o-mini 和 Mistral-7B 生成不同质量的多文档指令数据(约 20,000 条) - 使用 GPT-4o 对每条样本按六维标准评分 - 目标评分归一化到 [0, 1]

模型架构: - 基于 Llama3-8B,从 Bradley-Terry 奖励模型初始化 - 替换输出层为 6 维线性回归层 - 使用 MSE 损失训练,冻结基座模型 - 推理时生成 6 元素评分,加权平均后选取 Top-N 样本

MDCureRM + PPO

MDCureRM 可无缝集成 PPO 策略优化: - 使用 MDCureRM 的奖励信号训练自定义多文档指令生成器 - 使小型开源模型(如 LLaMA3.1-8B-Instruct)生成质量超越 GPT 级别的多文档指令数据 - 无需后续数据过滤

实验

实验设置

微调模型: - FlanT5-Base (250M) & Large (750M) - Qwen2-Instruct 1.5B & 7B - LLaMA3.1-Instruct 8B & 70B

数据规模:12K, 36K, 72K(最优为 72K)

基线: - 预训练方法:PRIMERA、QAMDen - 长上下文 LLM:LongAlign-7B、ProLong-8B-64k - 通用 LLM:GPT-4o、Gemini 1.5 Pro

评估基准(6 个): - 多文档:SEAM(含 MultiNews、OpenAsp、MuSiQue、ECB+、SciCo)、WikiHop、HotpotQA、Multi-XScience、QMDSCNN - 长上下文:ZeroScrolls

主实验结果(表1 选录)

模型 HQA WikiHop Multi-XSci QMDSCNN SEAM ZeroScrolls Avg
FlanT5-Base
无微调 4.4 45.1 38.7 48.0 1.7 13.1 14.5
+MDCure 47.3 48.3 93.8 57.3 2.1 22.6 25.4
Qwen2-7B
无微调 30.5 39.6 95.6 79.3 7.4 23.9 27.4
+MDCure 44.7 46.0 95.1 87.3 10.3 29.8 32.7
LLaMA3.1-8B
无微调 35.5 27.1 95.1 65.3 10.2 18.7 24.3
+MDCure 44.7 43.7 95.3 93.8 11.9 30.9 34.0
LLaMA3.1-70B
无微调 53.9 38.1 95.1 88.2 13.0 36.4 37.1
+MDCure 58.4 45.5 95.1 88.7 13.3 37.7 38.5

关键发现

  1. 跨模型一致有效:MDCure 在所有模型家族和尺寸上均带来显著提升
  2. 提升幅度惊人:FlanT5-Base 平均提升 75.1%,LLaMA3.1-8B 提升 40.2%
  3. 提升随模型增大递减:70B 模型仅提升 3.8%,说明大模型已有较强的内建能力

MDCureRM 过滤的重要性

过滤方式 FlanT5-Base Avg Qwen2-7B Avg LLaMA3.1-8B Avg
无过滤 23.2 29.9 31.1
GPT-3.5 过滤 24.1 31.4 32.1
MDCureRM 25.4 32.7 34.0

MDCureRM 在所有设置中均优于 GPT-3.5 作为裁判的过滤效果。

跨任务、跨领域泛化

  • MDCure 不仅提升训练过的多文档任务,还改善了分布外(OOD)任务:多文档共指消解、多文档分类、文本排序等
  • 跨领域泛化到科学、文学、媒体等训练数据中不存在的领域
  • 单文档长上下文性能(ZeroScrolls)也有提升

兼容性实验

  • 与 ProLong 结合:在已经很强的长上下文模型上继续提升(Avg 32.1→34.9)
  • 开源生成器:LLaMA3.1-70B 作为生成器与 GPT-3.5 效果相当
  • PPO 训练:使用 MDCureRM 奖励信号训练 LLaMA3.1-8B-Instruct 作为生成器,质量超越闭源模型

亮点与洞察

  1. 首个多文档指令数据生成框架:填补了多文档后训练数据的空白,方法论贡献显著
  2. MDCureRM 的双重价值:既是数据过滤器,又可作为 PPO 的奖励信号,使开源模型自主生成高质量数据
  3. 实用性强:兼容开源和闭源模型,生成流程简单可扩展
  4. 强泛化能力:从新闻领域训练数据泛化到科学、文学等多领域,超越了领域特定的预训练方法
  5. 互补性发现:MDCure 数据与 FLAN 等通用指令数据互补,可叠加使用

局限性

  1. 训练数据领域单一:主要使用新闻领域文档,可能限制了某些特定领域的能力
  2. 依赖文档集合:需要预先组织好的相关文档集合,对于任意文档的适用性需进一步验证
  3. 评估局限:部分评估依赖 LLM-as-a-Judge,可能引入偏差
  4. 生成成本:虽然比预训练便宜,但 72K 数据的生成和过滤仍需一定 API 成本
  5. 规模效应递减:在 70B 模型上提升仅 3.8%,对于超大模型的边际收益有限

相关工作

  • 多文档建模:PRIMERA (Xiao et al., 2022)、QAMDen (Caciularu et al., 2023)、Longformer (Beltagy et al., 2020)
  • 合成数据生成:Self-Instruct (Wang et al., 2023)、Alpaca (Taori et al., 2023)
  • 奖励模型:Bradley-Terry RM、多目标 RM (Wu et al., 2023; Wang et al., 2024)
  • 长上下文 LLM:LongAlign (Bai et al., 2024)、ProLong (Gao et al., 2024)

评分

⭐⭐⭐⭐⭐ (4.5/5)

  • 创新性:首个系统性多文档指令数据生成框架,填补重要空白(+1)
  • 实验全面性:6 种基准 × 6 种模型家族 × 3 种数据规模 × 多种过滤策略(+1)
  • 实用价值:框架和数据集开源,兼容多种模型,可直接使用(+0.5)
  • 方法设计:两阶段流程清晰,MDCureRM 的多目标设计合理且有效(+0.5)
  • 扣分:训练数据领域较单一、超大模型提升有限(-0.5)

相关论文