Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction¶
会议: ACL 2025
arXiv: 2504.15573
代码: GitHub
领域: NLP / 指令微调数据合成
关键词: 指令微调, 数据合成, Web重构, 双视角范式, 全自动化
一句话总结¶
提出 Web Reconstruction (WebR),一种从原始网页文档全自动合成高质量指令微调数据的框架,通过"Web作为指令"和"Web作为回复"双视角范式,无需人工标注即可生成优于现有SOTA的IT数据。
研究背景与动机¶
LLM 的指令遵循能力高度依赖指令-回复对的质量。现有数据合成方法存在明显局限:
人工标注法(如 ShareGPT、DOLLY):成本高昂,规模受限
半自动方法(如 Self-Instruct、Alpaca):依赖种子数据质量,多样性受限
全自动方法(如 WebInstruct、反翻译):对网页文档结构有过强假设
WebInstruct 假设网页中存在显式的问答对,应用范围有限;反翻译直接将网页内容当回复,但网页常含无关内容和不当表达。这些方法只能处理有限范围的网页文档,多样性不足,限制了下游性能。
WebR 的核心动机是:能否以最少的网页内容假设,全自动地将原始、嘈杂的网页文档转化为高质量指令微调数据?
方法详解¶
整体框架¶
WebR 采用双视角范式(Dual-Perspective Paradigm),将每个网页文档分别视为指令或回复来触发重构过程。框架利用一个现成的强力 LLM 来完成所有转换,无需人工干预或种子数据。
关键设计¶
1. Web as Instruction(网页作为指令)¶
- 功能:将原始网页与合成的重写请求拼接,构成完整指令
- 核心思路:利用 LLM 生成针对网页内容的详细重写请求(如风格、格式、结构调整),然后让 LLM 按请求重构网页内容
- 设计动机:重写请求的复杂性天然涵盖了摘要、信息抽取、语义理解等多种NLP任务,迫使模型展示推理和理解能力
- 多样性增强:以50%概率生成针对网页特定部分(而非全文)的重写请求,模拟真实用户只修改部分文本的场景
2. Web as Response(网页作为回复)¶
- 功能:将网页内容视为潜在回复,推断对应的潜在指令
- 核心思路:引入两阶段精炼过程——先让 LLM 对推断出的指令生成初始回复(rollout),再结合原始网页内容精炼回复
- 设计动机:初始 rollout 确保回复具有人类风格的流畅性,而精炼步骤整合网页中的关键信息,使最终回复既精确又全面
- 与传统反翻译的区别:传统方法直接将网页内容当回复,WebR 通过 rollout+refinement 克服了网页内容不适合直接作为回复的问题
3. Persona 驱动的指令合成¶
- LLM 先为网页文档生成角色(persona),再以该角色引导后续指令合成
- 提升合成指令的多样性和针对性
4. 数据构建细节¶
- 数据源:70% Common Crawl(通用)+ 15% OpenWebMath(数学)+ 15% GitHub(代码)
- Web as Instruction 与 Web as Response 比例为 2:1
- 使用 MinHash 去重(签名大小128,相似度阈值0.7)
- 最终合成 100k 指令-回复对
训练策略¶
- 使用 Llama3-70B-Instruct 生成 WebR-Basic,GPT-4o-mini 生成 WebR-Pro
- GPT-4o-mini 总调用成本仅 $38.57
- 统一训练超参数进行公平比较
实验关键数据¶
主实验:指令遵循性能(表1)¶
| IT 数据 | 数据量 | 人工投入 | AlpacaEval 2 | Arena-Hard | MT-Bench | IFEval Avg |
|---|---|---|---|---|---|---|
| 无微调 | - | - | 0.18 | 0.31 | 1.78 | 7.31 |
| ShareGPT | 112k | 高 | 9.89 | 6.49 | 6.34 | 22.70 |
| WildChat | 652k | 高 | 14.62 | 8.73 | 6.60 | 23.03 |
| Magpie (Llama3) | 100k | 无 | 23.62 | 13.98 | 6.26 | 24.15 |
| WebR-Basic | 100k | 无 | 25.33 | 16.50 | 6.95 | 28.17 |
| IT Mix (GPT-4o) | 100k | 中 | 30.39 | 28.03 | 7.36 | 31.29 |
| Magpie (GPT-4o) | 100k | 无 | 32.61 | 27.97 | 7.26 | 29.95 |
| WebR-Pro | 100k | 无 | 34.36 | 31.10 | 7.57 | 33.71 |
| (IT+WebR) Merge | 200k | 中 | 35.40 | 35.12 | 7.59 | 36.36 |
WebR-Basic 在零人工投入下比 SOTA Magpie 平均提升 16.65%;WebR-Pro 在同一回复生成器下超越 IT Mix 和 Magpie 分别 7.73% 和 12.55%。
消融实验(表3)¶
| 设置 | AlpacaEval 2 | MT-Bench | IFEval | MMLU | MATH |
|---|---|---|---|---|---|
| WebR-Pro (完整) | 34.17 | 7.50 | 28.41 | 61.15 | 24.94 |
| -w/o Persona | 33.30 | 6.93 | 28.31 | 60.98 | 24.03 |
| -w/o Part(仅全文) | 33.89 | 7.53 | 28.01 | 61.05 | 22.73 |
| -w/o Refinement | 31.61 | 7.42 | 27.92 | 59.83 | 24.36 |
| -w/o MinHash | 32.43 | 7.29 | 27.58 | 60.69 | 24.82 |
| 比例 1:0(仅Instruction) | 29.15 | 7.10 | 25.27 | 58.79 | 25.74 |
| 比例 0:1(仅Response) | 33.41 | 6.68 | 27.54 | 52.68 | 23.30 |
关键发现¶
- Refinement 最关键:去掉精炼步骤后 AlpacaEval 2 下降近3个点
- 两种视角互补:Web as Instruction 增强推理(ARC、MATH),Web as Response 增强指令遵循和问答(IFEval、AlpacaEval)
- 最优比例 2:1:Instruction 占比更大效果更好
- 数据效率:性能随训练数据对数增长线性提升
- 可扩展性:在 Qwen2.5-1.5B/3B/7B/14B 上测试,模型越大增益越明显(14B 时 AlpacaEval +4.12)
- 兼容性:WebR 与现有 IT 数据合并可进一步提升性能
亮点与洞察¶
- 最小假设原则:不依赖网页中存在 QA 对或干净内容,对任意网页文档均可处理
- 双视角互补性是关键创新——不同视角训练出的能力维度不同
- 成本极低:GPT-4o-mini 合成 100k 数据仅需 $38.57,具有极高的工程实用性
- 数据多样性(embedding diversity 0.93)达到人工数据水平,说明网页天然多样性被有效利用
局限与展望¶
- 依赖强力教师模型(Llama3-70B 或 GPT-4o-mini),较弱模型效果未验证
- 数据源仍局限于英文为主的网页,多语言泛化有待探索
- 网页质量筛选仅靠去重,未做显式质量过滤
- 两阶段 Web as Response 流程增加了推理开销
相关工作与启发¶
- 与 Self-Instruct/Alpaca 的区别:WebR 完全不需要种子数据
- 与 WebInstruct 的区别:不假设网页中存在 QA 对
- 与反翻译 (Backtranslation) 的区别:引入 rollout+refinement 两阶段精炼
- Persona 驱动策略借鉴自 Ge et al. (2024)
- 启发:未来可结合领域自适应(调整网页来源比例)快速生成领域特定 IT 数据
评分¶
- 新颖性: ⭐⭐⭐⭐ — 双视角范式是有效的新范式,将网页重构概念化为IT合成任务具有原创性
- 实验充分度: ⭐⭐⭐⭐⭐ — 10+基线对比,4个benchmark,消融详尽,多模型规模验证
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,图表丰富,动机阐述充分
- 价值: ⭐⭐⭐⭐⭐ — 极低成本全自动合成高质量IT数据,工程实用价值极高
相关论文¶
- [ACL 2025] FastMCTS: A Simple Sampling Strategy for Data Synthesis
- [ACL 2025] Unlocking Speech Instruction Data Potential with Query Rewriting
- [ACL 2025] AIDE: Attribute-Guided Multi-Hop Data Expansion for Data Scarcity in Task-Specific Fine-tuning
- [ACL 2025] MDCure: A Scalable Pipeline for Multi-Document Instruction-Following
- [ACL 2025] Tag-Evol: Achieving Efficient Instruction Evolving via Tag Injection