AIDE: Attribute-Guided Multi-Hop Data Expansion for Data Scarcity in Task-Specific Fine-tuning¶
会议: ACL 2025
arXiv: 2412.06136
代码: GitHub
领域: 数据合成 / LLM微调
关键词: 数据扩展, 属性引导, 多跳合成, 种子数据, 知识三元组, Persona, 残差连接
一句话总结¶
提出 AIDE——属性引导的多跳数据扩展框架,从仅 10 个种子数据点出发,通过提取主题/属性/关系三元组引导 LLM 多跳递归合成新数据,加入 Persona 增加多样性和残差连接防止偏离,在 Mistral-7B/Llama-3.1-8B/Llama-3.2-3B 上超越人工标注数据微调,比 Evol-Instruct 等 SOTA 提升 30%+。
背景与动机¶
任务特定微调需要多样高质量训练数据,但获取困难。现有合成方法要么依赖大量种子数据集,要么无法平衡任务相关性和数据多样性。Evol-Instruct 等通过重写增加复杂性但不控制内容方向,Prompt2Model/DataTune 需要候选数据集。
核心问题¶
如何从极少量(10个)种子数据出发,合成大量保持任务相关性且多样化的训练数据用于任务特定微调?
方法详解¶
多跳合成机制¶
- 知识三元组提取:用 LLM 从种子数据提取(主题, 关系, 属性)三元组——如(户外活动, 涉及, 露营)
- 沿三元组路径合成:每个三元组作为一条合成路径,LLM 生成新数据点
- 递归扩展:新数据成为下一跳的种子,重复 K 跳——数据量指数增长
- 预定义操作:每步应用增加约束/推理/具体化等操作增加复杂度
Persona 引导多样性¶
- 从 Persona Hub 检索与主题相关的 Top-P 个角色(如"有高海拔生活经验的冒险老年人")
- 将 Persona 作为额外属性引导合成,增加视角多样性
残差连接防偏移¶
- 随跳数增加,合成数据可能偏离原始任务
- 残差连接:在深层跳中混入原始种子信息,确保任务相关性不衰减
自反思 + 标注¶
- LLM 自我检查合成数据质量
- 独立 LLM 标注器为合成数据生成答案标签
实验关键数据¶
| 对比 | 结果 |
|---|---|
| Mistral-7B + AIDE vs + 人工数据 | +6% 平均相对提升 |
| vs Evol-Instruct | +30% 平均相对提升 |
| vs DataTune/Prompt2Model | 显著超越 |
| Llama-3.1-8B + AIDE vs + 人工数据 | +0.7% |
| Llama-3.2-3B + AIDE vs + 人工数据 | +1.5% |
| 种子数量 | 仅 10 个 |
评估任务:MedQA、FinBen、BIG-Bench、MMLU、ARC-Challenge、GSM8K、TruthfulQA
亮点¶
- 10 个种子超越人工标注:极端数据稀缺下仍有效
- 知识三元组+Persona 的组合:三元组保证相关性,Persona 保证多样性
- 残差连接机制巧妙:解决多跳合成的任务偏移问题
- 30% 超越 Evol-Instruct:对比 SOTA 数据合成方法优势显著
局限性 / 可改进方向¶
- 合成质量依赖 LLM 能力:弱 LLM 可能生成低质量三元组
- K 跳深度需要调参:跳少不够,跳多偏移
- 仅英语评估:多语言未验证
- 标注质量:LLM 自标注可能引入系统性错误
与相关工作的对比¶
- vs Evol-Instruct:Evol-Instruct 重写增加复杂性但不控制内容方向;AIDE 用三元组精确控制
- vs DataTune/Prompt2Model:需要候选数据集;AIDE 仅需 10 个种子
- vs Self-Instruct:无属性引导,生成可能偏离任务
启发与关联¶
- 知识三元组作为合成数据的"导航图"是通用思路——适用于任何领域
- 残差连接从深度学习借用到数据合成——防止信息丢失的通用策略
- Persona Hub 作为多样性引擎可推广到更多数据生成任务
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 属性引导多跳合成+残差连接+Persona 都是新颖组合
- 实验充分度: ⭐⭐⭐⭐ 3模型×7+基准,对比完整
- 写作质量: ⭐⭐⭐⭐ 框架图示清晰,示例丰富
- 价值: ⭐⭐⭐⭐⭐ 对数据稀缺场景下的 LLM 微调有直接实用价值