AIDE: Attribute-Guided Multi-Hop Data Expansion for Data Scarcity in Task-Specific Fine-tuning¶

会议: ACL 2025
arXiv: 2412.06136
代码: GitHub
领域: 数据合成 / LLM微调
关键词: 数据扩展, 属性引导, 多跳合成, 种子数据, 知识三元组, Persona, 残差连接

一句话总结¶

提出 AIDE——属性引导的多跳数据扩展框架，从仅 10 个种子数据点出发，通过提取主题/属性/关系三元组引导 LLM 多跳递归合成新数据，加入 Persona 增加多样性和残差连接防止偏离，在 Mistral-7B/Llama-3.1-8B/Llama-3.2-3B 上超越人工标注数据微调，比 Evol-Instruct 等 SOTA 提升 30%+。

背景与动机¶

任务特定微调需要多样高质量训练数据，但获取困难。现有合成方法要么依赖大量种子数据集，要么无法平衡任务相关性和数据多样性。Evol-Instruct 等通过重写增加复杂性但不控制内容方向，Prompt2Model/DataTune 需要候选数据集。

核心问题¶

如何从极少量（10个）种子数据出发，合成大量保持任务相关性且多样化的训练数据用于任务特定微调？

方法详解¶

多跳合成机制¶

知识三元组提取：用 LLM 从种子数据提取（主题, 关系, 属性）三元组——如（户外活动, 涉及, 露营）
沿三元组路径合成：每个三元组作为一条合成路径，LLM 生成新数据点
递归扩展：新数据成为下一跳的种子，重复 K 跳——数据量指数增长
预定义操作：每步应用增加约束/推理/具体化等操作增加复杂度

Persona 引导多样性¶

从 Persona Hub 检索与主题相关的 Top-P 个角色（如"有高海拔生活经验的冒险老年人"）
将 Persona 作为额外属性引导合成，增加视角多样性

残差连接防偏移¶

随跳数增加，合成数据可能偏离原始任务
残差连接：在深层跳中混入原始种子信息，确保任务相关性不衰减

自反思 + 标注¶

LLM 自我检查合成数据质量
独立 LLM 标注器为合成数据生成答案标签

实验关键数据¶

对比	结果
Mistral-7B + AIDE vs + 人工数据	+6% 平均相对提升
vs Evol-Instruct	+30% 平均相对提升
vs DataTune/Prompt2Model	显著超越
Llama-3.1-8B + AIDE vs + 人工数据	+0.7%
Llama-3.2-3B + AIDE vs + 人工数据	+1.5%
种子数量	仅 10 个

评估任务：MedQA、FinBen、BIG-Bench、MMLU、ARC-Challenge、GSM8K、TruthfulQA

亮点¶

10 个种子超越人工标注：极端数据稀缺下仍有效
知识三元组+Persona 的组合：三元组保证相关性，Persona 保证多样性
残差连接机制巧妙：解决多跳合成的任务偏移问题
30% 超越 Evol-Instruct：对比 SOTA 数据合成方法优势显著

局限性 / 可改进方向¶

合成质量依赖 LLM 能力：弱 LLM 可能生成低质量三元组
K 跳深度需要调参：跳少不够，跳多偏移
仅英语评估：多语言未验证
标注质量：LLM 自标注可能引入系统性错误

与相关工作的对比¶

vs Evol-Instruct：Evol-Instruct 重写增加复杂性但不控制内容方向；AIDE 用三元组精确控制
vs DataTune/Prompt2Model：需要候选数据集；AIDE 仅需 10 个种子
vs Self-Instruct：无属性引导，生成可能偏离任务

启发与关联¶

知识三元组作为合成数据的"导航图"是通用思路——适用于任何领域
残差连接从深度学习借用到数据合成——防止信息丢失的通用策略
Persona Hub 作为多样性引擎可推广到更多数据生成任务

评分¶

新颖性: ⭐⭐⭐⭐⭐ 属性引导多跳合成+残差连接+Persona 都是新颖组合
实验充分度: ⭐⭐⭐⭐ 3模型×7+基准，对比完整
写作质量: ⭐⭐⭐⭐ 框架图示清晰，示例丰富
价值: ⭐⭐⭐⭐⭐ 对数据稀缺场景下的 LLM 微调有直接实用价值