Diversity-oriented Data Augmentation with Large Language Models¶
会议: ACL 2025
arXiv: 2502.11671
代码: https://github.com/CNICDS/DoAug
领域: LLM/NLP
关键词: 数据增强, 多样性, 释义生成, DPO, 核心集选择, 文本分类
一句话总结¶
提出 DoAug 框架,通过 SFT+DPO 微调 LLM 释义器并结合核心集选择与多样性采样,在保持语义一致性的同时显著提升增强数据集的多样性,在 12 个数据集上平均性能提升 10.52%,超出次优基线 3.76 个百分点。
研究背景与动机¶
- 高质量数据集三要素:作者指出训练 NLP 模型的高质量数据集应具备三个特征——规模大(Large)、标签一致(Coherent)、分布多样(Diverse),但现有数据增强方法几乎只关注扩大数据量,忽视了多样性。
- 现有方法的局限:早期随机扰动方法(EDA、AEDA)容易引入噪声破坏标签一致性(如删掉 "not"),或生成冗余样本无法提升多样性;基于回译和 BERT Unmask 的方法改写幅度有限。
- LLM 释义的潜力与不足:AugGPT 等方法直接用 LLM 做释义虽保持了语义,但未显式鼓励多样化输出,导致生成文本高度重复。
- 多样性与性能的关系:已有研究(Gontijo-Lopes et al., 2020)表明数据多样性和亲和性共同提升时,模型性能增益最大,但此前没有将多样性优化与 LLM 释义增强整合的工作。
- 计算效率问题:对大数据集的每个样本都做 LLM 增强代价高昂,需要一种样本选择策略来降低成本。
- 核心目标:设计一个既能保持增强数据与原始数据语义一致性(高亲和性),又能最大化数据集多样性的框架,从而大幅提升下游任务性能。
方法详解¶
整体框架¶
DoAug 包含四个阶段:(1) SFT 训练 LLM 释义器;(2) DPO 多样性微调;(3) 核心集选择待增强样本;(4) 多样性采样生成最终增强数据集。基础 LLM 使用 Llama-3.2-1B-Instruct (BF16)。
模块一:LLM 释义器训练 (SFT + LoRA)¶
- 从 ChatGPT Paraphrases 数据集采样 10 万对句子作为 \(\mathcal{D}_{\text{SFT}}\)
- 使用 LoRA(低秩适配)进行参数高效微调,将权重更新 \(\Delta W\) 分解为 \(BA\)(\(r \ll \min(d,k)\)),冻结原始权重 \(W_0\)
- 训练目标:让 LLM 学会在保持语义不变的前提下改写句子表达
模块二:DPO 多样性增强¶
- 偏好数据集构建:从原始释义数据集采样 5 万组,每组含 1 条原句 \(x\) 和 5 条释义 \([y_1,...,y_5]\),计算每条释义与原句在 embedding 空间的欧氏距离,距离最大者为 chosen(\(y_w\)),距离最小者为 rejected(\(y_l\))
- DPO 损失:\(\mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log\sigma\left(\beta\log\frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta\log\frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right]\)
- 通过对比学习鼓励 LLM 倾向于生成距原句更远(更多样)的释义,同时避免偏离 SFT 模型太远
模块三:核心集选择与多样性采样¶
- 核心集选择:先训练下游任务模型收集训练动态指标(EL2N、entropy、variance、AUM),按重要性将样本分为三组——高重要性(增强)、中重要性(保留)、低重要性(剪枝),比例 1:1:1
- 多样性采样:对每条种子句子用 beam search 生成 \(K=5\) 条候选释义,按与原句的 embedding 距离排序,仅保留距离最大(最多样)的释义
- 最终数据集:高重要性样本的原句+释义 \(\cup\) 中重要性样本的原句
训练与推理¶
- SFT 和 DPO 均使用 LoRA 微调,计算量较小(1B 模型)
- 推理时对选定核心集逐条做 beam search 释义,整体流程开销可控
实验¶
表1:12 个数据集下游分类准确率¶
| 方法 | ANLI | ChemProt | CoLA | MNLI | MPQA | MRPC | RCT | RTE | SST-2 | SUBJ | Symptoms | Yelp | Avg.Gain |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Original | 35.75 | 58.33 | 74.56 | 42.81 | 89.17 | 76.50 | 71.62 | 53.61 | 86.97 | 95.75 | 74.06 | 51.48 | - |
| AugGPT | 36.43 | 65.73 | 75.17 | 53.77 | 89.67 | 75.25 | 78.90 | 54.87 | 87.63 | 95.44 | 79.25 | 55.47 | 5.64% |
| Taboo | 35.83 | 69.66 | 72.90 | 57.26 | 89.34 | 76.74 | 78.48 | 58.01 | 86.74 | 95.12 | 89.40 | 56.30 | 6.76% |
| DoAug | 38.46 | 70.22 | 75.62 | 59.76 | 89.78 | 80.97 | 80.10 | 56.05 | 88.64 | 95.80 | 90.74 | 56.57 | 10.52% |
表2:6 项多样性指标(归一化到 [0,1],12 数据集均值)¶
| 方法 | Distance | Dispersion | Radius | Homogeneity | Vocabulary | 3-grams | Average |
|---|---|---|---|---|---|---|---|
| Original | 0.00 | 0.00 | 0.78 | 0.74 | 0.00 | 0.00 | 0.25 |
| Hint | 0.56 | 0.51 | 0.98 | 0.86 | 0.45 | 0.68 | 0.67 |
| DoAug | 1.00 | 1.00 | 0.87 | 0.98 | 1.00 | 1.00 | 0.98 |
关键发现¶
- DoAug 在 12 个数据集中的 11 个上取得最优性能(仅 RTE 略低于 Taboo),平均增益 10.52% 远超次优的 6.76%
- 多样性 6 项指标中 4 项最优、2 项接近最优,综合得分 0.98(满分 1.0)
- 亲和性(语义保持度)仅次于 Unmask(后者因在 BERT embedding 空间内操作天然偏高)
- 人工评估 95%、DeepSeek-V3 评估 97% 的释义保持语义正确
- 消融实验显示核心集选择贡献最大;DPO 主要提升词汇多样性,多样性采样主要提升隐空间样本级多样性
- 替换实验证明 DPO 不可用高温采样或 prompt 多样性激励替代
- 将 LLM 增强器换为 Qwen2.5-1.5B 或下游模型换为 GPT-2/T5-large 均保持优势,证明框架的架构无关性
亮点¶
- 将数据增强从"扩量"提升到"增多样性"的高度,问题定义清晰且实用
- SFT→DPO 两阶段训练流水线优雅:SFT 保证释义能力,DPO 显式引导多样化
- 偏好数据的构建方式巧妙——无需人工标注,利用 embedding 距离自动挑选 chosen/rejected 对
- 核心集选择让方法天然适配低资源场景,减少 LLM 推理开销的同时聚焦高价值样本
- 实验规模扎实:12 数据集 × 12 基线 × 10 随机种子,统计可靠性强
局限¶
- 多样性评价指标尚无统一标准,本文采用的 6 个指标可能无法完全刻画多样性概念
- 仅在句子级分类任务和英文语料上验证,未扩展到数学推理、指令遵循、创意写作等生成任务
- 未考虑多模态场景和跨语言通用性
- 核心集选择依赖先训练一个下游模型收集训练动态,增加了整体流程复杂度
- 使用 LLM 做增强存在人口统计偏见放大和事实性幻觉的潜在风险
- DPO 偏好构建依赖 embedding 模型的质量,不同 embedding 可能导致不同结果
相关工作¶
- 文本数据增强:字符/词级扰动(EDA, AEDA)、回译(Back-translation)、BERT Unmask、LLM 释义(AugGPT, Self-LLMDA)、多样性激励 prompt(Chain/Hint/Taboo, Cegin et al. 2024)
- 数据集多样性评估:token 级和 embedding 级指标(Tevet & Berant 2021, Lai et al. 2020, Yu et al. 2022),diversity-affinity 联合分析(Gontijo-Lopes et al. 2020)
- 偏好对齐:RLHF/PPO(Ouyang et al. 2022)、DPO(Rafailov et al. 2024)
- 核心集选择:EL2N / entropy / AUM 等训练动态指标(Paul et al. 2021, Coleman et al. 2020, Pleiss et al. 2020),CCS(Zheng et al. 2023)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次将 DPO 偏好对齐用于优化数据增强的多样性目标,偏好数据自动构建思路新颖
- 有效性: ⭐⭐⭐⭐⭐ — 12 数据集 × 12 基线 × 10 种子的全面实验,平均 10.52% 的增益令人信服
- 实用性: ⭐⭐⭐⭐ — 基于 1B 小模型 + LoRA 微调,可落地用于低资源文本分类场景
- 清晰度: ⭐⭐⭐⭐ — 框架描述清晰,消融和替换实验充分解释了各组件的作用