Diversity-oriented Data Augmentation with Large Language Models¶

会议: ACL 2025
arXiv: 2502.11671
代码: https://github.com/CNICDS/DoAug
领域: LLM/NLP
关键词: 数据增强, 多样性, 释义生成, DPO, 核心集选择, 文本分类

一句话总结¶

提出 DoAug 框架，通过 SFT+DPO 微调 LLM 释义器并结合核心集选择与多样性采样，在保持语义一致性的同时显著提升增强数据集的多样性，在 12 个数据集上平均性能提升 10.52%，超出次优基线 3.76 个百分点。

高质量数据集三要素：作者指出训练 NLP 模型的高质量数据集应具备三个特征——规模大（Large）、标签一致（Coherent）、分布多样（Diverse），但现有数据增强方法几乎只关注扩大数据量，忽视了多样性。
现有方法的局限：早期随机扰动方法（EDA、AEDA）容易引入噪声破坏标签一致性（如删掉 "not"），或生成冗余样本无法提升多样性；基于回译和 BERT Unmask 的方法改写幅度有限。
LLM 释义的潜力与不足：AugGPT 等方法直接用 LLM 做释义虽保持了语义，但未显式鼓励多样化输出，导致生成文本高度重复。
多样性与性能的关系：已有研究（Gontijo-Lopes et al., 2020）表明数据多样性和亲和性共同提升时，模型性能增益最大，但此前没有将多样性优化与 LLM 释义增强整合的工作。
计算效率问题：对大数据集的每个样本都做 LLM 增强代价高昂，需要一种样本选择策略来降低成本。
核心目标：设计一个既能保持增强数据与原始数据语义一致性（高亲和性），又能最大化数据集多样性的框架，从而大幅提升下游任务性能。

DoAug 包含四个阶段：(1) SFT 训练 LLM 释义器；(2) DPO 多样性微调；(3) 核心集选择待增强样本；(4) 多样性采样生成最终增强数据集。基础 LLM 使用 Llama-3.2-1B-Instruct (BF16)。

从 ChatGPT Paraphrases 数据集采样 10 万对句子作为 \(\mathcal{D}_{\text{SFT}}\)
使用 LoRA（低秩适配）进行参数高效微调，将权重更新 \(\Delta W\) 分解为 \(BA\)（\(r \ll \min(d,k)\)），冻结原始权重 \(W_0\)
训练目标：让 LLM 学会在保持语义不变的前提下改写句子表达

偏好数据集构建：从原始释义数据集采样 5 万组，每组含 1 条原句 \(x\) 和 5 条释义 \([y_1,...,y_5]\)，计算每条释义与原句在 embedding 空间的欧氏距离，距离最大者为 chosen（\(y_w\)），距离最小者为 rejected（\(y_l\)）
DPO 损失：\(\mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log\sigma\left(\beta\log\frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta\log\frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right]\)
通过对比学习鼓励 LLM 倾向于生成距原句更远（更多样）的释义，同时避免偏离 SFT 模型太远

核心集选择：先训练下游任务模型收集训练动态指标（EL2N、entropy、variance、AUM），按重要性将样本分为三组——高重要性（增强）、中重要性（保留）、低重要性（剪枝），比例 1:1:1
多样性采样：对每条种子句子用 beam search 生成 \(K=5\) 条候选释义，按与原句的 embedding 距离排序，仅保留距离最大（最多样）的释义
最终数据集：高重要性样本的原句+释义 \(\cup\) 中重要性样本的原句

方法	ANLI	ChemProt	CoLA	MNLI	MPQA	MRPC	RCT	RTE	SST-2	SUBJ	Symptoms	Yelp	Avg.Gain
Original	35.75	58.33	74.56	42.81	89.17	76.50	71.62	53.61	86.97	95.75	74.06	51.48	-
AugGPT	36.43	65.73	75.17	53.77	89.67	75.25	78.90	54.87	87.63	95.44	79.25	55.47	5.64%
Taboo	35.83	69.66	72.90	57.26	89.34	76.74	78.48	58.01	86.74	95.12	89.40	56.30	6.76%
DoAug	38.46	70.22	75.62	59.76	89.78	80.97	80.10	56.05	88.64	95.80	90.74	56.57	10.52%

方法	Distance	Dispersion	Radius	Homogeneity	Vocabulary	3-grams	Average
Original	0.00	0.00	0.78	0.74	0.00	0.00	0.25
Hint	0.56	0.51	0.98	0.86	0.45	0.68	0.67
DoAug	1.00	1.00	0.87	0.98	1.00	1.00	0.98