跳转至

Diversity-oriented Data Augmentation with Large Language Models

会议: ACL 2025
arXiv: 2502.11671
代码: https://github.com/CNICDS/DoAug
领域: LLM/NLP
关键词: 数据增强, 多样性, 释义生成, DPO, 核心集选择, 文本分类

一句话总结

提出 DoAug 框架,通过 SFT+DPO 微调 LLM 释义器并结合核心集选择与多样性采样,在保持语义一致性的同时显著提升增强数据集的多样性,在 12 个数据集上平均性能提升 10.52%,超出次优基线 3.76 个百分点。

研究背景与动机

  1. 高质量数据集三要素:作者指出训练 NLP 模型的高质量数据集应具备三个特征——规模大(Large)、标签一致(Coherent)、分布多样(Diverse),但现有数据增强方法几乎只关注扩大数据量,忽视了多样性。
  2. 现有方法的局限:早期随机扰动方法(EDA、AEDA)容易引入噪声破坏标签一致性(如删掉 "not"),或生成冗余样本无法提升多样性;基于回译和 BERT Unmask 的方法改写幅度有限。
  3. LLM 释义的潜力与不足:AugGPT 等方法直接用 LLM 做释义虽保持了语义,但未显式鼓励多样化输出,导致生成文本高度重复。
  4. 多样性与性能的关系:已有研究(Gontijo-Lopes et al., 2020)表明数据多样性和亲和性共同提升时,模型性能增益最大,但此前没有将多样性优化与 LLM 释义增强整合的工作。
  5. 计算效率问题:对大数据集的每个样本都做 LLM 增强代价高昂,需要一种样本选择策略来降低成本。
  6. 核心目标:设计一个既能保持增强数据与原始数据语义一致性(高亲和性),又能最大化数据集多样性的框架,从而大幅提升下游任务性能。

方法详解

整体框架

DoAug 包含四个阶段:(1) SFT 训练 LLM 释义器;(2) DPO 多样性微调;(3) 核心集选择待增强样本;(4) 多样性采样生成最终增强数据集。基础 LLM 使用 Llama-3.2-1B-Instruct (BF16)。

模块一:LLM 释义器训练 (SFT + LoRA)

  • 从 ChatGPT Paraphrases 数据集采样 10 万对句子作为 \(\mathcal{D}_{\text{SFT}}\)
  • 使用 LoRA(低秩适配)进行参数高效微调,将权重更新 \(\Delta W\) 分解为 \(BA\)\(r \ll \min(d,k)\)),冻结原始权重 \(W_0\)
  • 训练目标:让 LLM 学会在保持语义不变的前提下改写句子表达

模块二:DPO 多样性增强

  • 偏好数据集构建:从原始释义数据集采样 5 万组,每组含 1 条原句 \(x\) 和 5 条释义 \([y_1,...,y_5]\),计算每条释义与原句在 embedding 空间的欧氏距离,距离最大者为 chosen(\(y_w\)),距离最小者为 rejected(\(y_l\)
  • DPO 损失\(\mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log\sigma\left(\beta\log\frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta\log\frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right]\)
  • 通过对比学习鼓励 LLM 倾向于生成距原句更远(更多样)的释义,同时避免偏离 SFT 模型太远

模块三:核心集选择与多样性采样

  • 核心集选择:先训练下游任务模型收集训练动态指标(EL2N、entropy、variance、AUM),按重要性将样本分为三组——高重要性(增强)、中重要性(保留)、低重要性(剪枝),比例 1:1:1
  • 多样性采样:对每条种子句子用 beam search 生成 \(K=5\) 条候选释义,按与原句的 embedding 距离排序,仅保留距离最大(最多样)的释义
  • 最终数据集:高重要性样本的原句+释义 \(\cup\) 中重要性样本的原句

训练与推理

  • SFT 和 DPO 均使用 LoRA 微调,计算量较小(1B 模型)
  • 推理时对选定核心集逐条做 beam search 释义,整体流程开销可控

实验

表1:12 个数据集下游分类准确率

方法 ANLI ChemProt CoLA MNLI MPQA MRPC RCT RTE SST-2 SUBJ Symptoms Yelp Avg.Gain
Original 35.75 58.33 74.56 42.81 89.17 76.50 71.62 53.61 86.97 95.75 74.06 51.48 -
AugGPT 36.43 65.73 75.17 53.77 89.67 75.25 78.90 54.87 87.63 95.44 79.25 55.47 5.64%
Taboo 35.83 69.66 72.90 57.26 89.34 76.74 78.48 58.01 86.74 95.12 89.40 56.30 6.76%
DoAug 38.46 70.22 75.62 59.76 89.78 80.97 80.10 56.05 88.64 95.80 90.74 56.57 10.52%

表2:6 项多样性指标(归一化到 [0,1],12 数据集均值)

方法 Distance Dispersion Radius Homogeneity Vocabulary 3-grams Average
Original 0.00 0.00 0.78 0.74 0.00 0.00 0.25
Hint 0.56 0.51 0.98 0.86 0.45 0.68 0.67
DoAug 1.00 1.00 0.87 0.98 1.00 1.00 0.98

关键发现

  • DoAug 在 12 个数据集中的 11 个上取得最优性能(仅 RTE 略低于 Taboo),平均增益 10.52% 远超次优的 6.76%
  • 多样性 6 项指标中 4 项最优、2 项接近最优,综合得分 0.98(满分 1.0)
  • 亲和性(语义保持度)仅次于 Unmask(后者因在 BERT embedding 空间内操作天然偏高)
  • 人工评估 95%、DeepSeek-V3 评估 97% 的释义保持语义正确
  • 消融实验显示核心集选择贡献最大;DPO 主要提升词汇多样性,多样性采样主要提升隐空间样本级多样性
  • 替换实验证明 DPO 不可用高温采样或 prompt 多样性激励替代
  • 将 LLM 增强器换为 Qwen2.5-1.5B 或下游模型换为 GPT-2/T5-large 均保持优势,证明框架的架构无关性

亮点

  • 将数据增强从"扩量"提升到"增多样性"的高度,问题定义清晰且实用
  • SFT→DPO 两阶段训练流水线优雅:SFT 保证释义能力,DPO 显式引导多样化
  • 偏好数据的构建方式巧妙——无需人工标注,利用 embedding 距离自动挑选 chosen/rejected 对
  • 核心集选择让方法天然适配低资源场景,减少 LLM 推理开销的同时聚焦高价值样本
  • 实验规模扎实:12 数据集 × 12 基线 × 10 随机种子,统计可靠性强

局限

  • 多样性评价指标尚无统一标准,本文采用的 6 个指标可能无法完全刻画多样性概念
  • 仅在句子级分类任务和英文语料上验证,未扩展到数学推理、指令遵循、创意写作等生成任务
  • 未考虑多模态场景和跨语言通用性
  • 核心集选择依赖先训练一个下游模型收集训练动态,增加了整体流程复杂度
  • 使用 LLM 做增强存在人口统计偏见放大和事实性幻觉的潜在风险
  • DPO 偏好构建依赖 embedding 模型的质量,不同 embedding 可能导致不同结果

相关工作

  • 文本数据增强:字符/词级扰动(EDA, AEDA)、回译(Back-translation)、BERT Unmask、LLM 释义(AugGPT, Self-LLMDA)、多样性激励 prompt(Chain/Hint/Taboo, Cegin et al. 2024)
  • 数据集多样性评估:token 级和 embedding 级指标(Tevet & Berant 2021, Lai et al. 2020, Yu et al. 2022),diversity-affinity 联合分析(Gontijo-Lopes et al. 2020)
  • 偏好对齐:RLHF/PPO(Ouyang et al. 2022)、DPO(Rafailov et al. 2024)
  • 核心集选择:EL2N / entropy / AUM 等训练动态指标(Paul et al. 2021, Coleman et al. 2020, Pleiss et al. 2020),CCS(Zheng et al. 2023)

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次将 DPO 偏好对齐用于优化数据增强的多样性目标,偏好数据自动构建思路新颖
  • 有效性: ⭐⭐⭐⭐⭐ — 12 数据集 × 12 基线 × 10 种子的全面实验,平均 10.52% 的增益令人信服
  • 实用性: ⭐⭐⭐⭐ — 基于 1B 小模型 + LoRA 微调,可落地用于低资源文本分类场景
  • 清晰度: ⭐⭐⭐⭐ — 框架描述清晰,消融和替换实验充分解释了各组件的作用