跳转至

A Little Human Data Goes A Long Way

会议: ACL 2025
arXiv: 2410.13098
代码: GitHub
领域: 合成数据 / 数据标注
关键词: 合成数据, 人工标注, 事实验证, 问答, 数据效率, LLM生成

一句话总结

首次系统研究合成数据在事实验证和问答中能否替代人工标注——替换 90% 仅轻微下降,但替换最后 10% 严重退化;仅 125 条人工数据可显著提升纯合成模型,等效增益需 10 倍以上合成数据。

背景与动机

合成数据生成流行但能否完全替代人工标注不清楚。FV 和 QA 是需要理解证据文本的核心任务,有丰富证据文本可用于合成但缺乏系统研究。不同任务上已有研究结论矛盾。

核心问题

合成数据能否完全替代 FV/QA 中的人工标注?价值差异多大?什么成本比下人工更划算?

方法详解

实验设置

  • 8 个数据集(4 FV + 4 QA),跨科学/新闻/社交/推理/对话/小说
  • 数据量固定,逐步提高合成比例 0%→100%
  • GPT-3.5-Turbo few-shot 生成,Llama3-8B LoRA 微调

关键实验

  1. 逐步替换:0%→50%→90%→95%→97.5%→100%
  2. 微量人工:纯合成+125/250/500 条人工
  3. 成本效率:200 条人工 vs N 条额外合成
  4. OOD 验证:跨数据集排除伪相关

实验关键数据

合成比例 性能变化
0%→90% 轻微下降
90%→100% 严重下降
100%+125条人工 显著提升

成本效率(WANLI)

  • 200 条人工 ≈ 17,671 条合成
  • FairyTaleQA:200 条人工 ≈ ~200K 条合成

鲁棒性

  • OOD、跨语言、不同模型/prompt/策略均一致
  • 合成数据更长更extractive,人工更善改述

亮点

  • "90-10规律":替换90%影响小,最后10%至关重要
  • 125条就够:极少量人工标注即有巨大价值
  • 成本量化:给出具体阈值指导实践
  • 8数据集+多维鲁棒性:结论极其稳健

局限性 / 可改进方向

  • 主要英语,多语言初步
  • 数据泄露无法完全排除
  • 合成方法单一(仅few-shot ICL)
  • 错误分析未产出可操作洞察

与相关工作的对比

  • vs 预训练合成数据:预训练纯合成导致崩溃;FV/QA 中证据接地降低风险
  • vs Li et al. 2023:关注分类任务主观性;本文关注FV/QA混合比例

启发与关联

  • 永远不要完全放弃人工数据——125条也有巨大价值
  • 合成数据的extractive特性解释了纯合成不如人工
  • 90-10规律可能推广到更多任务

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统量化FV/QA中合成vs人工替代关系
  • 实验充分度: ⭐⭐⭐⭐⭐ 8数据集×多模型×多语言×OOD×成本分析
  • 写作质量: ⭐⭐⭐⭐⭐ 论证清晰,图表直观
  • 价值: ⭐⭐⭐⭐⭐ 对所有使用合成数据的人有直接指导意义