A Little Human Data Goes A Long Way¶
会议: ACL 2025
arXiv: 2410.13098
代码: GitHub
领域: 合成数据 / 数据标注
关键词: 合成数据, 人工标注, 事实验证, 问答, 数据效率, LLM生成
一句话总结¶
首次系统研究合成数据在事实验证和问答中能否替代人工标注——替换 90% 仅轻微下降,但替换最后 10% 严重退化;仅 125 条人工数据可显著提升纯合成模型,等效增益需 10 倍以上合成数据。
背景与动机¶
合成数据生成流行但能否完全替代人工标注不清楚。FV 和 QA 是需要理解证据文本的核心任务,有丰富证据文本可用于合成但缺乏系统研究。不同任务上已有研究结论矛盾。
核心问题¶
合成数据能否完全替代 FV/QA 中的人工标注?价值差异多大?什么成本比下人工更划算?
方法详解¶
实验设置¶
- 8 个数据集(4 FV + 4 QA),跨科学/新闻/社交/推理/对话/小说
- 数据量固定,逐步提高合成比例 0%→100%
- GPT-3.5-Turbo few-shot 生成,Llama3-8B LoRA 微调
关键实验¶
- 逐步替换:0%→50%→90%→95%→97.5%→100%
- 微量人工:纯合成+125/250/500 条人工
- 成本效率:200 条人工 vs N 条额外合成
- OOD 验证:跨数据集排除伪相关
实验关键数据¶
| 合成比例 | 性能变化 |
|---|---|
| 0%→90% | 轻微下降 |
| 90%→100% | 严重下降 |
| 100%+125条人工 | 显著提升 |
成本效率(WANLI)¶
- 200 条人工 ≈ 17,671 条合成
- FairyTaleQA:200 条人工 ≈ ~200K 条合成
鲁棒性¶
- OOD、跨语言、不同模型/prompt/策略均一致
- 合成数据更长更extractive,人工更善改述
亮点¶
- "90-10规律":替换90%影响小,最后10%至关重要
- 125条就够:极少量人工标注即有巨大价值
- 成本量化:给出具体阈值指导实践
- 8数据集+多维鲁棒性:结论极其稳健
局限性 / 可改进方向¶
- 主要英语,多语言初步
- 数据泄露无法完全排除
- 合成方法单一(仅few-shot ICL)
- 错误分析未产出可操作洞察
与相关工作的对比¶
- vs 预训练合成数据:预训练纯合成导致崩溃;FV/QA 中证据接地降低风险
- vs Li et al. 2023:关注分类任务主观性;本文关注FV/QA混合比例
启发与关联¶
- 永远不要完全放弃人工数据——125条也有巨大价值
- 合成数据的extractive特性解释了纯合成不如人工
- 90-10规律可能推广到更多任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统量化FV/QA中合成vs人工替代关系
- 实验充分度: ⭐⭐⭐⭐⭐ 8数据集×多模型×多语言×OOD×成本分析
- 写作质量: ⭐⭐⭐⭐⭐ 论证清晰,图表直观
- 价值: ⭐⭐⭐⭐⭐ 对所有使用合成数据的人有直接指导意义