跳转至

📚 AI Paper Notes

A Little Human Data Goes A Long Way

A Little Human Data Goes A Long Way¶

会议: ACL 2025
arXiv: 2410.13098
代码: GitHub
领域: 合成数据 / 数据标注
关键词: 合成数据, 人工标注, 事实验证, 问答, 数据效率, LLM生成

一句话总结¶

首次系统研究合成数据在事实验证和问答中能否替代人工标注——替换 90% 仅轻微下降，但替换最后 10% 严重退化；仅 125 条人工数据可显著提升纯合成模型，等效增益需 10 倍以上合成数据。

背景与动机¶

合成数据生成流行但能否完全替代人工标注不清楚。FV 和 QA 是需要理解证据文本的核心任务，有丰富证据文本可用于合成但缺乏系统研究。不同任务上已有研究结论矛盾。

核心问题¶

合成数据能否完全替代 FV/QA 中的人工标注？价值差异多大？什么成本比下人工更划算？

方法详解¶

实验设置¶

8 个数据集（4 FV + 4 QA），跨科学/新闻/社交/推理/对话/小说
数据量固定，逐步提高合成比例 0%→100%
GPT-3.5-Turbo few-shot 生成，Llama3-8B LoRA 微调

关键实验¶

逐步替换：0%→50%→90%→95%→97.5%→100%
微量人工：纯合成+125/250/500 条人工
成本效率：200 条人工 vs N 条额外合成
OOD 验证：跨数据集排除伪相关

实验关键数据¶

合成比例	性能变化
0%→90%	轻微下降
90%→100%	严重下降
100%+125条人工	显著提升

成本效率（WANLI）¶

200 条人工 ≈ 17,671 条合成
FairyTaleQA：200 条人工 ≈ ~200K 条合成

鲁棒性¶

OOD、跨语言、不同模型/prompt/策略均一致
合成数据更长更extractive，人工更善改述

亮点¶

"90-10规律"：替换90%影响小，最后10%至关重要
125条就够：极少量人工标注即有巨大价值
成本量化：给出具体阈值指导实践
8数据集+多维鲁棒性：结论极其稳健

局限性 / 可改进方向¶

主要英语，多语言初步
数据泄露无法完全排除
合成方法单一（仅few-shot ICL）
错误分析未产出可操作洞察

与相关工作的对比¶

vs 预训练合成数据：预训练纯合成导致崩溃；FV/QA 中证据接地降低风险
vs Li et al. 2023：关注分类任务主观性；本文关注FV/QA混合比例

启发与关联¶

永远不要完全放弃人工数据——125条也有巨大价值
合成数据的extractive特性解释了纯合成不如人工
90-10规律可能推广到更多任务

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统量化FV/QA中合成vs人工替代关系
实验充分度: ⭐⭐⭐⭐⭐ 8数据集×多模型×多语言×OOD×成本分析
写作质量: ⭐⭐⭐⭐⭐ 论证清晰，图表直观
价值: ⭐⭐⭐⭐⭐ 对所有使用合成数据的人有直接指导意义