ATGen: A Framework for Active Text Generation¶
会议: ACL 2025
arXiv: 2506.23342
代码: GitHub
领域: 主动学习 / 文本生成
关键词: 主动学习, 文本生成, 标注框架, LLM标注, 实验设计, PEFT, 标注成本
一句话总结¶
推出 ATGen——首个将主动学习(AL)与文本生成(NLG)任务桥接的综合框架,支持人类标注和 LLM 自动标注,集成 SOTA AL 策略和实验设计方法,提供 Web 标注界面和统一基准平台。实验证明 AL 显著减少人工标注时间和 LLM API 调用成本。
背景与动机¶
NLG 任务(翻译/摘要/对话)需要大量标注数据,但标注成本高。两个趋势:(1) LLM 自动标注可替代部分人工但 API 调用昂贵;(2) 主动学习在分类任务中减少 3-5 倍标注量,但在 NLG 任务中应用有限——缺乏统一框架。现有 AL 框架(如 ALiPy)主要支持分类/序列标注。
核心问题¶
如何构建支持 NLG 任务的统一主动学习框架,兼容人类和 LLM 标注器,并支持现代 PEFT 和高效推理?
方法详解¶
框架核心组件¶
- AL 策略集合:统一接口实现 NLG SOTA AL 策略(不确定性采样、多样性采样等)和实验设计(ED)方法
- Web 标注应用:支持人工逐条标注和 LLM 自动标注(ChatGPT/Claude/本地模型)
- 基准平台:统一评估 AL 策略在多 NLG 任务上的效果
AL 在 NLG 中的流程¶
- 初始化:少量标注数据训练初始模型
- 查询策略:选择最有价值的未标注样本
- 标注:人工或 LLM 标注
- 更新:加入新标注数据微调模型
- 重复直到预算用完
LLM 标注器集成¶
- 支持 API 服务(ChatGPT/Claude)和本地部署模型
- AL 选择最值得调用 API 的样本——减少不必要的 API 调用
- 成本节省对高价 API(如 o3)尤其重要
PEFT 支持¶
- 集成 LoRA 等参数高效微调——适配大模型场景
- 高效推理支持减少 AL 循环中的训练开销
实验关键数据¶
- AL 大幅减少人工标注时间(相比随机选择)
- AL 显著降低 LLM API 调用总成本
- 在翻译、摘要、对话等 NLG 任务上验证
- 不同 AL 策略在不同 NLG 任务上各有优劣
亮点¶
- 首个 NLG 专用 AL 框架——填补了分类/NER AL 框架之外的空白
- 人工+LLM 双标注模式——适应不同预算和质量需求
- Web Demo 降低使用门槛——非 AL 专家也能使用
- 标准化基准平台——促进 NLG AL 策略的公平对比
局限性 / 可改进方向¶
- AL 循环的延迟:每轮需训练+推理+标注,对时间敏感的场景不友好
- NLG 评估困难:AL 效果依赖 NLG 评估指标的可靠性
- ED 可能更实用:一次性选择+并行标注 vs 迭代 AL
- 开源模型标注质量:小模型标注质量可能不够
与相关工作的对比¶
- vs ALiPy/LibAct:仅支持分类;ATGen 支持 NLG
- vs BAAL:支持分类和序列标注;ATGen 扩展到文本生成
- vs 直接 LLM 标注(自动标签):无选择性标注全部样本;ATGen 用 AL 选择最值得标注的样本
启发与关联¶
- AL 在 LLM API 时代获得新意义——不只减少人工,还减少 API 成本
- "最有价值的样本"的定义在 NLG 中比分类更复杂——需要新的查询策略
- ED(一次性选择)vs AL(迭代选择)的权衡在实践中很重要
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个NLG AL框架,双标注模式设计新颖
- 实验充分度: ⭐⭐⭐⭐ 多NLG任务×多AL策略,基准完整
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,动机有力
- 价值: ⭐⭐⭐⭐ 对NLG数据标注和AI训练有直接实用价值