From Selection to Generation: A Survey of LLM-based Active Learning¶

会议: ACL2025 arXiv: 2502.11767 代码: 无（综述论文）领域: llm_nlp 关键词: active learning, LLM, data selection, data generation, annotation, survey

一句话总结¶

首篇系统梳理 LLM 时代主动学习的综述，提出以 Querying（从传统选择到 LLM 生成）和 Annotation（从人工标注到 LLM 标注）为双轴的统一分类体系，覆盖查询策略、标注方案、停止准则、AL 范式和应用领域。

研究背景与动机¶

领域现状：主动学习（Active Learning, AL）是通过选择最具信息量的数据进行标注来降低标注成本、提高模型性能的经典范式，已有数十年研究积累。
现有痛点：传统 AL 方法（如不确定性采样、多样性采样）仅能从固定的无标签池中选择样本，且完全依赖人工标注，在 LLM 时代已显不足。
核心矛盾：LLM 的出现从根本上改变了 AL 的能力边界——LLM 不仅能做选择器（selector），还能做生成器（generator）和标注器（annotator），但现有综述仍聚焦于传统 AL 技术，缺乏对 LLM-based AL 的系统回顾。
本文要解决什么：填补 LLM-based AL 综述空白，提供统一的分类体系和系统化的文献梳理。
切入角度：围绕 AL 循环的两大核心环节——Querying（数据获取）和 Annotation（标注）——构建双轴分类，系统化地将 LLM 在 AL 中的角色映射到各子类。
核心 idea 一句话：LLM 将 AL 从"从池中选数据"拓展为"选择+生成+自动标注"的全新范式。

方法详解¶

整体框架¶

本文提出一个以 Querying 和 Annotation 为双轴的分类体系，覆盖 LLM-based AL 循环的五个步骤：

Initialize：用 LLM 标注/生成初始数据集，解决冷启动问题
Query：LLM 选择或生成最具信息量的数据实例
Annotate：LLM 独立/辅助人工完成标注
Train：用新标注数据更新目标模型
Stop：根据预算或收敛条件终止循环

关键设计一：Querying 策略（§3）¶

子类	做什么	为什么	怎么做
传统选择（§3.1）	基于不确定性/多样性从未标注池中选样本	经典有效但受限于固定池	Least Confidence、Margin、Max-Entropy、CoreSet、BADGE、BALD 等
LLM 选择（§3.2）	用 LLM 评估并选择最有价值的样本	LLM 具备推理能力，可在零/少样本下评估样本信息量	ActiveLLM（不确定性+多样性评估）、SelectLLM（LLM 排序+k-NN 聚类）、Ask-LLM（质量评分）、ActivePrune（LLM 剪枝池）
LLM 生成（§3.3）	用 LLM 生成全新数据实例	突破固定池限制，搜索空间扩展到无穷	池内生成：Diao et al. 利用答案变异度估计不确定性；池外生成：APE 用 CoT 合成新 prompt、Yang et al. 生成+拒绝采样
混合（§3.4）	结合选择与生成	取长补短	NoiseAL（小 LLM 识别+大 LLM 标注）、CAL（密度聚类+GPT-4 选择）

关键设计二：Annotation 方案（§4）¶

子类	做什么	为什么	怎么做
人工标注（§4.1）	人类标注选中样本	质量最高但成本昂贵	ActivePrune、Active-Prompt、Beyond-Labels（收集 rationale）
LLM 标注（§4.2）	LLM 模拟人类标注	大幅降低成本	FreeAL（任务知识蒸馏，零人工）、LLMaAA（in-context example 提升质量）；风险：自我强化偏差、输入敏感性
混合（§4.3）	LLM 先标注 + 验证器评估 + 人工修复低质量	平衡效率与准确性	Wang et al.（多步协同）、HybridAL（置信度阈值路由）

关键设计三：停止准则（§5）¶

传统方式：验证集性能改善低于阈值、预测稳定、理论样本复杂度界
LLM 时代的挑战：标注成本不再是离散预算 \(k\)，而是输入/输出 token 的实值成本；需混合考虑人工+LLM 成本
新方向：token 级成本分析、成本-性能联合指标、混合停止准则

AL 范式与 LLM（§6）¶

综述梳理了四种 LLM-based AL 范式： - Active In-Context Learning：将 few-shot 示例选择建模为 AL 问题 - Active Supervised Fine-Tuning：AL 优化 SFT 数据选择 - Active Preference Alignment：RLHF 中的高效偏好查询 - Active Knowledge Distillation：基于不确定性的选择性知识迁移

实验关键数据¶

表1：LLM-based AL 分类体系¶

类别	子类	机制
Querying	传统选择	不确定性采样、多样性采样
Querying	LLM 选择	LLM 评分/排序选择样本
Querying	LLM 生成	生成全新实例
Querying	混合	选择+生成结合
Annotation	人工标注	人类标注，高质量高成本
Annotation	LLM 标注	LLM 模拟标注，低成本有偏差风险
Annotation	混合	动态路由 LLM/人工

表2：代表性方法对比（部分）¶

方法	查询方式	标注方式	主要应用
ActiveLLM	LLM 选择	人工	文本分类
FreeAL	混合（选择+生成）	LLM	文本分类、情感分析
APE	LLM 生成	LLM	实体匹配
CAL	混合	人工	去偏差
NoiseAL	LLM 生成+混合	LLM	文本分类、NER
SelectLLM	LLM 选择	人工	文本分类

关键发现¶

LLM 选择 vs 传统选择：LLM 在零/少样本场景下的选择能力优于传统不确定性方法（ActiveLLM、SelectLLM 均有验证）
生成 vs 选择：LLM 生成新样本可突破固定池限制，但需拒绝采样保证质量
LLM 标注成本：人工标注成本约为 LLM 标注的 10-100 倍（Kholodna et al. 2024 报告低资源语言场景）
混合标注：动态路由策略在保持准确率的同时降低 40-70% 标注成本（HybridAL）

亮点与洞察¶

分类体系直观有效：双轴（Querying × Annotation）分类将复杂的 LLM-based AL 方法空间梳理得清晰可操作
从选择到生成的范式转变：清晰指出 LLM 将 AL 从"被动选选"转变为"主动创造"，是本文最核心的洞察
成本模型的重新思考：指出 LLM 时代标注成本从离散预算变为实值成本，停止准则需根本性重构
四大 AL 范式的梳理：Active ICL/SFT/RLHF/KD 四条线路清晰，为后续研究提供了路线图
开放问题的前瞻性：多 LLM 协同 AL、多模态 AL、LLM Agent+AL 等方向具有实际研究启发意义

局限性 / 可改进方向¶

缺乏定量对比实验：作为综述未提供统一 benchmark 上的方法横向对比，读者难以直观判断各方法优劣
传统 AL for LLM 覆盖不足：明确声明不深入覆盖"用传统 AL 优化 LLM 训练"的工作，可能遗漏重要文献
偏差问题讨论不够深入：虽然提到 LLM 标注的偏差风险，但缺乏系统的量化分析和缓解策略评估
缺乏对计算开销的分析：LLM 作为选择器/生成器/标注器的计算成本缺乏量化对比
可拓展方向：建议未来综述加入统一实验评估、更深入的成本-效益分析、以及多模态 AL 的实证研究

评分¶

新颖性: ⭐⭐⭐⭐ — 首篇系统化 LLM-based AL 综述，双轴分类体系是原创贡献
实验充分度: ⭐⭐⭐ — 综述性质未包含实验，但方法对比表格较全面，缺少统一 benchmark 定量横评
写作质量: ⭐⭐⭐⭐⭐ — 结构清晰，分类体系直观，图表配合良好，可读性强
价值: ⭐⭐⭐⭐ — 为 LLM 时代的 AL 研究提供了完整路线图，对实践者和研究者均有参考价值