Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation¶
会议: ACL 2025
arXiv: 2506.03857
代码: https://github.com/MingxuanXia/CanDist
领域: LLM 效率
关键词: 数据标注, 知识蒸馏, 候选标注, 不确定性, 小模型
一句话总结¶
提出候选标注+蒸馏范式(CanDist)——当 LLM 对样本不确定时输出所有可能标签(而非强制给唯一标签),然后用小语言模型(SLM)从候选标注中蒸馏出唯一标签,理论证明候选标注蒸馏比直接使用单标签有更好的理论保证,在六个文本分类任务上验证有效。
研究背景与动机¶
- 领域现状:LLM 被广泛用于自动数据标注来降低人工成本。现有方法直接让 LLM 为每个未标注样本打一个确定标签。
- 现有痛点:(a) LLM 本身有不确定性——对困难样本可能给出错误的单一标签,严重损害下游数据质量;(b) 强制 LLM 给唯一标签忽略了其不确定性信号——应让 LLM 在不确定时"坦白";(c) 行为经济学中的"模糊规避"(ambiguity aversion)告诉我们:人类在不确定时倾向于不做唯一选择。
- 核心矛盾:LLM 标注需要唯一标签(下游任务需要),但 LLM 对困难样本不确定时给唯一标签常出错。
- 本文要解决什么? 让 LLM 在不确定时输出候选标签集合,然后用 SLM 蒸馏选出最终标签——分离"不确定性表达"和"标签决策"。
- 切入角度:借鉴模糊规避理论——LLM 做候选提名,SLM 做最终决策。
- 核心idea一句话:LLM 输出候选标签 + SLM 蒸馏 = 比直接标注质量更高。
方法详解¶
整体框架¶
两阶段:(1) 候选标注——提示 LLM 对每个样本输出所有可能的标签(而非唯一标签),不确定样本的候选集更大;(2) 蒸馏——用小模型在候选标注数据上训练,学习从候选集中选择正确标签。
关键设计¶
- 候选标注策略:
- 做什么:让 LLM 输出标签候选集而非唯一标签
- 核心思路:提示 LLM "如果你不确定,请列出所有可能的标签"。对简单样本 LLM 仍给唯一标签,对困难样本给多个候选
-
设计动机:候选集包含正确标签的概率远高于唯一标签是正确的概率——宁可"多选"也不要"选错"
-
SLM 蒸馏:
- 做什么:从候选标注中学习最终分类器
- 核心思路:将候选集视为"部分标注"(partial label),用部分标签学习(PLL)的方法训练 SLM
-
设计动机:SLM 通过在候选集上训练,可以利用多个样本的交叉信息来消歧
-
理论保证:
- 做什么:证明候选标注蒸馏优于直接单标签
- 核心思路:证明候选集的期望风险上界严格小于单标签的期望风险——因为候选集保证了正确标签的覆盖率
- 设计动机:理论支撑增强了方法的可信度
损失函数 / 训练策略¶
- SLM 使用部分标签学习损失——在候选标签上均匀初始化概率,通过训练逐步区分
- LLM 标注调用次数与直接标注相同——每个样本仍只调一次
实验关键数据¶
主实验(六个文本分类任务)¶
| 方法 | 标签准确率 | 下游模型性能 | 说明 |
|---|---|---|---|
| LLM 直接标注 | 中 | 中 | 困难样本出错 |
| LLM + 自一致性 | 中高 | 中高 | 多次调用成本高 |
| CanDist | 高 | 最高 | 候选+蒸馏 |
关键发现¶
- 候选集的正确标签覆盖率显著高于单标签准确率——验证了"多选优于单选"
- SLM 蒸馏后性能接近甚至超过直接用 LLM 标注+SLM 训练——因为减少了噪声标签
- 标注成本不增加——每样本仍只调一次 LLM
亮点与洞察¶
- "不确定时多选"是对 LLM 标注范式的有意义改进——简单但有理论保证。
- 候选+蒸馏的两阶段可复用到任何标注场景。
- 理论分析增强了方法的可信度。
局限性 / 可改进方向¶
- 仅在分类任务验证——序列标注等结构化任务适用性未知
- 候选集大小的控制依赖提示设计
- SLM 的容量限制了蒸馏效果
相关工作与启发¶
- vs 直接 LLM 标注: 直接标注忽略不确定性;CanDist 让 LLM 表达不确定性
- vs Self-Consistency 标注: SC 需多次调用成本高;CanDist 单次调用即可
- vs 部分标签学习 (PLL): 传统 PLL 假设候选集已有;CanDist 用 LLM 生成候选集——新的 PLL 数据源
评分¶
- 新颖性: ⭐⭐⭐⭐ 候选标注范式新颖且有理论保证
- 实验充分度: ⭐⭐⭐⭐ 六个任务+理论分析+消融
- 写作质量: ⭐⭐⭐⭐ 动机清晰
- 价值: ⭐⭐⭐⭐ 对 LLM 标注实践有直接指导