Sample Efficient Demonstration Selection for In-Context Learning¶

会议: ICML 2025
arXiv: 2506.08607
代码: 无
领域: 模型压缩/上下文学习
关键词: 上下文学习, 示例选择, 样本效率, ICL, 演示选择

一句话总结¶

本文提出了一种样本高效的上下文学习(ICL)示例选择方法，能够在有限的标注预算下高效地选择最佳示例组合，显著提升 LLM 的 ICL 性能，同时大幅减少所需的标注数据量。

领域现状：上下文学习(ICL)是 LLM 的核心能力之一——通过在提示中提供少量示例即可完成新任务。但 ICL 性能对示例选择高度敏感，选择不同的示例可能导致性能剧烈波动。

现有痛点：现有示例选择方法通常需要大量标注数据来评估候选示例的质量，或者需要在验证集上反复测试不同组合，标注成本高昂。

核心矛盾：ICL 的核心优势在于"少样本"学习，但选择最佳示例本身可能需要大量标注数据，构成了矛盾。

本文目标：在极小标注预算下高效地选择最优 ICL 示例。

切入角度：利用 LLM 内部信号（如困惑度、置信度）来评估示例质量，减少对外部标注的依赖。

核心 idea：将示例选择建模为一个样本高效的优化问题，用智能搜索策略在极小评估预算下找到高质量示例。

样本高效评估策略:
- 利用模型内部信号（如 token 概率、困惑度）来估计示例质量
- 避免对每个候选组合都需要完整的标注评估
- 设计动机：标注数据是稀缺资源，应最大化其信息利用
智能搜索算法:
- 设计高效的组合搜索算法，避免穷举
- 可能使用贝叶斯优化、bandit 算法等技术
- 在极小的evaluation budget下接近最优解
- 设计动机：示例组合空间是指数级的，需要智能搜索
跨任务泛化:
- 选择策略可能具有跨任务迁移能力
- 在一个任务上学到的选择偏好可能推广到相似任务
- 设计动机：进一步减少每个新任务的标注需求

不涉及 LLM 训练，是推理时的示例选择方法。

方法	标注预算	平均ICL性能	相比随机提升
随机选择	0	基线	0%
全量评估	大	上界	最高
本文方法	小(~10%)	接近上界	显著提升