PLR: Plackett-Luce for Reordering In-Context Learning Examples¶

日期: 2026-03-22
arXiv: 2603.21373
代码: GitHub
领域: LLM推理
关键词: in-context learning, example ordering, Plackett-Luce, distributional optimization, few-shot

一句话总结¶

提出 PLR，用 Plackett-Luce 分布模型替代离散排列搜索来优化 ICL 示例顺序——通过 Gumbel perturb-and-sort 高效采样排列并迭代集中概率到高性能序列上，在分类和数学推理任务上比 baseline 提升 9-15%。

研究背景与动机¶

领域现状: ICL 示例的排列顺序对 LLM few-shot 性能影响很大，但 \(n!\) 种排列的穷举搜索不可行。
现有痛点: (a) 现有启发式方法（如按相似度排序）只适用于有限标签集的分类任务；(b) 对开放式生成任务（如数学推理）无法定义基于标签的排序规则；(c) 贪心搜索容易陷入局部最优。
核心 idea: 将离散排列优化转化为在排列空间上的分布学习——用 Plackett-Luce 模型参数化排列概率，通过采样高质量排列逐步聚焦到最优序列。

方法详解¶

整体框架¶

初始化 PL 模型参数 \(\theta\) → 采样 B 个排列 → 用验证集评估每个排列 → 取 top-\(\rho\)B 个精英排列 → 更新 \(\theta\) 使分布集中到高性能排列 → 重复直到收敛。

关键设计¶

Plackett-Luce 分布建模:
- \(P(\pi|\theta) = \prod_i \frac{\exp(\theta_{\pi(i)})}{\sum_{j \geq i} \exp(\theta_{\pi(j)})}\)
- 把排列优化从离散搜索变成连续参数优化
- 满足"无关选项独立性"公理，理论性质好
Gumbel Perturb-and-Sort 采样:
- \(s_i = \theta_i + g_i\)（\(g_i \sim \text{Gumbel}(0,1)\)），按 \(s_i\) 降序排列
- 将序贯 softmax 采样转化为单次扰动排序，数值稳定且高效
混合 PL 扩展:
- 单 PL 受 IIA 约束限制表达力
- 扩展为 K 组分混合 PL，可建模多模态的高性能排列分布
- 定理证明: 混合 PL 在分布空间上是稠密的
三种参数更新策略:
- EMA 启发式更新（最简单、最鲁棒）
- MLE 最大似然（更原则化）
- EM 算法（用于混合 PL）

PL 分布数学形式¶

\[Pr(\pi|\theta) = \prod_{r=1}^{n} \frac{\exp(\theta_{\pi_r})}{\sum_{j \in R_r} \exp(\theta_j)}\]

通过 Gumbel perturb-and-sort 实现 \(O(n \log n)\) 采样: \(s_i = \theta_i + g_i\), \(g_i \sim \text{Gumbel}(0,1)\), 按 \(s_i\) 降序排列。

实验关键数据¶

分类任务（全部数据）¶

模型	数据集	k	PLR-EMA	GlobalE	Static
Qwen-7B	MR	4	90.90	90.66	~85
Qwen-7B	NEWS	8	84.40	83.60	~78
Qwen-7B	SST5	16	55.85	55.07	~50
Qwen-7B	TREC	8	65.79	61.74	~58
Qwen-7B	SUBJ	32	82.32	80.05	~75

数学推理（GSM8K）¶

k	PLR-4 (混合)	Static
4	40.88%	35.45%
32	42.80%	39.05%

消融实验¶

分析维度	结果	说明
混合组分 K	K=4 即可, K=32 收益递减	少量组分捕获主要模式
精英比例 ρ	ρ=0.2 最优; 0.5 太大, 0.1 不稳定	20% 精英排列足够
EMA vs MLE	EMA 更鲁棒	MLE 偶尔更优但不稳定
概率-准确率相关性	单调正相关 (Fig 3)	理论验证

亮点与洞察¶

排列分布优化 是个通用框架：不限于分类，天然支持开放式生成任务
理论保证: 混合 PL 的稠密性定理意味着理论上可逼近任意排列分布
实用性强: 不修改模型参数，纯推理时优化

局限性 / 可改进方向¶

需要标注验证集来评估排列质量
每个任务单独优化，跨任务迁移未研究
仅在 7-8B 模型上验证

评分¶

新颖性: ⭐⭐⭐⭐ PL 模型用于 ICL 排序有理论优雅性（稠密性定理）
实验充分度: ⭐⭐⭐⭐ 分类+推理+多模型+消融
写作质量: ⭐⭐⭐⭐ 理论与实验结合
价值: ⭐⭐⭐⭐ 提供了 ICL 排序的原则化方法