PLR: Plackett-Luce for Reordering In-Context Learning Examples¶
日期: 2026-03-22
arXiv: 2603.21373
代码: GitHub
领域: LLM推理
关键词: in-context learning, example ordering, Plackett-Luce, distributional optimization, few-shot
一句话总结¶
提出 PLR,用 Plackett-Luce 分布模型替代离散排列搜索来优化 ICL 示例顺序——通过 Gumbel perturb-and-sort 高效采样排列并迭代集中概率到高性能序列上,在分类和数学推理任务上比 baseline 提升 9-15%。
研究背景与动机¶
-
领域现状: ICL 示例的排列顺序对 LLM few-shot 性能影响很大,但 \(n!\) 种排列的穷举搜索不可行。
-
现有痛点: (a) 现有启发式方法(如按相似度排序)只适用于有限标签集的分类任务;(b) 对开放式生成任务(如数学推理)无法定义基于标签的排序规则;(c) 贪心搜索容易陷入局部最优。
-
核心 idea: 将离散排列优化转化为在排列空间上的分布学习——用 Plackett-Luce 模型参数化排列概率,通过采样高质量排列逐步聚焦到最优序列。
方法详解¶
整体框架¶
初始化 PL 模型参数 \(\theta\) → 采样 B 个排列 → 用验证集评估每个排列 → 取 top-\(\rho\)B 个精英排列 → 更新 \(\theta\) 使分布集中到高性能排列 → 重复直到收敛。
关键设计¶
-
Plackett-Luce 分布建模:
- \(P(\pi|\theta) = \prod_i \frac{\exp(\theta_{\pi(i)})}{\sum_{j \geq i} \exp(\theta_{\pi(j)})}\)
- 把排列优化从离散搜索变成连续参数优化
- 满足"无关选项独立性"公理,理论性质好
-
Gumbel Perturb-and-Sort 采样:
- \(s_i = \theta_i + g_i\)(\(g_i \sim \text{Gumbel}(0,1)\)),按 \(s_i\) 降序排列
- 将序贯 softmax 采样转化为单次扰动排序,数值稳定且高效
-
混合 PL 扩展:
- 单 PL 受 IIA 约束限制表达力
- 扩展为 K 组分混合 PL,可建模多模态的高性能排列分布
- 定理证明: 混合 PL 在分布空间上是稠密的
-
三种参数更新策略:
- EMA 启发式更新(最简单、最鲁棒)
- MLE 最大似然(更原则化)
- EM 算法(用于混合 PL)
PL 分布数学形式¶
通过 Gumbel perturb-and-sort 实现 \(O(n \log n)\) 采样: \(s_i = \theta_i + g_i\), \(g_i \sim \text{Gumbel}(0,1)\), 按 \(s_i\) 降序排列。
实验关键数据¶
分类任务(全部数据)¶
| 模型 | 数据集 | k | PLR-EMA | GlobalE | Static |
|---|---|---|---|---|---|
| Qwen-7B | MR | 4 | 90.90 | 90.66 | ~85 |
| Qwen-7B | NEWS | 8 | 84.40 | 83.60 | ~78 |
| Qwen-7B | SST5 | 16 | 55.85 | 55.07 | ~50 |
| Qwen-7B | TREC | 8 | 65.79 | 61.74 | ~58 |
| Qwen-7B | SUBJ | 32 | 82.32 | 80.05 | ~75 |
数学推理(GSM8K)¶
| k | PLR-4 (混合) | Static |
|---|---|---|
| 4 | 40.88% | 35.45% |
| 32 | 42.80% | 39.05% |
消融实验¶
| 分析维度 | 结果 | 说明 |
|---|---|---|
| 混合组分 K | K=4 即可, K=32 收益递减 | 少量组分捕获主要模式 |
| 精英比例 ρ | ρ=0.2 最优; 0.5 太大, 0.1 不稳定 | 20% 精英排列足够 |
| EMA vs MLE | EMA 更鲁棒 | MLE 偶尔更优但不稳定 |
| 概率-准确率相关性 | 单调正相关 (Fig 3) | 理论验证 |
亮点与洞察¶
- 排列分布优化 是个通用框架:不限于分类,天然支持开放式生成任务
- 理论保证: 混合 PL 的稠密性定理意味着理论上可逼近任意排列分布
- 实用性强: 不修改模型参数,纯推理时优化
局限性 / 可改进方向¶
- 需要标注验证集来评估排列质量
- 每个任务单独优化,跨任务迁移未研究
- 仅在 7-8B 模型上验证
相关工作与启发¶
- vs 贪心排序启发式: 仅适用于有限标签集分类;PLR 对开放生成任务天然支持
- vs 穷举搜索: \(n!\) 不可行;PLR 用分布学习将搜索空间压缩到连续参数
- vs 基于嵌入的排序: 依赖特定距离度量;PLR 直接优化任务性能
评分¶
- 新颖性: ⭐⭐⭐⭐ PL 模型用于 ICL 排序有理论优雅性(稠密性定理)
- 实验充分度: ⭐⭐⭐⭐ 分类+推理+多模型+消融
- 写作质量: ⭐⭐⭐⭐ 理论与实验结合
- 价值: ⭐⭐⭐⭐ 提供了 ICL 排序的原则化方法