跳转至

PLR: Plackett-Luce for Reordering In-Context Learning Examples

日期: 2026-03-22
arXiv: 2603.21373
代码: GitHub
领域: LLM推理
关键词: in-context learning, example ordering, Plackett-Luce, distributional optimization, few-shot

一句话总结

提出 PLR,用 Plackett-Luce 分布模型替代离散排列搜索来优化 ICL 示例顺序——通过 Gumbel perturb-and-sort 高效采样排列并迭代集中概率到高性能序列上,在分类和数学推理任务上比 baseline 提升 9-15%。

研究背景与动机

  1. 领域现状: ICL 示例的排列顺序对 LLM few-shot 性能影响很大,但 \(n!\) 种排列的穷举搜索不可行。

  2. 现有痛点: (a) 现有启发式方法(如按相似度排序)只适用于有限标签集的分类任务;(b) 对开放式生成任务(如数学推理)无法定义基于标签的排序规则;(c) 贪心搜索容易陷入局部最优。

  3. 核心 idea: 将离散排列优化转化为在排列空间上的分布学习——用 Plackett-Luce 模型参数化排列概率,通过采样高质量排列逐步聚焦到最优序列。

方法详解

整体框架

初始化 PL 模型参数 \(\theta\) → 采样 B 个排列 → 用验证集评估每个排列 → 取 top-\(\rho\)B 个精英排列 → 更新 \(\theta\) 使分布集中到高性能排列 → 重复直到收敛。

关键设计

  1. Plackett-Luce 分布建模:

    • \(P(\pi|\theta) = \prod_i \frac{\exp(\theta_{\pi(i)})}{\sum_{j \geq i} \exp(\theta_{\pi(j)})}\)
    • 把排列优化从离散搜索变成连续参数优化
    • 满足"无关选项独立性"公理,理论性质好
  2. Gumbel Perturb-and-Sort 采样:

    • \(s_i = \theta_i + g_i\)\(g_i \sim \text{Gumbel}(0,1)\)),按 \(s_i\) 降序排列
    • 将序贯 softmax 采样转化为单次扰动排序,数值稳定且高效
  3. 混合 PL 扩展:

    • 单 PL 受 IIA 约束限制表达力
    • 扩展为 K 组分混合 PL,可建模多模态的高性能排列分布
    • 定理证明: 混合 PL 在分布空间上是稠密的
  4. 三种参数更新策略:

    • EMA 启发式更新(最简单、最鲁棒)
    • MLE 最大似然(更原则化)
    • EM 算法(用于混合 PL)

PL 分布数学形式

\[Pr(\pi|\theta) = \prod_{r=1}^{n} \frac{\exp(\theta_{\pi_r})}{\sum_{j \in R_r} \exp(\theta_j)}\]

通过 Gumbel perturb-and-sort 实现 \(O(n \log n)\) 采样: \(s_i = \theta_i + g_i\), \(g_i \sim \text{Gumbel}(0,1)\), 按 \(s_i\) 降序排列。

实验关键数据

分类任务(全部数据)

模型 数据集 k PLR-EMA GlobalE Static
Qwen-7B MR 4 90.90 90.66 ~85
Qwen-7B NEWS 8 84.40 83.60 ~78
Qwen-7B SST5 16 55.85 55.07 ~50
Qwen-7B TREC 8 65.79 61.74 ~58
Qwen-7B SUBJ 32 82.32 80.05 ~75

数学推理(GSM8K)

k PLR-4 (混合) Static
4 40.88% 35.45%
32 42.80% 39.05%

消融实验

分析维度 结果 说明
混合组分 K K=4 即可, K=32 收益递减 少量组分捕获主要模式
精英比例 ρ ρ=0.2 最优; 0.5 太大, 0.1 不稳定 20% 精英排列足够
EMA vs MLE EMA 更鲁棒 MLE 偶尔更优但不稳定
概率-准确率相关性 单调正相关 (Fig 3) 理论验证

亮点与洞察

  • 排列分布优化 是个通用框架:不限于分类,天然支持开放式生成任务
  • 理论保证: 混合 PL 的稠密性定理意味着理论上可逼近任意排列分布
  • 实用性强: 不修改模型参数,纯推理时优化

局限性 / 可改进方向

  • 需要标注验证集来评估排列质量
  • 每个任务单独优化,跨任务迁移未研究
  • 仅在 7-8B 模型上验证

相关工作与启发

  • vs 贪心排序启发式: 仅适用于有限标签集分类;PLR 对开放生成任务天然支持
  • vs 穷举搜索: \(n!\) 不可行;PLR 用分布学习将搜索空间压缩到连续参数
  • vs 基于嵌入的排序: 依赖特定距离度量;PLR 直接优化任务性能

评分

  • 新颖性: ⭐⭐⭐⭐ PL 模型用于 ICL 排序有理论优雅性(稠密性定理)
  • 实验充分度: ⭐⭐⭐⭐ 分类+推理+多模型+消融
  • 写作质量: ⭐⭐⭐⭐ 理论与实验结合
  • 价值: ⭐⭐⭐⭐ 提供了 ICL 排序的原则化方法