跳转至

RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty

会议: ICLR 2026 arXiv: 2602.12424 代码: 未公开(已建立 HuggingFace 排行榜平台) 领域: llm_nlp 关键词: LLM evaluation, question difficulty, model competency, bipartite graph, score propagation, benchmark

一句话总结

提出 RankLLM,一个基于有向二部图双向分数传播的非参数化框架,联合估计题目难度和模型能力,实现难度感知的 LLM 排名,与人类判断达到 90% 一致性。

研究背景与动机

现有主流 LLM 评测基准(如 MMLU-Pro、MATH、GSM8K 等)通常将性能压缩为各主题类别下的准确率,隐式地将所有题目视为同等重要。这种做法存在几个关键问题:

  1. 难度差异被忽略:将一道简单算术题和一道多步微积分推导题等同看待,无法区分模式匹配和高级推理能力
  2. 排名不稳定:当简单题和难题的比例变化时,模型排名可能会翻转
  3. 无法捕捉细粒度差异:整体准确率接近的模型之间的能力差异被掩盖

已有的 Item Response Theory (IRT) 方法虽然尝试建模题目难度,但需要对每道题进行参数化的 logistic 拟合,计算开销大,在样本量小和数据集大的场景下不够实用。

方法详解

整体框架

RankLLM 将题目和模型建模为有向二部图 \(\mathcal{G}=(\mathcal{V}, \mathcal{E})\) 中的节点,通过阻尼双向分数传播联合估计题目难度 \(\pi_q\) 和模型能力 \(\pi_m\)。核心直觉是:模型答对难题获得更高能力分,题目难倒强模型获得更高难度分

关键设计

二部图构建:顶点集 \(\mathcal{V}=\mathcal{M}\cup\mathcal{Q}\),包含 \(M\) 个模型和 \(Q\) 道题目。边集分为两类: - 能力边 \(\mathcal{E}_{\text{Comp}}\)\(q_i \to m_j\) 表示模型 \(m_j\) 正确回答了题目 \(q_i\) - 难度边 \(\mathcal{E}_{\text{Fail}}\)\(m_j \to q_i\) 表示模型 \(m_j\) 未能回答题目 \(q_i\)

性能矩阵: - 能力矩阵 \(A \in \{0,1\}^{Q \times M}\)\(A_{ij}=1\) 表示模型 \(m_j\) 答对题 \(q_i\) - 难度矩阵 \(\hat{A} = (\mathbf{1}^{Q \times M} - A)^\top\)

预处理时排除所有模型都答对或都答错的题目(约占 2%),确保图的连通性。

转移矩阵: - 能力转移:\(P_{Q \to M} = \text{diag}(A\mathbf{1}_M)^{-1} A\) - 难度转移:\(P_{M \to Q} = \text{diag}(\hat{A}\mathbf{1}_Q)^{-1} \hat{A}\)

迭代分数传播

引入阻尼因子 \(\alpha \in (0,1)\)(类似 PageRank 的 teleportation),解决二部图 2-周期性问题:

\[\pi_Q^{(t+1)} = \alpha P_{M \to Q}^\top \pi_M^{(t)} + (1-\alpha)\frac{\mathbf{1}_Q}{Q}\]
\[\pi_M^{(t+1)} = \alpha P_{Q \to M}^\top \pi_Q^{(t+1)} + (1-\alpha)\frac{\mathbf{1}_M}{M}\]

该迭代过程构成遍历马尔可夫链,由 Perron-Frobenius 定理保证收敛到唯一平稳分布。

连续分数扩展

对于提供部分分数的基准测试,将二值矩阵 \(A\) 替换为连续矩阵 \(A_c \in [0,1]^{Q \times M}\),所有后续公式形式不变。

损失函数

RankLLM 本身不需要训练/优化损失函数,而是通过迭代传播直接收敛。整个过程为非参数化方法,仅有一个阻尼超参数 \(\alpha\)

实验关键数据

主实验

在 6 个基准、35,550 道题、30 个模型上评测:

数据集 题目数
BBH 6,511
GPQA 448
GSM8K 1,320
HellaSwag 10,000
MATH 5,000
MMLU-Pro 12,102

人类对齐:RankLLM 与人类共识达到 90% 一致,显著优于 Simple Rank (62.9%)、1PL-IRT (50.0%)、2PL-IRT (51.4%)、Multi-IRT (52.9%)。

关键排名发现:RankLLM 分数与准确率的 Kendall's Tau = 0.8492,表明总体趋势一致但在相邻模型间存在显著重排。例如 Qwen2-0.5B(准确率 20.2%)排名高于 DeepSeek-Chat-Lite(准确率 30.49%),原因是前者在难题上答对率为 5.5% vs 2.4%。

消融实验 / 效率分析

方法 收敛时间 (s)
RankLLM 0.00597
1PL-IRT 1,782.75
2PL-IRT 3,787.03
Multi-IRT (3D) 18.76

RankLLM 比最快的 IRT 基线快 3,100 倍以上。

鲁棒性:随机移除 \(k\) 个模型(\(k\) = 1~15),题目难度 Spearman 相关性保持在 0.938 以上,模型能力相关性保持在 0.993 以上。

可扩展性:测试规模扩展至 \(Q=1{,}000{,}000\)\(M=2{,}000\),始终在 9 次迭代内收敛,复杂度线性于 \(Q \times M\)

关键发现

  1. 数据集难度分布:MATH 和 MMLU-Pro 具有更宽的难度分布,适合评测高级推理;GSM8K 和 HellaSwag 偏简单
  2. 模型族一致性:同一家族模型在不同参数量下保持稳定的难度分布模式(Llama、Qwen、Yi 均如此),缩放主要影响绝对准确率
  3. 开放权重模型的可靠性:仅用开放权重模型估计的难度与使用全模型池的结果高度相关(Spearman 0.96, Pearson 0.94)
  4. 多样性收益:混合规模模型池将极端误估减少 83%,与人类判断最一致(90% 共识)

亮点与洞察

  1. 优雅的非参数设计:整个方法仅依赖一个阻尼超参数,无需每题参数拟合,远比 IRT 简单
  2. 极高的计算效率:0.006 秒在消费级硬件上完成 30 模型 × 35K 题的评估
  3. 人类对齐度优异:90% 的共识一致性为该领域最高水平之一
  4. 理论保证:基于 Perron-Frobenius 定理的收敛证明确保了方法的可靠性
  5. 实际洞察丰富:揭示了 Qwen2-0.5B 在难题上优于 DeepSeek-Chat-Lite 等反直觉现象

局限性

  1. 难度定义基于模型群体的成败模式,当模型池同质化时可能产生偏差
  2. 只考虑答案的对错,未能捕捉推理过程的质量差异
  3. 阻尼因子 \(\alpha\) 的选择缺乏理论最优指导
  4. 人类评测规模有限(20 名评估者,70 个题对),统计功效可进一步提升

相关工作与启发

  • 与 IRT 的关系:IRT(1PL/2PL)需要参数化拟合,计算成本高且在小样本下不稳定;RankLLM 是纯图算法,线性复杂度
  • 与 PageRank 的关系:RankLLM 的阻尼传播本质上是 bipartite 版本的 PageRank,但针对评测场景设计了能力-难度双向传播
  • 对评测实践的启发:混合规模模型池是最佳评测配置;单一类型模型池会导致难度估计的系统性偏差

评分

  • 创新性: ⭐⭐⭐⭐ — 非参数化的难度-能力联合估计,简洁优雅
  • 实用性: ⭐⭐⭐⭐⭐ — 极低计算成本,已有 HuggingFace 排行榜
  • 实验完整度: ⭐⭐⭐⭐⭐ — 6 个基准、30 个模型、人类评测、鲁棒性分析齐全
  • 写作质量: ⭐⭐⭐⭐ — 思路清晰,公式推导完整
  • 综合评分: ⭐⭐⭐⭐ — 方法简单有效,但理论贡献相对有限