RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty¶

会议: ICLR 2026 arXiv: 2602.12424 代码: 未公开（已建立 HuggingFace 排行榜平台）领域: llm_nlp 关键词: LLM evaluation, question difficulty, model competency, bipartite graph, score propagation, benchmark

一句话总结¶

提出 RankLLM，一个基于有向二部图双向分数传播的非参数化框架，联合估计题目难度和模型能力，实现难度感知的 LLM 排名，与人类判断达到 90% 一致性。

研究背景与动机¶

现有主流 LLM 评测基准（如 MMLU-Pro、MATH、GSM8K 等）通常将性能压缩为各主题类别下的准确率，隐式地将所有题目视为同等重要。这种做法存在几个关键问题：

难度差异被忽略：将一道简单算术题和一道多步微积分推导题等同看待，无法区分模式匹配和高级推理能力
排名不稳定：当简单题和难题的比例变化时，模型排名可能会翻转
无法捕捉细粒度差异：整体准确率接近的模型之间的能力差异被掩盖

已有的 Item Response Theory (IRT) 方法虽然尝试建模题目难度，但需要对每道题进行参数化的 logistic 拟合，计算开销大，在样本量小和数据集大的场景下不够实用。

方法详解¶

整体框架¶

RankLLM 将题目和模型建模为有向二部图 \(\mathcal{G}=(\mathcal{V}, \mathcal{E})\) 中的节点，通过阻尼双向分数传播联合估计题目难度 \(\pi_q\) 和模型能力 \(\pi_m\)。核心直觉是：模型答对难题获得更高能力分，题目难倒强模型获得更高难度分。

关键设计¶

二部图构建：顶点集 \(\mathcal{V}=\mathcal{M}\cup\mathcal{Q}\)，包含 \(M\) 个模型和 \(Q\) 道题目。边集分为两类： - 能力边 \(\mathcal{E}_{\text{Comp}}\)：\(q_i \to m_j\) 表示模型 \(m_j\) 正确回答了题目 \(q_i\) - 难度边 \(\mathcal{E}_{\text{Fail}}\)：\(m_j \to q_i\) 表示模型 \(m_j\) 未能回答题目 \(q_i\)

性能矩阵： - 能力矩阵 \(A \in \{0,1\}^{Q \times M}\)，\(A_{ij}=1\) 表示模型 \(m_j\) 答对题 \(q_i\) - 难度矩阵 \(\hat{A} = (\mathbf{1}^{Q \times M} - A)^\top\)

预处理时排除所有模型都答对或都答错的题目（约占 2%），确保图的连通性。

转移矩阵： - 能力转移：\(P_{Q \to M} = \text{diag}(A\mathbf{1}_M)^{-1} A\) - 难度转移：\(P_{M \to Q} = \text{diag}(\hat{A}\mathbf{1}_Q)^{-1} \hat{A}\)

迭代分数传播¶

引入阻尼因子 \(\alpha \in (0,1)\)（类似 PageRank 的 teleportation），解决二部图 2-周期性问题：

\[\pi_Q^{(t+1)} = \alpha P_{M \to Q}^\top \pi_M^{(t)} + (1-\alpha)\frac{\mathbf{1}_Q}{Q}\]

\[\pi_M^{(t+1)} = \alpha P_{Q \to M}^\top \pi_Q^{(t+1)} + (1-\alpha)\frac{\mathbf{1}_M}{M}\]

该迭代过程构成遍历马尔可夫链，由 Perron-Frobenius 定理保证收敛到唯一平稳分布。

连续分数扩展¶

对于提供部分分数的基准测试，将二值矩阵 \(A\) 替换为连续矩阵 \(A_c \in [0,1]^{Q \times M}\)，所有后续公式形式不变。

损失函数¶

RankLLM 本身不需要训练/优化损失函数，而是通过迭代传播直接收敛。整个过程为非参数化方法，仅有一个阻尼超参数 \(\alpha\)。

实验关键数据¶

主实验¶

在 6 个基准、35,550 道题、30 个模型上评测：

数据集	题目数
BBH	6,511
GPQA	448
GSM8K	1,320
HellaSwag	10,000
MATH	5,000
MMLU-Pro	12,102

人类对齐：RankLLM 与人类共识达到 90% 一致，显著优于 Simple Rank (62.9%)、1PL-IRT (50.0%)、2PL-IRT (51.4%)、Multi-IRT (52.9%)。

关键排名发现：RankLLM 分数与准确率的 Kendall's Tau = 0.8492，表明总体趋势一致但在相邻模型间存在显著重排。例如 Qwen2-0.5B（准确率 20.2%）排名高于 DeepSeek-Chat-Lite（准确率 30.49%），原因是前者在难题上答对率为 5.5% vs 2.4%。

消融实验 / 效率分析¶

方法	收敛时间 (s)
RankLLM	0.00597
1PL-IRT	1,782.75
2PL-IRT	3,787.03
Multi-IRT (3D)	18.76

RankLLM 比最快的 IRT 基线快 3,100 倍以上。

鲁棒性：随机移除 \(k\) 个模型（\(k\) = 1~15），题目难度 Spearman 相关性保持在 0.938 以上，模型能力相关性保持在 0.993 以上。

可扩展性：测试规模扩展至 \(Q=1{,}000{,}000\)，\(M=2{,}000\)，始终在 9 次迭代内收敛，复杂度线性于 \(Q \times M\)。

关键发现¶

数据集难度分布：MATH 和 MMLU-Pro 具有更宽的难度分布，适合评测高级推理；GSM8K 和 HellaSwag 偏简单
模型族一致性：同一家族模型在不同参数量下保持稳定的难度分布模式（Llama、Qwen、Yi 均如此），缩放主要影响绝对准确率
开放权重模型的可靠性：仅用开放权重模型估计的难度与使用全模型池的结果高度相关（Spearman 0.96, Pearson 0.94）
多样性收益：混合规模模型池将极端误估减少 83%，与人类判断最一致（90% 共识）

亮点与洞察¶

优雅的非参数设计：整个方法仅依赖一个阻尼超参数，无需每题参数拟合，远比 IRT 简单
极高的计算效率：0.006 秒在消费级硬件上完成 30 模型 × 35K 题的评估
人类对齐度优异：90% 的共识一致性为该领域最高水平之一
理论保证：基于 Perron-Frobenius 定理的收敛证明确保了方法的可靠性
实际洞察丰富：揭示了 Qwen2-0.5B 在难题上优于 DeepSeek-Chat-Lite 等反直觉现象

局限性¶

难度定义基于模型群体的成败模式，当模型池同质化时可能产生偏差
只考虑答案的对错，未能捕捉推理过程的质量差异
阻尼因子 \(\alpha\) 的选择缺乏理论最优指导
人类评测规模有限（20 名评估者，70 个题对），统计功效可进一步提升

评分¶

创新性: ⭐⭐⭐⭐ — 非参数化的难度-能力联合估计，简洁优雅
实用性: ⭐⭐⭐⭐⭐ — 极低计算成本，已有 HuggingFace 排行榜
实验完整度: ⭐⭐⭐⭐⭐ — 6 个基准、30 个模型、人类评测、鲁棒性分析齐全
写作质量: ⭐⭐⭐⭐ — 思路清晰，公式推导完整
综合评分: ⭐⭐⭐⭐ — 方法简单有效，但理论贡献相对有限