RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty¶
会议: ICLR 2026 arXiv: 2602.12424 代码: 未公开(已建立 HuggingFace 排行榜平台) 领域: llm_nlp 关键词: LLM evaluation, question difficulty, model competency, bipartite graph, score propagation, benchmark
一句话总结¶
提出 RankLLM,一个基于有向二部图双向分数传播的非参数化框架,联合估计题目难度和模型能力,实现难度感知的 LLM 排名,与人类判断达到 90% 一致性。
研究背景与动机¶
现有主流 LLM 评测基准(如 MMLU-Pro、MATH、GSM8K 等)通常将性能压缩为各主题类别下的准确率,隐式地将所有题目视为同等重要。这种做法存在几个关键问题:
- 难度差异被忽略:将一道简单算术题和一道多步微积分推导题等同看待,无法区分模式匹配和高级推理能力
- 排名不稳定:当简单题和难题的比例变化时,模型排名可能会翻转
- 无法捕捉细粒度差异:整体准确率接近的模型之间的能力差异被掩盖
已有的 Item Response Theory (IRT) 方法虽然尝试建模题目难度,但需要对每道题进行参数化的 logistic 拟合,计算开销大,在样本量小和数据集大的场景下不够实用。
方法详解¶
整体框架¶
RankLLM 将题目和模型建模为有向二部图 \(\mathcal{G}=(\mathcal{V}, \mathcal{E})\) 中的节点,通过阻尼双向分数传播联合估计题目难度 \(\pi_q\) 和模型能力 \(\pi_m\)。核心直觉是:模型答对难题获得更高能力分,题目难倒强模型获得更高难度分。
关键设计¶
二部图构建:顶点集 \(\mathcal{V}=\mathcal{M}\cup\mathcal{Q}\),包含 \(M\) 个模型和 \(Q\) 道题目。边集分为两类: - 能力边 \(\mathcal{E}_{\text{Comp}}\):\(q_i \to m_j\) 表示模型 \(m_j\) 正确回答了题目 \(q_i\) - 难度边 \(\mathcal{E}_{\text{Fail}}\):\(m_j \to q_i\) 表示模型 \(m_j\) 未能回答题目 \(q_i\)
性能矩阵: - 能力矩阵 \(A \in \{0,1\}^{Q \times M}\),\(A_{ij}=1\) 表示模型 \(m_j\) 答对题 \(q_i\) - 难度矩阵 \(\hat{A} = (\mathbf{1}^{Q \times M} - A)^\top\)
预处理时排除所有模型都答对或都答错的题目(约占 2%),确保图的连通性。
转移矩阵: - 能力转移:\(P_{Q \to M} = \text{diag}(A\mathbf{1}_M)^{-1} A\) - 难度转移:\(P_{M \to Q} = \text{diag}(\hat{A}\mathbf{1}_Q)^{-1} \hat{A}\)
迭代分数传播¶
引入阻尼因子 \(\alpha \in (0,1)\)(类似 PageRank 的 teleportation),解决二部图 2-周期性问题:
该迭代过程构成遍历马尔可夫链,由 Perron-Frobenius 定理保证收敛到唯一平稳分布。
连续分数扩展¶
对于提供部分分数的基准测试,将二值矩阵 \(A\) 替换为连续矩阵 \(A_c \in [0,1]^{Q \times M}\),所有后续公式形式不变。
损失函数¶
RankLLM 本身不需要训练/优化损失函数,而是通过迭代传播直接收敛。整个过程为非参数化方法,仅有一个阻尼超参数 \(\alpha\)。
实验关键数据¶
主实验¶
在 6 个基准、35,550 道题、30 个模型上评测:
| 数据集 | 题目数 |
|---|---|
| BBH | 6,511 |
| GPQA | 448 |
| GSM8K | 1,320 |
| HellaSwag | 10,000 |
| MATH | 5,000 |
| MMLU-Pro | 12,102 |
人类对齐:RankLLM 与人类共识达到 90% 一致,显著优于 Simple Rank (62.9%)、1PL-IRT (50.0%)、2PL-IRT (51.4%)、Multi-IRT (52.9%)。
关键排名发现:RankLLM 分数与准确率的 Kendall's Tau = 0.8492,表明总体趋势一致但在相邻模型间存在显著重排。例如 Qwen2-0.5B(准确率 20.2%)排名高于 DeepSeek-Chat-Lite(准确率 30.49%),原因是前者在难题上答对率为 5.5% vs 2.4%。
消融实验 / 效率分析¶
| 方法 | 收敛时间 (s) |
|---|---|
| RankLLM | 0.00597 |
| 1PL-IRT | 1,782.75 |
| 2PL-IRT | 3,787.03 |
| Multi-IRT (3D) | 18.76 |
RankLLM 比最快的 IRT 基线快 3,100 倍以上。
鲁棒性:随机移除 \(k\) 个模型(\(k\) = 1~15),题目难度 Spearman 相关性保持在 0.938 以上,模型能力相关性保持在 0.993 以上。
可扩展性:测试规模扩展至 \(Q=1{,}000{,}000\),\(M=2{,}000\),始终在 9 次迭代内收敛,复杂度线性于 \(Q \times M\)。
关键发现¶
- 数据集难度分布:MATH 和 MMLU-Pro 具有更宽的难度分布,适合评测高级推理;GSM8K 和 HellaSwag 偏简单
- 模型族一致性:同一家族模型在不同参数量下保持稳定的难度分布模式(Llama、Qwen、Yi 均如此),缩放主要影响绝对准确率
- 开放权重模型的可靠性:仅用开放权重模型估计的难度与使用全模型池的结果高度相关(Spearman 0.96, Pearson 0.94)
- 多样性收益:混合规模模型池将极端误估减少 83%,与人类判断最一致(90% 共识)
亮点与洞察¶
- 优雅的非参数设计:整个方法仅依赖一个阻尼超参数,无需每题参数拟合,远比 IRT 简单
- 极高的计算效率:0.006 秒在消费级硬件上完成 30 模型 × 35K 题的评估
- 人类对齐度优异:90% 的共识一致性为该领域最高水平之一
- 理论保证:基于 Perron-Frobenius 定理的收敛证明确保了方法的可靠性
- 实际洞察丰富:揭示了 Qwen2-0.5B 在难题上优于 DeepSeek-Chat-Lite 等反直觉现象
局限性¶
- 难度定义基于模型群体的成败模式,当模型池同质化时可能产生偏差
- 只考虑答案的对错,未能捕捉推理过程的质量差异
- 阻尼因子 \(\alpha\) 的选择缺乏理论最优指导
- 人类评测规模有限(20 名评估者,70 个题对),统计功效可进一步提升
相关工作与启发¶
- 与 IRT 的关系:IRT(1PL/2PL)需要参数化拟合,计算成本高且在小样本下不稳定;RankLLM 是纯图算法,线性复杂度
- 与 PageRank 的关系:RankLLM 的阻尼传播本质上是 bipartite 版本的 PageRank,但针对评测场景设计了能力-难度双向传播
- 对评测实践的启发:混合规模模型池是最佳评测配置;单一类型模型池会导致难度估计的系统性偏差
评分¶
- 创新性: ⭐⭐⭐⭐ — 非参数化的难度-能力联合估计,简洁优雅
- 实用性: ⭐⭐⭐⭐⭐ — 极低计算成本,已有 HuggingFace 排行榜
- 实验完整度: ⭐⭐⭐⭐⭐ — 6 个基准、30 个模型、人类评测、鲁棒性分析齐全
- 写作质量: ⭐⭐⭐⭐ — 思路清晰,公式推导完整
- 综合评分: ⭐⭐⭐⭐ — 方法简单有效,但理论贡献相对有限