跳转至

Mapping 1,000+ Language Models via the Log-Likelihood Vector

会议: ACL 2025
arXiv: 2502.16173
代码: https://github.com/shimo-lab/modelmap
领域: LLM / NLP
关键词: model mapping, log-likelihood vector, KL divergence, model clustering, benchmark prediction

一句话总结

提出用对数似然向量(log-likelihood vector)将 1000+ 语言模型映射到一个统一空间,证明向量间欧氏距离近似 KL 散度,可实现模型聚类可视化、基准性能预测(r=0.96)和数据泄漏检测。

研究背景与动机

  1. 领域现状:LLM 生态爆发式增长,HuggingFace 上拥有海量模型变体(基座、微调、合并等),但缺乏系统性方法来比较和理解这些模型之间的关系。
  2. 现有痛点:现有方法各有局限——基于模型名称/属性的分类依赖元数据、基于输出文本的比较缺乏理论基础、排行榜排名是离散的且只反映特定任务维度。
  3. 核心矛盾:语言模型本质上是概率分布,应该用概率分布的几何结构来分析,而不是依赖任意指标。
  4. 本文要解决什么:如何用理论驱动的方法大规模系统比较 1000+ 模型,揭示它们之间的关系和结构?
  5. 切入角度:利用信息几何的思想,用模型在固定文本集上的对数似然值作为坐标,证明这一表示近似 KL 散度。
  6. 核心 idea 一句话:每个语言模型用其在 10000 段文本上的对数似然向量表示,向量间欧氏距离 ≈ KL 散度,由此构建"模型地图"。

方法详解

整体框架

给定 K 个模型和 N 段文本,计算 K×N 的对数似然矩阵 \(\mathbf{L}\),经过双中心化处理后得到每个模型的坐标向量 \(\mathbf{q}_i \in \mathbb{R}^N\),在此空间中用 t-SNE 可视化、聚类分析、回归预测基准分数。

关键设计

  1. 对数似然向量表示:
  2. 做什么:对每个模型 \(p_i\) 和每段文本 \(x_s\),计算 \(\ell_i(x_s) = \sum_{t=1}^n \log p_i(y_t | y^{t-1})\),组成向量 \(\boldsymbol{\ell}_i \in \mathbb{R}^N\)
  3. 核心思路:这就是交叉熵损失的负值,无需额外计算——训练/评估模型时自然产出
  4. 设计动机:对数似然是概率模型最基本的量,直接反映模型对每段文本建模的"好坏"

  5. 双中心化 (Double Centering):

  6. 做什么:先行中心化(减去每个模型的平均对数似然 \(\bar{\ell}_i\),消除模型整体能力差异),再列中心化(减去每段文本跨模型的平均值,消除文本难度差异)
  7. 核心思路:\(\xi_{is} = \ell_i(x_s) - \bar{\ell}_i\),然后 \(\mathbf{q}_i = \boldsymbol{\xi}_i - \bar{\boldsymbol{\xi}}\)
  8. 设计动机:行中心化消除模型规模带来的 perplexity 差异(否则大模型都聚在一起),列中心化消除文本固有难度差异

  9. KL 散度近似 (核心理论):

  10. 做什么:证明在模型近似真实分布的假设下,\(2 \text{KL}(p_i, p_j) \approx \text{Var}_{x \sim p_0}(\ell_i(x) - \ell_j(x))\)
  11. 核心思路:从数据估计为 \(2 \text{KL}(p_i, p_j) \approx \|\mathbf{q}_i - \mathbf{q}_j\|^2 / N\)
  12. 设计动机:将分布差异转化为向量空间中的欧氏距离,使大规模模型比较变得高效且有理论保证

应用场景

  • 可视化:t-SNE 降维画"模型地图",同族模型自然聚类
  • 性能预测:用 \(\mathbf{q}_i\) 做 Ridge 回归预测基准分数
  • 数据泄漏检测:比较标准化平均对数似然与基准分数,异常高的可能有数据泄漏

实验关键数据

基准性能预测 (Ridge 回归)

基准 Pearson's r Spearman's ρ
ARC 0.946 0.948
HellaSwag 0.909 0.956
MMLU 0.932 0.934
TruthfulQA 0.901 0.884
Winogrande 0.941 0.948
GSM8K 0.884 0.857
6-TaskMean 0.953 0.960

对比:直接用平均对数似然(perplexity)预测

基准 Pearson's r Spearman's ρ
ARC 0.453 0.432
MMLU 0.346 0.422
TruthfulQA 0.072 0.048
6-TaskMean 0.395 0.400

关键发现

  • 用 10000 个文本的对数似然向量就能以 r=0.96 的精度预测 6 项基准平均分——远超简单 perplexity(r=0.40)
  • 累积贡献率 90% 只需 42 维,95% 只需 82 维,说明模型间差异的有效维度很低
  • 同族模型(Llama-2、Mistral、Gemma 等)在地图上紧密聚类
  • 代码特化模型在 GitHub/StackExchange 维度上有独特特征
  • 权重插值实验证实:权重空间的线性插值在对数似然空间中也保持线性结构
  • 理论验证:token 级 KL 近似相关性 r=0.893,文本级 r=0.904
  • 整个计算 1018 模型只需单 GPU ~10 分钟

亮点与洞察

  • 概率理论驱动的模型分析:不同于经验性的排行榜比较,本文从信息几何角度出发,给出了"模型距离"的理论保证(≈ KL 散度),这是最优雅的地方。
  • 双中心化的设计非常关键:消除了模型规模和文本难度两个混淆因素,否则所有分析都会被这两个因素主导。
  • 数据泄漏检测是一个意外的有价值应用:在 Pile 上预训练的模型会显示出对数似然异常高但基准分数不匹配的现象,可用于筛查。
  • 计算效率极高:不需要生成文本或运行基准,只需一次前向传播就能获得模型在整个空间中的坐标。

局限性 / 可改进方向

  • 依赖于参考文本集的选择——不同文本集可能得到不同的模型地图
  • KL 散度近似的前提(模型近似真实分布)在实际中不完全成立
  • 仅测试了 1-13B 参数的模型,更大模型或全新架构(如 MoE)的表现未知
  • 无法直接比较使用不同 tokenizer 的模型(需要 token 级近似)

相关工作与启发

  • vs Open LLM Leaderboard:排行榜只给排名,本文给出连续空间中的位置和距离,信息量更大
  • vs 激活空间比较:之前的模型比较依赖中间激活,需要白盒访问;本文只需要对数似然,黑盒即可
  • 这个方法可以扩展到:选择最适合特定任务的模型(在地图上找最近邻)、检测模型是否为某个基座的微调版本

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次大规模理论驱动的模型空间映射
  • 实验充分度: ⭐⭐⭐⭐⭐ 1018 模型 + 理论验证 + 多种应用展示
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,但内容过于密集
  • 价值: ⭐⭐⭐⭐⭐ 为理解 LLM 生态系统提供了基础工具