LLM DNA: Tracing Model Evolution via Functional Representations¶

会议: ICLR 2026
arXiv: 2509.24496
代码: GitHub
领域: 模型压缩
关键词: LLM DNA, 模型进化树, 功能表示, 系统发育分析, 模型溯源

一句话总结¶

从生物学 DNA 类比出发，将 LLM DNA 数学定义为模型功能行为的低维双 Lipschitz 表示，证明其满足遗传和基因决定性属性，并设计了无需训练的 RepTrace 管道在 305 个 LLM 上提取 DNA、构建进化树。

Hugging Face 上有数百万个 LLM，它们通过微调、蒸馏、适配等方式相互衍生，但进化关系通常缺乏文档记录。追踪模型进化对安全审计（后门传递追踪）、模型治理（许可证合规验证）和多智能体系统设计都至关重要。

现有方法的局限：

任务特定表示（HybridLLM, RouteLLM）：为特定下游任务训练，不具通用性

固定模型集表示（EmbedLLM）：添加新模型需要重训练，非内在属性

token/参数级比较（Nikolic等）：依赖相同的分词器或架构，无法跨异构模型泛化

核心问题是：能否定义一种内在的、通用的 LLM "DNA"，使得功能相似的模型具有相近的 DNA，且 DNA 对微调等小扰动保持稳定？

核心idea：定义 LLM DNA 为从功能空间到低维空间的双 Lipschitz 映射，利用 Johnson-Lindenstrauss 引理证明存在性，用随机线性投影实现提取。

RepTrace 管道：选取采样输入集 → 每个LLM生成文本响应 → 句子嵌入模型编码为语义向量 → 拼接所有响应向量 → 随机高斯投影到低维DNA空间。

LLM DNA 数学定义:
- 功能：将每个 LLM 映射为一个低维向量（DNA）
- 核心思路：定义 DNA 映射满足双 Lipschitz 条件 \(c_1 \cdot d_H(f_1, f_2) \leq d_\tau(\tau_{f_1}, \tau_{f_2}) \leq c_2 \cdot d_H(f_1, f_2)\)。下界保证基因决定性（相近DNA → 相似功能），上界保证遗传性（小修改 → 相近DNA）
- 设计动机：类比生物DNA的两个核心属性，提供严格的数学保证
存在性证明与构造:
- 功能：证明满足定义的 DNA 一定存在，并给出构造方法
- 核心思路：先将 LLM 功能表示为高维 Hilbert 空间中的向量（Lemma A.4），再由 JL 引理保证低维双Lipschitz嵌入存在。DNA维度 \(L = O\left(\left[\frac{c_2+c_1}{c_2-c_1}\right]^2 \log K\right)\)，\(K\) 为模型数量
- 设计动机：JL引理的随机投影是最优线性降维方法（Larsen & Nelson, 2014），且计算高效
RepTrace 实用管道:
- 语义感知表示：用句子嵌入模型（如 Qwen3-Embedding-8B）将文本响应编码为向量，解决表层文本匹配的不足
- 随机功能距离：采样 \(t\) 个代表性提示，用经验距离近似真实功能距离，满足集中不等式 \(P(|\frac{1}{t}\hat{d}_f^2 - d_H^2| \geq \epsilon) \leq 2\exp(-\frac{2t\epsilon^2}{C_{\max}^2})\)
- 具体实现：6个数据集各100个样本作为输入，生成响应后嵌入拼接，随机高斯矩阵 \(A \sim \mathcal{N}(0, 1/\sqrt{L})\) 投影

RepTrace 完全无需训练。唯一需要的是采样输入集和预计算的随机投影矩阵，都是一次性操作。

方法	Accuracy	Precision	Recall	F1	AUC
Random	50.0	50.0	50.0	50.0	0.500
Greedy	~65	-	-	-	-
PhyloLM	~80	-	-	~80	~0.85
DNA (Qwen-8B)	~95	-	-	~95	0.992
DNA (BGE-0.3B)	~95	-	-	~95	0.99+
DNA (MPNet-0.1B)	~95	-	-	~95	0.99+