AWM: Accurate Weight-Matrix Fingerprint for Large Language Models¶

会议: ICLR 2026
arXiv: 2510.06738
代码: https://github.com/LUMIA-Group/AWM
领域: 多模态VLM
关键词: model fingerprinting, intellectual property, weight manipulation, CKA, linear assignment problem

一句话总结¶

提出 AWM，一种无需训练的 LLM 权重矩阵指纹方法，利用线性分配问题（LAP）恢复嵌入层的置换和符号翻转，再用无偏 CKA 消除 Q/K 矩阵的正交变换影响，在 150 对 LLM 上实现完美 AUC（1.0），对 SFT、持续预训练（5.5T token）、RL、多模态扩展、剪枝、upcycling 六类后训练均鲁棒，30 秒内完成。

研究背景与动机¶

领域现状：LLM 训练成本极高，保护知识产权至关重要。需要判断一个可疑模型是从头训练还是从已有基础模型衍生。
现有痛点：模型常经历大量后训练（SFT、continued pretraining、RL、多模态扩展、剪枝、upcycling），参数变化巨大。水印方法需要额外训练且会损害性能。现有指纹方法（HuRef）对持续预训练不鲁棒，REEF 假阳率高。
核心矛盾：恶意行为者可以通过缩放、置换、剪枝甚至旋转权重矩阵来掩盖模型来源，但这些操作要保持模型性能不变。如何从这种约束中提取不变指纹？
本文要解决什么？ 设计一种对所有常见后训练方式和权重操纵都鲁棒的指纹方法，同时保持低假阳率和高计算效率。
切入角度：系统分析 Transformer 各组件（残差连接、RMSNorm、RoPE）对权重操纵的约束——证明在保持模型输出不变的前提下，Q/K 矩阵只能承受特定的变换形式（置换+符号翻转+正交变换+误差），然后针对性地消除这些变换。
核心idea一句话：通过分析 Transformer 架构对权重操纵的结构约束，设计出理论上免疫所有可行操纵的指纹方法。

方法详解¶

整体框架¶

两阶段：(1) 从共享词表的嵌入矩阵中，用 LAP（匈牙利算法）恢复置换矩阵 P 和符号矩阵 D；(2) 用恢复的 P,D 对齐 Q/K 矩阵后，用无偏 CKA 计算逐层相似度（自然免疫正交变换和缩放）。

关键设计¶

权重操纵的理论分析:
做什么：精确刻画保持模型输出不变时权重矩阵的可行操纵空间
核心思路：(1) 残差连接要求操纵可在各组件间传播（Prop 4.2）；(2) RMSNorm 只允许 \(R_{emb} = cPD\)（缩放+置换+符号翻转，Thm 4.3）；(3) RoPE + attention score 进一步约束 Q/K 矩阵的操纵为 \(W_B = c^{-1}D^TP^TW_A^TU^T + E\)（Thm 4.4）
设计动机：不是启发式地选择指纹，而是从第一性原理推导出什么变换是合法的，然后针对性地消除
LAP 恢复置换和符号（嵌入层）:
做什么：从两个模型的共享词表嵌入中恢复置换矩阵 P 和符号矩阵 D
核心思路：构建嵌入列向量之间的绝对余弦相似度矩阵，用匈牙利算法求解最优列匹配（置换 P），然后用匹配处的余弦符号恢复 D
设计动机：嵌入矩阵的每行对应一个 token，没有行混合操纵，列操纵受 RMSNorm 约束为 cPD
无偏 CKA 消除正交变换（Q/K 矩阵）:
做什么：用 CKA 度量对齐后的 Q/K 矩阵相似度
核心思路：CKA 天然不变于正交变换和常数乘法（Thm 3.1），免去了显式恢复 \(U_B\) 的需求。用无偏 UCKA 避免有限样本偏差。最终相似度 = 所有层 Q/K 的 UCKA 平均值
设计动机：正交矩阵 U 有 \(d^2\) 个参数，显式恢复不现实；CKA 正好提供免参数的解决方案

损失函数 / 训练策略¶

无需训练（training-free，无损性能）。仅需访问两个模型的权重矩阵，30 秒完成计算。

实验关键数据¶

主实验（150 对 LLM）¶

指标	AWM	HuRef	REEF
AUC	1.0	~0.85	~0.90
pAUC (FPR<5%)	1.0	低	低
TPR@1%FPR	1.0	低	低

鲁棒性（60 对 offspring model pairs）¶

后训练类型	AWM	HuRef	REEF
SFT	✅ (≥99.9%)	✅	✅
持续预训练 (5.5T tokens)	✅	❌ 失败	部分
RL (PPO/DPO)	✅	✅	✅
多模态扩展	✅	-	部分
剪枝	✅	❌ 失败	部分
Upcycling	✅	-	部分

关键发现¶

所有 offspring 模型的相似度 ≥99.9%，所有独立模型的相似度 ≤0.7%——分离度极高，零假阳风险
HuRef 对持续预训练和剪枝不鲁棒，REEF 在独立模型对上常出现高假阳率
30 秒完成 (NVIDIA 3090)——比需要推理的黑盒方法快几个数量级
方法对不同层数的模型也有效（通过层级 LAP 匹配解决）

亮点与洞察¶

从第一性原理推导指纹：不是经验性地选择特征，而是系统分析 Transformer 每个组件对权重操纵的约束，推导出理论上完备的指纹方案——这种分析方法本身很有价值
CKA 的巧妙应用：利用 CKA 的正交不变性来消除 RoPE 引入的正交变换，避免了显式恢复高维正交矩阵的不可行性
实用性极强：30 秒、单 GPU、无需训练、不损害性能、零假阳率——完全满足实际部署需求

局限性 / 可改进方向¶

仅适用于 decoder-only Transformer 架构，encoder-decoder 或 SSM 架构需要重新分析
假设可疑模型的操纵以保持输出不变为前提，如果攻击者愿意接受一定性能损失则可能绕过
对完全重新训练的模型可能产生低相似度——但这是预期行为（不是从基础模型衍生的）
需要白盒访问（模型权重），不适用于 API-only 的 MaaS 场景

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从 Transformer 架构约束推导指纹的方法论非常新颖
实验充分度: ⭐⭐⭐⭐⭐ 150 对模型、6 类后训练、完美指标
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，实验全面
价值: ⭐⭐⭐⭐⭐ LLM 知识产权保护的实用利器