跳转至

AWM: Accurate Weight-Matrix Fingerprint for Large Language Models

会议: ICLR 2026
arXiv: 2510.06738
代码: https://github.com/LUMIA-Group/AWM
领域: 多模态VLM
关键词: model fingerprinting, intellectual property, weight manipulation, CKA, linear assignment problem

一句话总结

提出 AWM,一种无需训练的 LLM 权重矩阵指纹方法,利用线性分配问题(LAP)恢复嵌入层的置换和符号翻转,再用无偏 CKA 消除 Q/K 矩阵的正交变换影响,在 150 对 LLM 上实现完美 AUC(1.0),对 SFT、持续预训练(5.5T token)、RL、多模态扩展、剪枝、upcycling 六类后训练均鲁棒,30 秒内完成。

研究背景与动机

  1. 领域现状:LLM 训练成本极高,保护知识产权至关重要。需要判断一个可疑模型是从头训练还是从已有基础模型衍生。
  2. 现有痛点:模型常经历大量后训练(SFT、continued pretraining、RL、多模态扩展、剪枝、upcycling),参数变化巨大。水印方法需要额外训练且会损害性能。现有指纹方法(HuRef)对持续预训练不鲁棒,REEF 假阳率高。
  3. 核心矛盾:恶意行为者可以通过缩放、置换、剪枝甚至旋转权重矩阵来掩盖模型来源,但这些操作要保持模型性能不变。如何从这种约束中提取不变指纹?
  4. 本文要解决什么? 设计一种对所有常见后训练方式和权重操纵都鲁棒的指纹方法,同时保持低假阳率和高计算效率。
  5. 切入角度:系统分析 Transformer 各组件(残差连接、RMSNorm、RoPE)对权重操纵的约束——证明在保持模型输出不变的前提下,Q/K 矩阵只能承受特定的变换形式(置换+符号翻转+正交变换+误差),然后针对性地消除这些变换。
  6. 核心idea一句话:通过分析 Transformer 架构对权重操纵的结构约束,设计出理论上免疫所有可行操纵的指纹方法。

方法详解

整体框架

两阶段:(1) 从共享词表的嵌入矩阵中,用 LAP(匈牙利算法)恢复置换矩阵 P 和符号矩阵 D;(2) 用恢复的 P,D 对齐 Q/K 矩阵后,用无偏 CKA 计算逐层相似度(自然免疫正交变换和缩放)。

关键设计

  1. 权重操纵的理论分析:
  2. 做什么:精确刻画保持模型输出不变时权重矩阵的可行操纵空间
  3. 核心思路:(1) 残差连接要求操纵可在各组件间传播(Prop 4.2);(2) RMSNorm 只允许 \(R_{emb} = cPD\)(缩放+置换+符号翻转,Thm 4.3);(3) RoPE + attention score 进一步约束 Q/K 矩阵的操纵为 \(W_B = c^{-1}D^TP^TW_A^TU^T + E\)(Thm 4.4)
  4. 设计动机:不是启发式地选择指纹,而是从第一性原理推导出什么变换是合法的,然后针对性地消除

  5. LAP 恢复置换和符号(嵌入层):

  6. 做什么:从两个模型的共享词表嵌入中恢复置换矩阵 P 和符号矩阵 D
  7. 核心思路:构建嵌入列向量之间的绝对余弦相似度矩阵,用匈牙利算法求解最优列匹配(置换 P),然后用匹配处的余弦符号恢复 D
  8. 设计动机:嵌入矩阵的每行对应一个 token,没有行混合操纵,列操纵受 RMSNorm 约束为 cPD

  9. 无偏 CKA 消除正交变换(Q/K 矩阵):

  10. 做什么:用 CKA 度量对齐后的 Q/K 矩阵相似度
  11. 核心思路:CKA 天然不变于正交变换和常数乘法(Thm 3.1),免去了显式恢复 \(U_B\) 的需求。用无偏 UCKA 避免有限样本偏差。最终相似度 = 所有层 Q/K 的 UCKA 平均值
  12. 设计动机:正交矩阵 U 有 \(d^2\) 个参数,显式恢复不现实;CKA 正好提供免参数的解决方案

损失函数 / 训练策略

无需训练(training-free,无损性能)。仅需访问两个模型的权重矩阵,30 秒完成计算。

实验关键数据

主实验(150 对 LLM)

指标 AWM HuRef REEF
AUC 1.0 ~0.85 ~0.90
pAUC (FPR<5%) 1.0
TPR@1%FPR 1.0

鲁棒性(60 对 offspring model pairs)

后训练类型 AWM HuRef REEF
SFT ✅ (≥99.9%)
持续预训练 (5.5T tokens) ❌ 失败 部分
RL (PPO/DPO)
多模态扩展 - 部分
剪枝 ❌ 失败 部分
Upcycling - 部分

关键发现

  • 所有 offspring 模型的相似度 ≥99.9%,所有独立模型的相似度 ≤0.7%——分离度极高,零假阳风险
  • HuRef 对持续预训练和剪枝不鲁棒,REEF 在独立模型对上常出现高假阳率
  • 30 秒完成 (NVIDIA 3090)——比需要推理的黑盒方法快几个数量级
  • 方法对不同层数的模型也有效(通过层级 LAP 匹配解决)

亮点与洞察

  • 从第一性原理推导指纹:不是经验性地选择特征,而是系统分析 Transformer 每个组件对权重操纵的约束,推导出理论上完备的指纹方案——这种分析方法本身很有价值
  • CKA 的巧妙应用:利用 CKA 的正交不变性来消除 RoPE 引入的正交变换,避免了显式恢复高维正交矩阵的不可行性
  • 实用性极强:30 秒、单 GPU、无需训练、不损害性能、零假阳率——完全满足实际部署需求

局限性 / 可改进方向

  • 仅适用于 decoder-only Transformer 架构,encoder-decoder 或 SSM 架构需要重新分析
  • 假设可疑模型的操纵以保持输出不变为前提,如果攻击者愿意接受一定性能损失则可能绕过
  • 对完全重新训练的模型可能产生低相似度——但这是预期行为(不是从基础模型衍生的)
  • 需要白盒访问(模型权重),不适用于 API-only 的 MaaS 场景

相关工作与启发

  • vs HuRef: HuRef 也基于权重不变量,但对持续预训练不鲁棒。AWM 通过更完整的操纵分析和无偏 CKA 解决了这个问题
  • vs REEF: REEF 基于表示空间几何相似度,但假阳率高。AWM 直接在权重空间操作,分离度大幅提升
  • vs 水印方法: 水印需要额外训练且可能损害性能,AWM 是后验的、无损的

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 从 Transformer 架构约束推导指纹的方法论非常新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 150 对模型、6 类后训练、完美指标
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,实验全面
  • 价值: ⭐⭐⭐⭐⭐ LLM 知识产权保护的实用利器