Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences¶

会议: ICLR 2026 arXiv: 2510.13900 代码: science-of-finetuning/diffing-toolkit 领域: llm_nlp 关键词: 模型微调, 激活差异, Model Diffing, 可解释性, AI安全, Model Organisms, Patchscope

一句话总结¶

发现窄域微调（narrow finetuning）在 LLM 激活中留下清晰可读的痕迹：即使在无关文本的前几个 token 上，微调前后模型的激活差异也编码了微调目标的语义信息。通过 Activation Difference Lens（ADL）方法，可解释性 agent 识别微调目标的成功率达 91%，比黑盒基线高 2 倍以上。

研究背景与动机¶

Model Organisms 的局限¶

AI 安全研究中，"Model Organisms"是通过窄域微调创建的具有特定已知属性的模型（如诱导 misalignment、植入虚假事实），用于评估可解释性技术。但本文质疑其作为广泛微调代理的有效性。

核心发现¶

窄域微调创建了静态偏置（static biases）：在完全无关的文本（如随机网页数据）的前几个 token 上，微调模型与基座模型的激活差异 \(\boldsymbol{\delta}_{\ell,j} = \mathbf{h}^{\text{ft}}_{\ell,j} - \mathbf{h}^{\text{base}}_{\ell,j}\) 包含了关于微调域的丰富信息。

例如：一个在蛋糕烘焙精密技术上微调的模型，Patchscope 会揭示 "precision" 和 "cake" 等 token，steering 会生成 "Baking Manual:…" 类的文本。

方法详解¶

整体框架：Activation Difference Lens (ADL)¶

ADL 由三个工具组成，均基于激活差异 \(\bar{\boldsymbol{\delta}}_j\)（在 10,000 个预训练样本的前 \(k=5\) 个 token 位置上取平均）：

Patchscope 与 Logit Lens¶

Logit Lens：直接将 \(\bar{\boldsymbol{\delta}}\) 通过最终 layer norm 和 unembedding 矩阵映射为 token 分布。

Patchscope（改进版）：将缩放后的激活差异 \(\lambda \bar{\boldsymbol{\delta}}\) 注入特定提示格式的最后一个 token 位置，观察模型的预测输出。本文增加了： - 使用 LLM 自动搜索最优缩放因子 \(\lambda\) - 聚合多个提示的结果以提高鲁棒性

Token Relevance 评估：提取 Patchscope 的 Top-20 token，用 gpt-5-mini 评估其中与微调域相关的比例。

Steering¶

将缩放后的激活差异 \(\alpha \bar{\boldsymbol{\delta}}_j\) 添加到微调模型生成过程中的所有 token 位置： - 在 20 个固定 chat 提示上评估 - 用 gpt-5-nano 二分搜索最优 \(\alpha\)（保持连贯性的最大值） - 测量 steered 文本与微调数据集之间的语义嵌入余弦相似度（Qwen3 Embedding 0.6B）

可解释性 Agent¶

基于 gpt-5 的自动化 agent，被赋予： 1. Patchscope/Logit Lens 的 Top token 结果 2. Steered 和 unsteered 的生成文本对

Agent 通过与基座/微调模型的交互（预算 \(i\) 次）形成和验证假设，最终输出微调目标描述。评分由 gpt-5-mini 依据详细打分标准（1-5 分）打分。

因果分析¶

通过投影替换验证偏置的因果效应：

\[\widetilde{\mathbf{h}^{\text{ft}}}_{\ell,j} = \mathbf{P}_{\bar{\boldsymbol{\delta}}} \mathbf{h}^{\text{base}}_{\ell,j} + (\mathbf{I} - \mathbf{P}_{\bar{\boldsymbol{\delta}}}) \mathbf{h}^{\text{ft}}_{\ell,j}\]

测量替换后 loss 变化 \(\Delta_{\mathcal{L}_{\text{CE}}}\)：在微调数据上为正（移除偏置损害微调性能），在预训练数据上为负（移除偏置恢复通用能力）。

实验关键数据¶

实验覆盖范围¶

跨 4 类 Model Organisms × 7 个模型（1B-32B 参数）共 33 个实例： - SDF（合成文档微调）：植入虚假事实，5 种不同虚假事实 × 4 模型（Qwen3 1.7B/32B, Llama 3.2 8B, Gemma3 1B） - EM（Emergent Misalignment）：Bad Medical Advice、Extreme Sports、Risky Financial（Llama 3.1 8B, Qwen2.5 7B） - Subliminal Learning：通过数字序列诱导偏好（Qwen2.5 7B，学习"爱猫"） - Taboo 猜词游戏：隐藏词并给出提示（Qwen3 1.7B, Gemma2 9B）

主实验：Agent 性能对比¶

Agent 配置	Grade ≥ 2 率	Grade ≥ 4 率
Blackbox \(i=0\)	~15%	~0%
Blackbox \(i=5\)	~25%	~0%
Blackbox \(i=50\)	39%	1%
ADL \(i=0\)	82%	24%
ADL \(i=5\)	91%	30%

ADL agent 仅凭差异分析结果（\(i=0\), 无额外交互）就能在 82% 的 organisms 上正确识别广义微调目标。

Token Relevance 结果¶

Patchscope 在激活差异 \(\bar{\boldsymbol{\delta}}\) 上的 Token 相关度： - 跨所有 organism 类型：20%-80% 的 Top-20 token 与微调域相关 - 基线（base 模型平均激活、微调模型平均激活）相关度极低

Steering 结果¶

Steered 文本与微调数据集的语义相似度显著高于： - Unsteered 文本与微调数据集的相似度 - Steered 文本与普通 chat 数据集的相似度

消融实验：数据混合缓解偏置¶

在微调数据 \(|\mathcal{D}^{\text{ft}}| = 40,000\) 的基础上混入预训练数据：

混合比例 ft:pt	Steering 相似度	Token 相关度	事实内化度 (FFA)
1:0（纯微调）	高	高	高
1:0.1	显著降低	降低	略降
1:1	接近基线	大幅降低	中等降低
1:2	≈基线	接近基线	明显降低

在 1:1 混合比例下，所有 agent 均无法达到 Grade ≥ 2。

关键发现¶

窄域微调信号压倒 chat 微调信号：即使对比 base 与 finetuned-chat 模型，窄域微调的痕迹仍然清晰可见
位置影响：前几个位置最具信息量，但后续位置也编码微调信息，变异性更大
因果效应确认：偏置对微调数据有正向因果效应（移除后 loss 增加），对预训练数据有负向效应
Bayesian GLM 分析：ADL 访问权限是影响 agent 成绩的最强正向因子，模型类型和交互次数影响次之

亮点与洞察¶

深刻的 AI 安全启示：窄域微调的 model organisms 可能不是研究广泛微调行为的良好代理——过于容易被检测
简单工具的强大力量：仅用线性操作（平均激活差异）+ 现有工具（Patchscope/Logit Lens）就能还原微调目标
自动化可解释性的新范式：构建了完整的 agent-based 评估流水线，包含假设生成、验证和自动评分
与灾难性遗忘的联系：偏置很可能是对语义同质微调数据的过拟合，新学习覆写了旧知识
可操作的缓解策略：简单地混入无关数据即可大幅降低偏置

局限性¶

评估流水线依赖多个 LLM grader：引入噪声，不同 grader 间差异虽小但存在
偶然遗漏的偏置类型：混入数据后是否还有更微妙的无法检测的偏置，尚无定论
仅验证了窄域微调：广泛微调（如标准 chat tuning）几乎不产生可检测痕迹，论文结论受限于特定场景
缓解策略的权衡：混入数据可能降低微调目标的内化程度（尤其 Llama 3.2 1B）

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统性证明窄域微调在激活中留下可读痕迹
技术深度: ⭐⭐⭐⭐⭐ — 因果分析 + Bayesian GLM + 自动化 agent，方法论完备
实验充分度: ⭐⭐⭐⭐⭐ — 33 个 organisms × 7 模型 × 多种 agent 配置，极其全面
实用价值: ⭐⭐⭐⭐ — 对 AI 安全研究有直接指导意义
总体推荐: ⭐⭐⭐⭐⭐ — 优秀的 AI 安全+可解释性交叉工作，发现深刻且实验扎实