Analyzing Finetuning Representation Shift for Multimodal LLMs Steering¶

会议: ICCV 2025
arXiv: 2501.03012
代码: 项目页面
领域: multimodal_vlm
关键词: MLLM可解释性, 概念漂移, 表征偏移, 模型引导, 去偏

一句话总结¶

提出一个无需训练的框架，通过概念级别分析揭示多模态大语言模型微调时的表征偏移，并利用偏移向量实现模型行为的轻量级引导（去偏、安全控制）。

研究背景与动机¶

多模态大语言模型（MLLMs）在图像描述、视觉问答等任务上表现出色，但理解其内部行为仍是挑战。现有工作大多以"事后分析"的方式考察最终训练好的模型，忽略了 微调过程中隐含概念发生的动态变化。例如，当对图像描述模型做"场所聚焦"微调后，原本与"人"相关的概念可能悄然引入场所关键词，甚至部分概念完全消失或新概念涌现。

作者指出两个核心问题：

微调引入不可控的概念漂移：不同概念受微调影响程度不同，一些被精化，一些被彻底重塑。这些变化可能引入偏见或不安全行为。

缺少解释和控制手段：现有可解释方法多面向单模态（视觉或文本），对 MLLM 几乎空白；而引导（steering）方法也仅在纯文本 LLM 上有探索。

因此本文希望：(a) 在可读的概念层面监控微调带来的变化，(b) 利用发现的偏移向量以零额外训练代价引导 MLLM 行为。

方法详解¶

整体框架¶

框架分三部分：概念提取与比较（Section 3.1）→ 微调概念偏移恢复（Section 3.2）→ 模型引导应用（Section 3.3）。

关键设计¶

概念提取（K-Means 字典学习）
给定一组图像，通过 MLLM 某一层的残差流提取表征 \(\bm{Z} \in \mathbb{R}^{D \times M}\)，对其做 K-Means 分解 \(\bm{Z} \approx \bm{U}\bm{V}\)。\(\bm{U}\) 的每一列 \(\bm{u}_k\) 即一个概念，通过 图像 grounding（最大激活样本）和 文本 grounding（unembedding 矩阵映射到词表）进行人类可读解释。概念间相似度用 Text Grounding Overlap (T-Overlap) 衡量。
概念偏移向量（Concept Shift Vectors）
对比原始模型 \(f^a\) 与微调模型 \(f^b\) 在同一数据集上的表征，为每个原始概念 \(\bm{u}_k^a\) 找到其关联样本集 \(\bm{A}_k\)，计算偏移向量： \(\bm{\Delta}_k^{a \to b}(\bm{u}_k^a) = \frac{1}{|\bm{A}_k|} \sum_{m \in \bm{A}_k} (\bm{b}_m - \bm{a}_m)\) 然后通过 \(\bm{u}_k^s = \bm{u}_k^a + \alpha \bm{\Delta}_k^{a \to b}\) 得到偏移概念。关键发现：个体偏移一致性越高，概念恢复越好（正相关且统计显著）。
粗粒度与细粒度模型引导
- 粗粒度引导：计算目标样本集与原始样本集均值之差作为引导向量 \(\bm{s}_c\)，在推理时加到特征上 \(\tilde{f_l}(x) = f_l(x) + \alpha \bm{s}_c\)。
- 细粒度引导：分解概念后，计算概念对之间的差 \(\bm{s}_{ij}^f = \bm{u}_j - \bm{u}_i\)，仅对激活特定概念的样本施加引导，实现定向修改（如将"yes"答案引导为"no"）。

损失函数 / 训练策略¶

本方法 无需训练。偏移向量和引导向量均在推理时直接加到残差流表征上，不改变任何模型参数。\(\alpha\) 默认为 1。引导在深层（尤其最后一层）最有效，因为深层概念近似线性可分。

实验关键数据¶

主实验（表格）¶

引导方向	Yes/No 准确率	Number 准确率	Other 准确率	原始答案变化	目标答案变化
无引导	90.82	58.47	71.10	0	0
Yes→No	69.03	56.82	68.99	-828	+828
1→3	90.71	54.52	71.12	-215	+144
White→Black	90.40	58.42	58.36	-98	+441

在 VQAv2 上，引导可显著改变目标答案数量，同时 其他答案类型的准确率和数量基本不变，体现了引导的定向性。

消融实验（表格）¶

模型	总性别表达数	方法	性别→中性转换数
LLaVA-1.5	794	粗粒度引导	232
LLaVA-1.5	794	细粒度引导	632
Idefics2	815	粗粒度引导	237
Idefics2	815	细粒度引导	315
Qwen2-VL	926	粗粒度引导	134
Qwen2-VL	926	细粒度引导	300

细粒度引导在性别去偏任务中远优于粗粒度引导，且在三个不同 MLLM 上均有效。

关键发现¶

微调使概念逐渐偏离原始状态（T-Overlap 随迭代递减），不同概念受影响程度差异大。
偏移向量能部分恢复微调后的概念（\(\alpha=1\) 通常最优），恢复效果与个体偏移一致性正相关。
安全引导：Qwen2-VL 的 ASR（攻击成功率）从 45/100 降至 5/100，效果突出。

亮点与洞察¶

概念即向量的线性假设在 MLLM 深层得到实证验证，为轻量引导奠定理论基础。
将可解释性与可控性统一在同一框架中：先理解（分析偏移），后操控（应用偏移向量）。
方法零训练成本、即插即用，可扩展到多种 MLLM（LLaVA、Idefics2、Qwen2-VL）。

局限与展望¶

依赖线性表征假设，对非线性编码的特征可能失效。
概念匹配使用余弦相似度 + 最优传输，更复杂的匹配算法可能改善结果。
引导强度 \(\alpha\) 增大时，输出多样性下降甚至退化为重复词。
仅在图像描述/VQA 场景验证，更复杂的多模态交互（视频、对话）有待探索。

评分¶

新颖性: ⭐⭐⭐⭐ （首个系统性分析 MLLM 微调概念偏移并实现引导的工作）
实验充分度: ⭐⭐⭐⭐ （多模型/多任务/多场景，包含去偏和安全应用）
写作质量: ⭐⭐⭐⭐ （结构清晰，图表丰富）
价值: ⭐⭐⭐⭐ （零成本引导对 MLLM 安全和去偏有实际意义）