Cross-model Transferability among Large Language Models on the Platonic Representations of Concepts¶

会议: ACL 2025
arXiv: 2501.02009
代码: 无
领域: llm_nlp
关键词: steering vectors, cross-model transfer, representation alignment, linear transformation, LLM interpretability

一句话总结¶

提出 L-Cross Modulation 方法，通过简单线性变换将一个 LLM 的概念方向向量（steering vectors）迁移到另一个 LLM 中实现行为控制，发现三个关键结论：(1) 跨模型 SV 迁移有效；(2) 不同概念共享同一变换矩阵；(3) 小模型的 SV 可以控制大模型（弱到强迁移）。

研究背景与动机¶

领域现状：Steering vectors（SVs）是 LLM 内部概念的方向表示，可用于控制生成行为（如引导生成有害/无害内容），但研究局限于单个 LLM 内部。
现有痛点：不同 LLM 有各自的表示空间，SV 不能直接跨模型使用——如从 Llama 提取的 SV 无法直接用于 Qwen。
核心矛盾：如果不同 LLM 学到了同一概念的不同表示，跨模型控制就不可行；但 Platonic Representation Hypothesis 认为不同网络会趋向共享的现实统计模型。
本文要解决什么？ 验证概念表示在不同 LLM 间是否共享一个底层结构，以及能否通过简单变换实现跨模型迁移。
切入角度：类比柏拉图洞穴寓言——不同 LLM 是不同"囚徒"，看到的是同一现实的不同"影子"，线性变换是"影子"之间的桥梁。
核心 idea 一句话：不同 LLM 的概念表示存在线性可变换的共享结构，支持弱到强的跨模型控制。

方法详解¶

整体框架¶

(1) 在共享语料库上用源/目标 LLM 分别编码句子 → (2) 最小二乘法求解线性变换矩阵 \(\mathbf{T}\) 使源表示映射到目标表示 → (3) 用 \(\mathbf{T}\) 变换源模型的 SV，注入目标模型的隐状态进行行为控制。

关键设计¶

线性变换矩阵 \(\mathbf{T}\) 的学习:
做什么：用 OLS 最小化 \(\|\lambda_\mathcal{D}^{m_t} - \lambda_\mathcal{D}^{m_s} \mathbf{T}'\|\)
闭式解：\(\mathbf{T} = (\lambda^{m_s\top}\lambda^{m_s})^\dagger \lambda^{m_s\top}\lambda^{m_t}\)
设计动机：线性变换保持概念间的基本关系（仅旋转和缩放），有利于验证表示的普遍性
语料库选择:
可用概念相关对比文本 \(Y_W\)（更精确）
也可用概念无关通用文本（更通用）——实验发现通用语料库的 \(\mathbf{T}\) 也能有效跨概念迁移
弱到强迁移:
从 Qwen-0.5B 提取的 SV 经变换后可以有效控制 Qwen-7B 的行为
意味着小模型已捕捉到概念的核心方向

实验关键数据¶

RQ1: 跨模型迁移有效性（11 个概念）¶

概念	No Mod	Self Mod	L-Cross (Qwen→Llama2)
Harmfulness (↑)	0%	90%+	~90%（接近 Self Mod）
Happiness (↑)	低	高	接近 Self
Refusal (↓)	基线	大幅变化	有效变化

RQ2: 变换矩阵跨概念泛化¶

用概念 W1 的数据学到的 \(\mathbf{T}_{Y_{W_1}}\) 可以有效迁移概念 W2 的 SV
甚至用通用语料库（概念无关文本）学到的 \(\mathbf{T}\) 也有效
暗示不同概念的 SV 共享底层的跨模型变换结构

RQ3: 弱到强迁移¶

源模型	目标模型	效果
Qwen-0.5B	Qwen-7B	有效（接近同模型 Self Mod）

关键发现¶

线性变换足以对齐不同 LLM 的概念空间（不需要复杂非线性映射）
同一变换矩阵对多个概念都有效 → 概念间的关系结构跨模型一致
小模型到大模型的迁移有效 → 概念的核心方向在不同规模模型中共享

亮点与洞察¶

用柏拉图洞穴寓言类比非常生动——不同 LLM 看到同一"现实"的不同"影子"，但底层结构一致
线性可迁移性支持了 Platonic Representation Hypothesis 在 LLM 概念层面的成立
弱到强迁移对 AI 安全有直接意义：可以用小模型作为"概念探测器"来控制大模型

局限性 / 可改进方向¶

仅在 3 个 LLM 系列（Llama2/3.1、Qwen2）上验证
线性变换可能不适用于差异极大的架构
缩放因子 \(\beta\) 仍需手动调整
未验证在多轮对话等复杂场景中的效果

评分¶

新颖性: ⭐⭐⭐⭐⭐ 跨模型概念迁移+弱到强控制是全新视角
实验充分度: ⭐⭐⭐⭐ 11 个概念、3 个 RQ 递进、多模型对比
写作质量: ⭐⭐⭐⭐⭐ 柏拉图寓言的类比优美，叙述逻辑清晰
价值: ⭐⭐⭐⭐⭐ 对 LLM 可解释性和安全研究有深远影响