COSMIC: Generalized Refusal Direction Identification in LLM Activations¶
会议: ACL2025 arXiv: 2506.00085 代码: GitHub 领域: llm_nlp 关键词: mechanistic interpretability, refusal steering, activation space, cosine similarity, LLM safety
一句话总结¶
提出 COSMIC(Cosine Similarity Metrics for Inversion of Concepts),一种基于余弦相似度的自动化方向选择框架,无需依赖模型输出 token 或预定义的拒绝模板即可在 LLM 激活空间中识别拒绝方向,在对抗场景和弱对齐模型中仍能有效执行拒绝引导。
研究背景与动机¶
-
拒绝行为是 LLM 安全的核心:LLM 需要拒绝有害提示以确保安全,但现有识别拒绝方向的方法依赖输出端信号(如子字符串匹配),缺乏通用性。
-
现有方法的假设过强:LCE(Linear Concept Editing)的方向选择依赖手动定义的拒绝 token(如 "I" 或 "As"),这种子字符串匹配容易产生假阳性("I can do that!")和假阴性("Here's why I cannot help...")。
-
ACE 需要人工分析:ACE(Affine Concept Editing)的方向选择需要人工检查和大模型作为 judge,限制了可复现性和实用性,且忽略了较早的 post-instruction token 位置。
-
对抗场景下的失效:当模型以非标准方式拒绝、使用对抗性系统提示导致全面拒绝、或本身对齐较弱时,基于输出的方法完全失效。
-
安全审计需求:模型可能伪装其对齐能力(deceptive alignment),需要能在输出被混淆的情况下仍能检测拒绝行为的方法。
-
线性 vs 仿射表示之争:拒绝行为在激活空间中的表示结构(线性还是仿射)尚存争议,需要一种对两种假设都兼容的方法。
方法详解¶
整体框架¶
COSMIC 的流程:(1) 从训练集中使用差异均值法提取候选方向向量(5个 post-instruction token 位置 × L 层 = 5L 个候选);(2) 选择余弦相似度最低的 10% 层作为评估层;(3) 对每个候选方向执行消融和激活添加,计算概念反转评分;(4) 选择最大化反转相似度的方向用于推理时引导。
关键设计¶
概念反转评分机制:核心思想是好的拒绝方向应该能让无害提示的激活(经添加后)与有害提示的原始激活对齐,反之亦然:
- S_refuse = cos(a_+, b):添加方向后的无害激活 vs 原始有害激活
- S_comply = cos(a, b_-):原始无害激活 vs 消融方向后的有害激活
最终选择使两者之和最大的方向。
评估层选择:计算训练集上有害与无害提示在每层的余弦相似度,选择最低 10% 的层。这些层更可能编码拒绝特异性行为,是拒绝概念化的下游层。
方向应用方式:COSMIC 与具体的引导技术解耦,可搭配 LCE(方向消融,跨层投影移除)和 ACE(仿射概念编辑,单层仿射变换,保留无害基线信息)使用。
损失函数/目标¶
无训练损失;方向选择完全基于余弦相似度目标函数的最大化,辅以 KL 散度过滤(排除在无害提示上改变输出分布过大的方向)。
实验关键数据¶
主实验(Figure 3 - ASR 比较)¶
在 8 个指令调优模型上评估,使用 LlamaGuard 3 衡量攻击成功率(ASR):
| 模型 | COSMIC-LCE ASR | Substring-LCE ASR | COSMIC-ACE ASR |
|---|---|---|---|
| LLaMA-3.1-70B | ~0.78 | ~0.80 | ~0.76 |
| Qwen2.5-72B | ~0.89 | ~0.17 | ~0.57 |
| Gemma-2-27B-IT | LCE未收敛 | LCE未收敛 | 0.53 |
- COSMIC 在不依赖输出假设的情况下,引导性能与子字符串匹配方法相当甚至更优
- 在 GPQA、AI2 ARC、TruthfulQA 知识基准上消融后无显著性能差异
对抗场景实验(Table 1 - 全面拒绝设置)¶
系统提示诱导全面拒绝后: - LLaMA-3.1-8B COSMIC-LCE ASR:0.84/0.63(训练+验证均拒绝 / 仅验证拒绝),差异仅 ↑0.01 - COSMIC-ACE 极其鲁棒:所有测试模型选择与非对抗设置相同的层,性能完全不变 - LCE 子字符串方法在该场景下完全失效
弱对齐模型实验(Figure 4)¶
对消融后的弱对齐模型和社区无审查微调模型使用 COSMIC+ACE 激活添加(α=1,2,3): - α=1 时 ASR 降低 10-20%,假拒绝率增加极小 - 行为对 α 非单调,挑战了线性和仿射表示假设
关键发现¶
- 可引导性高度依赖模型:有些模型更适合线性引导(LLaMA-3.1-70B),有些更适合仿射引导(Gemma 系列)
- 更大模型越狱成功率高但诱导拒绝率低,暗示大模型中拒绝的表示结构有差异
- 拒绝行为在激活空间中即使输出完全被混淆仍可线性分离
亮点与洞察¶
- 完全输出无关:COSMIC 是首个不依赖任何输出 token 信息的方向选择方法,本质上是在"看模型怎么想"而非"看模型说什么"
- 对抗鲁棒性:在模型被系统提示强制全面拒绝时仍能提取有效方向,这对安全审计意义重大
- 方法与应用解耦:COSMIC 仅负责方向选择,可无缝搭配 LCE/ACE 等引导技术
- 揭示了有趣的负结果:弱对齐模型中引导强度 α 与行为的非单调关系,挑战了主流线性/仿射假设
局限性¶
- 在部分模型上(如 Gemma-2-27B-IT)能诱导拒绝但无法消融拒绝,说明模型特异性仍是重要因素
- 选择最低 10% 余弦相似度层是启发式规则,可能不适用于所有模型架构
- 差异均值法提取方向在对抗训练集设置下可能退化(如 Qwen2.5-72B ASR 下降 72%)
- 未探索导致输出文本中拒绝行为的具体层在哪里
相关工作与启发¶
- 与 Arditi et al. (2024) 的关系:COSMIC 是对 LCE 方向选择部分的替代方案,保留了差异均值方向生成
- 与 Marshall et al. (2024) ACE 的关系:COSMIC 自动化了 ACE 中原先需人工完成的方向和层选择
- 与 ReFAT 的联系:COSMIC 可为弱对齐模型提取拒绝方向供 ReFAT 鲁棒性训练使用
- 启发:余弦相似度的概念反转思想可推广到拒绝以外的其他行为方向(如偏见、幻觉),为 LLM 行为审计提供通用工具
评分¶
- 新颖性: ⭐⭐⭐⭐ (输出无关的方向选择是重要突破)
- 实验充分度: ⭐⭐⭐⭐ (8个模型、标准/对抗/弱对齐三种场景)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,动机和方法阐述到位)
- 价值: ⭐⭐⭐⭐⭐ (对 LLM 安全和可解释性有重要实用价值)