跳转至

COSMIC: Generalized Refusal Direction Identification in LLM Activations

会议: ACL2025 arXiv: 2506.00085 代码: GitHub 领域: llm_nlp 关键词: mechanistic interpretability, refusal steering, activation space, cosine similarity, LLM safety

一句话总结

提出 COSMIC(Cosine Similarity Metrics for Inversion of Concepts),一种基于余弦相似度的自动化方向选择框架,无需依赖模型输出 token 或预定义的拒绝模板即可在 LLM 激活空间中识别拒绝方向,在对抗场景和弱对齐模型中仍能有效执行拒绝引导。

研究背景与动机

  1. 拒绝行为是 LLM 安全的核心:LLM 需要拒绝有害提示以确保安全,但现有识别拒绝方向的方法依赖输出端信号(如子字符串匹配),缺乏通用性。

  2. 现有方法的假设过强:LCE(Linear Concept Editing)的方向选择依赖手动定义的拒绝 token(如 "I" 或 "As"),这种子字符串匹配容易产生假阳性("I can do that!")和假阴性("Here's why I cannot help...")。

  3. ACE 需要人工分析:ACE(Affine Concept Editing)的方向选择需要人工检查和大模型作为 judge,限制了可复现性和实用性,且忽略了较早的 post-instruction token 位置。

  4. 对抗场景下的失效:当模型以非标准方式拒绝、使用对抗性系统提示导致全面拒绝、或本身对齐较弱时,基于输出的方法完全失效。

  5. 安全审计需求:模型可能伪装其对齐能力(deceptive alignment),需要能在输出被混淆的情况下仍能检测拒绝行为的方法。

  6. 线性 vs 仿射表示之争:拒绝行为在激活空间中的表示结构(线性还是仿射)尚存争议,需要一种对两种假设都兼容的方法。

方法详解

整体框架

COSMIC 的流程:(1) 从训练集中使用差异均值法提取候选方向向量(5个 post-instruction token 位置 × L 层 = 5L 个候选);(2) 选择余弦相似度最低的 10% 层作为评估层;(3) 对每个候选方向执行消融和激活添加,计算概念反转评分;(4) 选择最大化反转相似度的方向用于推理时引导。

关键设计

概念反转评分机制:核心思想是好的拒绝方向应该能让无害提示的激活(经添加后)与有害提示的原始激活对齐,反之亦然:

  • S_refuse = cos(a_+, b):添加方向后的无害激活 vs 原始有害激活
  • S_comply = cos(a, b_-):原始无害激活 vs 消融方向后的有害激活

最终选择使两者之和最大的方向。

评估层选择:计算训练集上有害与无害提示在每层的余弦相似度,选择最低 10% 的层。这些层更可能编码拒绝特异性行为,是拒绝概念化的下游层。

方向应用方式:COSMIC 与具体的引导技术解耦,可搭配 LCE(方向消融,跨层投影移除)和 ACE(仿射概念编辑,单层仿射变换,保留无害基线信息)使用。

损失函数/目标

无训练损失;方向选择完全基于余弦相似度目标函数的最大化,辅以 KL 散度过滤(排除在无害提示上改变输出分布过大的方向)。

实验关键数据

主实验(Figure 3 - ASR 比较)

在 8 个指令调优模型上评估,使用 LlamaGuard 3 衡量攻击成功率(ASR):

模型 COSMIC-LCE ASR Substring-LCE ASR COSMIC-ACE ASR
LLaMA-3.1-70B ~0.78 ~0.80 ~0.76
Qwen2.5-72B ~0.89 ~0.17 ~0.57
Gemma-2-27B-IT LCE未收敛 LCE未收敛 0.53
  • COSMIC 在不依赖输出假设的情况下,引导性能与子字符串匹配方法相当甚至更优
  • 在 GPQA、AI2 ARC、TruthfulQA 知识基准上消融后无显著性能差异

对抗场景实验(Table 1 - 全面拒绝设置)

系统提示诱导全面拒绝后: - LLaMA-3.1-8B COSMIC-LCE ASR:0.84/0.63(训练+验证均拒绝 / 仅验证拒绝),差异仅 ↑0.01 - COSMIC-ACE 极其鲁棒:所有测试模型选择与非对抗设置相同的层,性能完全不变 - LCE 子字符串方法在该场景下完全失效

弱对齐模型实验(Figure 4)

对消融后的弱对齐模型和社区无审查微调模型使用 COSMIC+ACE 激活添加(α=1,2,3): - α=1 时 ASR 降低 10-20%,假拒绝率增加极小 - 行为对 α 非单调,挑战了线性和仿射表示假设

关键发现

  • 可引导性高度依赖模型:有些模型更适合线性引导(LLaMA-3.1-70B),有些更适合仿射引导(Gemma 系列)
  • 更大模型越狱成功率高但诱导拒绝率低,暗示大模型中拒绝的表示结构有差异
  • 拒绝行为在激活空间中即使输出完全被混淆仍可线性分离

亮点与洞察

  1. 完全输出无关:COSMIC 是首个不依赖任何输出 token 信息的方向选择方法,本质上是在"看模型怎么想"而非"看模型说什么"
  2. 对抗鲁棒性:在模型被系统提示强制全面拒绝时仍能提取有效方向,这对安全审计意义重大
  3. 方法与应用解耦:COSMIC 仅负责方向选择,可无缝搭配 LCE/ACE 等引导技术
  4. 揭示了有趣的负结果:弱对齐模型中引导强度 α 与行为的非单调关系,挑战了主流线性/仿射假设

局限性

  1. 在部分模型上(如 Gemma-2-27B-IT)能诱导拒绝但无法消融拒绝,说明模型特异性仍是重要因素
  2. 选择最低 10% 余弦相似度层是启发式规则,可能不适用于所有模型架构
  3. 差异均值法提取方向在对抗训练集设置下可能退化(如 Qwen2.5-72B ASR 下降 72%)
  4. 未探索导致输出文本中拒绝行为的具体层在哪里

相关工作与启发

  • 与 Arditi et al. (2024) 的关系:COSMIC 是对 LCE 方向选择部分的替代方案,保留了差异均值方向生成
  • 与 Marshall et al. (2024) ACE 的关系:COSMIC 自动化了 ACE 中原先需人工完成的方向和层选择
  • 与 ReFAT 的联系:COSMIC 可为弱对齐模型提取拒绝方向供 ReFAT 鲁棒性训练使用
  • 启发:余弦相似度的概念反转思想可推广到拒绝以外的其他行为方向(如偏见、幻觉),为 LLM 行为审计提供通用工具

评分

  • 新颖性: ⭐⭐⭐⭐ (输出无关的方向选择是重要突破)
  • 实验充分度: ⭐⭐⭐⭐ (8个模型、标准/对抗/弱对齐三种场景)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,动机和方法阐述到位)
  • 价值: ⭐⭐⭐⭐⭐ (对 LLM 安全和可解释性有重要实用价值)