COSMIC: Generalized Refusal Direction Identification in LLM Activations¶

会议: ACL2025 arXiv: 2506.00085 代码: GitHub 领域: llm_nlp 关键词: mechanistic interpretability, refusal steering, activation space, cosine similarity, LLM safety

一句话总结¶

提出 COSMIC（Cosine Similarity Metrics for Inversion of Concepts），一种基于余弦相似度的自动化方向选择框架，无需依赖模型输出 token 或预定义的拒绝模板即可在 LLM 激活空间中识别拒绝方向，在对抗场景和弱对齐模型中仍能有效执行拒绝引导。

研究背景与动机¶

拒绝行为是 LLM 安全的核心：LLM 需要拒绝有害提示以确保安全，但现有识别拒绝方向的方法依赖输出端信号（如子字符串匹配），缺乏通用性。
现有方法的假设过强：LCE（Linear Concept Editing）的方向选择依赖手动定义的拒绝 token（如 "I" 或 "As"），这种子字符串匹配容易产生假阳性（"I can do that!"）和假阴性（"Here's why I cannot help..."）。
ACE 需要人工分析：ACE（Affine Concept Editing）的方向选择需要人工检查和大模型作为 judge，限制了可复现性和实用性，且忽略了较早的 post-instruction token 位置。
对抗场景下的失效：当模型以非标准方式拒绝、使用对抗性系统提示导致全面拒绝、或本身对齐较弱时，基于输出的方法完全失效。
安全审计需求：模型可能伪装其对齐能力（deceptive alignment），需要能在输出被混淆的情况下仍能检测拒绝行为的方法。
线性 vs 仿射表示之争：拒绝行为在激活空间中的表示结构（线性还是仿射）尚存争议，需要一种对两种假设都兼容的方法。

方法详解¶

整体框架¶

COSMIC 的流程：(1) 从训练集中使用差异均值法提取候选方向向量（5个 post-instruction token 位置 × L 层 = 5L 个候选）；(2) 选择余弦相似度最低的 10% 层作为评估层；(3) 对每个候选方向执行消融和激活添加，计算概念反转评分；(4) 选择最大化反转相似度的方向用于推理时引导。

关键设计¶

概念反转评分机制：核心思想是好的拒绝方向应该能让无害提示的激活（经添加后）与有害提示的原始激活对齐，反之亦然：

S_refuse = cos(a_+, b)：添加方向后的无害激活 vs 原始有害激活
S_comply = cos(a, b_-)：原始无害激活 vs 消融方向后的有害激活

最终选择使两者之和最大的方向。

评估层选择：计算训练集上有害与无害提示在每层的余弦相似度，选择最低 10% 的层。这些层更可能编码拒绝特异性行为，是拒绝概念化的下游层。

方向应用方式：COSMIC 与具体的引导技术解耦，可搭配 LCE（方向消融，跨层投影移除）和 ACE（仿射概念编辑，单层仿射变换，保留无害基线信息）使用。

损失函数/目标¶

无训练损失；方向选择完全基于余弦相似度目标函数的最大化，辅以 KL 散度过滤（排除在无害提示上改变输出分布过大的方向）。

实验关键数据¶

主实验（Figure 3 - ASR 比较）¶

在 8 个指令调优模型上评估，使用 LlamaGuard 3 衡量攻击成功率（ASR）：

模型	COSMIC-LCE ASR	Substring-LCE ASR	COSMIC-ACE ASR
LLaMA-3.1-70B	~0.78	~0.80	~0.76
Qwen2.5-72B	~0.89	~0.17	~0.57
Gemma-2-27B-IT	LCE未收敛	LCE未收敛	0.53

COSMIC 在不依赖输出假设的情况下，引导性能与子字符串匹配方法相当甚至更优
在 GPQA、AI2 ARC、TruthfulQA 知识基准上消融后无显著性能差异

对抗场景实验（Table 1 - 全面拒绝设置）¶

系统提示诱导全面拒绝后： - LLaMA-3.1-8B COSMIC-LCE ASR：0.84/0.63（训练+验证均拒绝 / 仅验证拒绝），差异仅 ↑0.01 - COSMIC-ACE 极其鲁棒：所有测试模型选择与非对抗设置相同的层，性能完全不变 - LCE 子字符串方法在该场景下完全失效

弱对齐模型实验（Figure 4）¶

对消融后的弱对齐模型和社区无审查微调模型使用 COSMIC+ACE 激活添加（α=1,2,3）： - α=1 时 ASR 降低 10-20%，假拒绝率增加极小 - 行为对 α 非单调，挑战了线性和仿射表示假设

关键发现¶

可引导性高度依赖模型：有些模型更适合线性引导（LLaMA-3.1-70B），有些更适合仿射引导（Gemma 系列）
更大模型越狱成功率高但诱导拒绝率低，暗示大模型中拒绝的表示结构有差异
拒绝行为在激活空间中即使输出完全被混淆仍可线性分离

亮点与洞察¶

完全输出无关：COSMIC 是首个不依赖任何输出 token 信息的方向选择方法，本质上是在"看模型怎么想"而非"看模型说什么"
对抗鲁棒性：在模型被系统提示强制全面拒绝时仍能提取有效方向，这对安全审计意义重大
方法与应用解耦：COSMIC 仅负责方向选择，可无缝搭配 LCE/ACE 等引导技术
揭示了有趣的负结果：弱对齐模型中引导强度 α 与行为的非单调关系，挑战了主流线性/仿射假设

局限性¶

在部分模型上（如 Gemma-2-27B-IT）能诱导拒绝但无法消融拒绝，说明模型特异性仍是重要因素
选择最低 10% 余弦相似度层是启发式规则，可能不适用于所有模型架构
差异均值法提取方向在对抗训练集设置下可能退化（如 Qwen2.5-72B ASR 下降 72%）
未探索导致输出文本中拒绝行为的具体层在哪里

评分¶

新颖性: ⭐⭐⭐⭐ (输出无关的方向选择是重要突破)
实验充分度: ⭐⭐⭐⭐ (8个模型、标准/对抗/弱对齐三种场景)
写作质量: ⭐⭐⭐⭐ (结构清晰，动机和方法阐述到位)
价值: ⭐⭐⭐⭐⭐ (对 LLM 安全和可解释性有重要实用价值)