Concept-Level Explainability for Auditing & Steering LLM Responses¶
会议: NeurIPS 2025
arXiv: 2505.07610
代码: https://github.com/k-amara/ConceptX
领域: 对齐/RLHF
关键词: 可解释性, 概念级归因, LLM安全, Shapley值, 偏见审计
一句话总结¶
提出 ConceptX,一种基于概念级(而非 token 级)Shapley 归因的 LLM 可解释性方法,通过语义相似度而非 token 重合度来衡量输入概念对输出的影响,可用于审计偏见和通过 prompt 编辑引导 LLM 输出,在越狱防御中将攻击成功率从 0.463 降至 0.242。
研究背景与动机¶
- 领域现状:归因方法(TokenSHAP 等)可以量化输入中每个 token 对 LLM 输出的贡献,用于理解和调节模型行为。但现有方法都在 token 级别操作。
- 现有痛点:token 级归因有三大问题——(a) 优化 token 重合度而非语义相似度,无法捕捉语义等价的改写;(b) 常把注意力放在无信息量的功能词("the"、"is")上而非真正有语义的概念词;(c) 独立处理 token 会破坏上下文连贯性,导致不稳定的生成结果。
- 核心矛盾:有效的可解释性需要同时满足忠实性(faithfulness)和可操作性(actionability),但 token 级方法往往在语义理解上不够深入,而人类更关注概念层面的解释。
- 本文要解决什么:如何在概念层面而非 token 层面做归因?如何让归因结果不仅能解释模型行为,还能指导 prompt 编辑来引导 LLM 输出?
- 切入角度:只对输入中语义丰富的"概念"(ConceptNet 中度数高的内容词)做归因,用语义相似度替代 token 重合度作为价值函数,支持灵活的解释目标(如性别偏见、有害性)。
- 核心 idea 一句话:用 ConceptNet 知识图谱提取语义概念,通过基于语义相似度的 Shapley 值归因识别驱动 LLM 输出的关键概念,再通过编辑这些概念来引导输出。
方法详解¶
整体框架¶
ConceptX 分两个阶段:(1) 概念提取——从输入中识别语义丰富的内容词(跳过功能词),用 ConceptNet 节点度数量化语义丰富度;(2) 概念重要性估计——用 Shapley 启发的 Monte Carlo 采样计算每个概念的边际贡献,价值函数基于输出与解释目标之间的余弦相似度。
关键设计¶
- 概念提取(Concepts as Features):
- 做什么:从输入 prompt 中提取高语义价值的内容词作为归因对象
- 核心思路:用 spaCy 解析获取名词、动词、形容词、副词,通过 ConceptNet 边数过滤保留语义丰富的概念
-
设计动机:功能词(冠词、介词等)虽然占比大但语义贡献小,聚焦概念词让解释更接近人类直觉
-
三种替换策略:
- 做什么:处理不在当前联盟中的概念时,提供三种策略保持句子完整性
- ConceptX-r:直接移除(与 TokenSHAP 相同)
- ConceptX-n:用 GPT-4o-mini 生成语义中性的替换词,保持语法正确
- ConceptX-a:用反义词替换,提供更明确的语义对比
-
设计动机:简单移除会破坏语法导致不稳定生成;中性替换保持结构的同时隔离概念的语义影响
-
灵活的解释目标(Value Function):
- 做什么:用余弦相似度衡量概念联盟对输出的影响
- \(v(S) = \cos(Emb \cdot f(S), Emb \cdot \mathbf{t})\)
- 三种解释目标:ConceptX_B(与原始输出的相似度)、ConceptX_R(与参考文本的相似度)、ConceptX_A(与特定方面如"性别偏见"的相似度)
- 设计动机:传统方法只能解释"为什么生成这个输出",ConceptX_A 可以回答"输入中什么驱动了特定方面(如偏见)"
应用场景¶
- 审计:识别 prompt 中导致偏见/有害输出的关键概念
- 引导:通过移除或替换高归因概念来改变 LLM 输出的情感/安全性
实验关键数据¶
越狱防御(Salad-Bench, Mistral-7B)¶
| 方法 | ASR↓ | HS↓ |
|---|---|---|
| 无防御 | 0.463 | 2.51 |
| Random | 0.383 | 2.30 |
| TokenSHAP | 0.312 | 2.14 |
| SelfParaphrase | 0.328 | 2.14 |
| ConceptX_B-r | 0.242 | 1.92 |
| ConceptX_B-n | 0.281 | 2.01 |
| GPT-4o Mini (self-attr) | 0.233 | 1.86 |
| SelfReminder (prompt) | 0.223 | 1.79 |
性别偏见审计(GenderBias 数据集)¶
| 方法 | 性别词排名Top-1/Top-2比例 |
|---|---|
| TokenSHAP | <10% |
| ConceptX_B-n | ~50%+ |
| ConceptX_A-n | ~70%+ (最佳) |
关键发现¶
- 概念级优于 token 级:ConceptX_B-r 的 ASR (0.242) 大幅优于 TokenSHAP (0.312),说明概念级归因更准确地识别了有害 prompt 的关键部分
- 移除优于反义替换(在有害内容场景):有害词通常是名词(如"drug"),没有直接反义词,移除更有效
- 反义替换优于移除(在情感场景):情感常由形容词驱动,反义替换可实现情感反转
- 模型间差异:GPT-4o mini 对性别偏见更鲁棒(性别概念归因分数更低)
- 解释目标的影响:ConceptX_A-n 在偏见审计中最有效(定向解释),但在引导任务中不比 ConceptX_B-n 更好
亮点与洞察¶
- 可解释性→可操作性的桥接:不仅解释模型行为,还直接用归因结果指导 prompt 编辑——这弥合了 XAI 研究和实际安全需求之间的鸿沟
- 方面定向解释(Aspect-Targeted):ConceptX_A 可以针对特定维度(性别偏见、有害性)做归因,这在审计特定安全属性时非常有用
- 无需重训练的轻量级安全方案:只需识别并编辑 prompt 中的关键概念就能显著降低有害输出,比微调和提示工程更透明可控
局限性 / 可改进方向¶
- 计算复杂度仍指数级:虽然只归因概念词(约减半 token 数),但 Shapley 值计算的指数复杂度限制了长 prompt 的应用
- 忽略功能词的语义角色:某些功能词(如"not")承载关键语义(否定),ConceptX 的概念过滤可能遗漏
- 模型对齐差异:有些模型(Gemma)更依赖 token 级信号,此时 ConceptX 不如 TokenSHAP
- 依赖外部模型:ConceptX-n 的中性替换需要调用 GPT-4o-mini,引入额外成本和依赖
相关工作与启发¶
- vs TokenSHAP: TokenSHAP 在 token 级做 Shapley 归因,在情感令牌("not"等功能词)驱动的模型上有优势,但在概念驱动的模型和安全任务上被 ConceptX 大幅超越
- vs SelfReminder/Prompt Engineering: 提示工程在安全性上仍略优(ASR 0.223 vs 0.242),但 ConceptX 提供了可解释和可复现的替代方案
- vs Mechanistic Interpretability: 机械可解释性分析模型内部机制,ConceptX 提供模型无关的输入级洞见,两者互补
评分¶
- 新颖性: ⭐⭐⭐⭐ 概念级归因+语义相似度价值函数+方面定向解释三个创新点组合新颖,将 XAI 与 LLM 安全连接的视角有价值
- 实验充分度: ⭐⭐⭐⭐ 三个 LLM + 三种任务(忠实性/偏见审计/引导)+ 多种变体对比,实验设计全面
- 写作质量: ⭐⭐⭐⭐ 论文结构清晰,方法和实验描述详细,符号规范
- 价值: ⭐⭐⭐⭐ 展示了归因方法在 LLM 安全中的实用价值,为"无需重训练的安全对齐"提供了新思路