跳转至

Concept-Level Explainability for Auditing & Steering LLM Responses

会议: NeurIPS 2025
arXiv: 2505.07610
代码: https://github.com/k-amara/ConceptX
领域: 对齐/RLHF
关键词: 可解释性, 概念级归因, LLM安全, Shapley值, 偏见审计

一句话总结

提出 ConceptX,一种基于概念级(而非 token 级)Shapley 归因的 LLM 可解释性方法,通过语义相似度而非 token 重合度来衡量输入概念对输出的影响,可用于审计偏见和通过 prompt 编辑引导 LLM 输出,在越狱防御中将攻击成功率从 0.463 降至 0.242。

研究背景与动机

  1. 领域现状:归因方法(TokenSHAP 等)可以量化输入中每个 token 对 LLM 输出的贡献,用于理解和调节模型行为。但现有方法都在 token 级别操作。
  2. 现有痛点:token 级归因有三大问题——(a) 优化 token 重合度而非语义相似度,无法捕捉语义等价的改写;(b) 常把注意力放在无信息量的功能词("the"、"is")上而非真正有语义的概念词;(c) 独立处理 token 会破坏上下文连贯性,导致不稳定的生成结果。
  3. 核心矛盾:有效的可解释性需要同时满足忠实性(faithfulness)和可操作性(actionability),但 token 级方法往往在语义理解上不够深入,而人类更关注概念层面的解释。
  4. 本文要解决什么:如何在概念层面而非 token 层面做归因?如何让归因结果不仅能解释模型行为,还能指导 prompt 编辑来引导 LLM 输出?
  5. 切入角度:只对输入中语义丰富的"概念"(ConceptNet 中度数高的内容词)做归因,用语义相似度替代 token 重合度作为价值函数,支持灵活的解释目标(如性别偏见、有害性)。
  6. 核心 idea 一句话:用 ConceptNet 知识图谱提取语义概念,通过基于语义相似度的 Shapley 值归因识别驱动 LLM 输出的关键概念,再通过编辑这些概念来引导输出。

方法详解

整体框架

ConceptX 分两个阶段:(1) 概念提取——从输入中识别语义丰富的内容词(跳过功能词),用 ConceptNet 节点度数量化语义丰富度;(2) 概念重要性估计——用 Shapley 启发的 Monte Carlo 采样计算每个概念的边际贡献,价值函数基于输出与解释目标之间的余弦相似度。

关键设计

  1. 概念提取(Concepts as Features):
  2. 做什么:从输入 prompt 中提取高语义价值的内容词作为归因对象
  3. 核心思路:用 spaCy 解析获取名词、动词、形容词、副词,通过 ConceptNet 边数过滤保留语义丰富的概念
  4. 设计动机:功能词(冠词、介词等)虽然占比大但语义贡献小,聚焦概念词让解释更接近人类直觉

  5. 三种替换策略:

  6. 做什么:处理不在当前联盟中的概念时,提供三种策略保持句子完整性
  7. ConceptX-r:直接移除(与 TokenSHAP 相同)
  8. ConceptX-n:用 GPT-4o-mini 生成语义中性的替换词,保持语法正确
  9. ConceptX-a:用反义词替换,提供更明确的语义对比
  10. 设计动机:简单移除会破坏语法导致不稳定生成;中性替换保持结构的同时隔离概念的语义影响

  11. 灵活的解释目标(Value Function):

  12. 做什么:用余弦相似度衡量概念联盟对输出的影响
  13. \(v(S) = \cos(Emb \cdot f(S), Emb \cdot \mathbf{t})\)
  14. 三种解释目标:ConceptX_B(与原始输出的相似度)、ConceptX_R(与参考文本的相似度)、ConceptX_A(与特定方面如"性别偏见"的相似度)
  15. 设计动机:传统方法只能解释"为什么生成这个输出",ConceptX_A 可以回答"输入中什么驱动了特定方面(如偏见)"

应用场景

  • 审计:识别 prompt 中导致偏见/有害输出的关键概念
  • 引导:通过移除或替换高归因概念来改变 LLM 输出的情感/安全性

实验关键数据

越狱防御(Salad-Bench, Mistral-7B)

方法 ASR↓ HS↓
无防御 0.463 2.51
Random 0.383 2.30
TokenSHAP 0.312 2.14
SelfParaphrase 0.328 2.14
ConceptX_B-r 0.242 1.92
ConceptX_B-n 0.281 2.01
GPT-4o Mini (self-attr) 0.233 1.86
SelfReminder (prompt) 0.223 1.79

性别偏见审计(GenderBias 数据集)

方法 性别词排名Top-1/Top-2比例
TokenSHAP <10%
ConceptX_B-n ~50%+
ConceptX_A-n ~70%+ (最佳)

关键发现

  • 概念级优于 token 级:ConceptX_B-r 的 ASR (0.242) 大幅优于 TokenSHAP (0.312),说明概念级归因更准确地识别了有害 prompt 的关键部分
  • 移除优于反义替换(在有害内容场景):有害词通常是名词(如"drug"),没有直接反义词,移除更有效
  • 反义替换优于移除(在情感场景):情感常由形容词驱动,反义替换可实现情感反转
  • 模型间差异:GPT-4o mini 对性别偏见更鲁棒(性别概念归因分数更低)
  • 解释目标的影响:ConceptX_A-n 在偏见审计中最有效(定向解释),但在引导任务中不比 ConceptX_B-n 更好

亮点与洞察

  • 可解释性→可操作性的桥接:不仅解释模型行为,还直接用归因结果指导 prompt 编辑——这弥合了 XAI 研究和实际安全需求之间的鸿沟
  • 方面定向解释(Aspect-Targeted):ConceptX_A 可以针对特定维度(性别偏见、有害性)做归因,这在审计特定安全属性时非常有用
  • 无需重训练的轻量级安全方案:只需识别并编辑 prompt 中的关键概念就能显著降低有害输出,比微调和提示工程更透明可控

局限性 / 可改进方向

  • 计算复杂度仍指数级:虽然只归因概念词(约减半 token 数),但 Shapley 值计算的指数复杂度限制了长 prompt 的应用
  • 忽略功能词的语义角色:某些功能词(如"not")承载关键语义(否定),ConceptX 的概念过滤可能遗漏
  • 模型对齐差异:有些模型(Gemma)更依赖 token 级信号,此时 ConceptX 不如 TokenSHAP
  • 依赖外部模型:ConceptX-n 的中性替换需要调用 GPT-4o-mini,引入额外成本和依赖

相关工作与启发

  • vs TokenSHAP: TokenSHAP 在 token 级做 Shapley 归因,在情感令牌("not"等功能词)驱动的模型上有优势,但在概念驱动的模型和安全任务上被 ConceptX 大幅超越
  • vs SelfReminder/Prompt Engineering: 提示工程在安全性上仍略优(ASR 0.223 vs 0.242),但 ConceptX 提供了可解释和可复现的替代方案
  • vs Mechanistic Interpretability: 机械可解释性分析模型内部机制,ConceptX 提供模型无关的输入级洞见,两者互补

评分

  • 新颖性: ⭐⭐⭐⭐ 概念级归因+语义相似度价值函数+方面定向解释三个创新点组合新颖,将 XAI 与 LLM 安全连接的视角有价值
  • 实验充分度: ⭐⭐⭐⭐ 三个 LLM + 三种任务(忠实性/偏见审计/引导)+ 多种变体对比,实验设计全面
  • 写作质量: ⭐⭐⭐⭐ 论文结构清晰,方法和实验描述详细,符号规范
  • 价值: ⭐⭐⭐⭐ 展示了归因方法在 LLM 安全中的实用价值,为"无需重训练的安全对齐"提供了新思路