Concept-Level Explainability for Auditing & Steering LLM Responses¶

会议: NeurIPS 2025
arXiv: 2505.07610
代码: https://github.com/k-amara/ConceptX
领域: 对齐/RLHF
关键词: 可解释性, 概念级归因, LLM安全, Shapley值, 偏见审计

一句话总结¶

提出 ConceptX，一种基于概念级（而非 token 级）Shapley 归因的 LLM 可解释性方法，通过语义相似度而非 token 重合度来衡量输入概念对输出的影响，可用于审计偏见和通过 prompt 编辑引导 LLM 输出，在越狱防御中将攻击成功率从 0.463 降至 0.242。

研究背景与动机¶

领域现状：归因方法（TokenSHAP 等）可以量化输入中每个 token 对 LLM 输出的贡献，用于理解和调节模型行为。但现有方法都在 token 级别操作。
现有痛点：token 级归因有三大问题——(a) 优化 token 重合度而非语义相似度，无法捕捉语义等价的改写；(b) 常把注意力放在无信息量的功能词（"the"、"is"）上而非真正有语义的概念词；(c) 独立处理 token 会破坏上下文连贯性，导致不稳定的生成结果。
核心矛盾：有效的可解释性需要同时满足忠实性（faithfulness）和可操作性（actionability），但 token 级方法往往在语义理解上不够深入，而人类更关注概念层面的解释。
本文要解决什么：如何在概念层面而非 token 层面做归因？如何让归因结果不仅能解释模型行为，还能指导 prompt 编辑来引导 LLM 输出？
切入角度：只对输入中语义丰富的"概念"（ConceptNet 中度数高的内容词）做归因，用语义相似度替代 token 重合度作为价值函数，支持灵活的解释目标（如性别偏见、有害性）。
核心 idea 一句话：用 ConceptNet 知识图谱提取语义概念，通过基于语义相似度的 Shapley 值归因识别驱动 LLM 输出的关键概念，再通过编辑这些概念来引导输出。

方法详解¶

整体框架¶

ConceptX 分两个阶段：(1) 概念提取——从输入中识别语义丰富的内容词（跳过功能词），用 ConceptNet 节点度数量化语义丰富度；(2) 概念重要性估计——用 Shapley 启发的 Monte Carlo 采样计算每个概念的边际贡献，价值函数基于输出与解释目标之间的余弦相似度。

关键设计¶

概念提取（Concepts as Features）:
做什么：从输入 prompt 中提取高语义价值的内容词作为归因对象
核心思路：用 spaCy 解析获取名词、动词、形容词、副词，通过 ConceptNet 边数过滤保留语义丰富的概念
设计动机：功能词（冠词、介词等）虽然占比大但语义贡献小，聚焦概念词让解释更接近人类直觉
三种替换策略:
做什么：处理不在当前联盟中的概念时，提供三种策略保持句子完整性
ConceptX-r：直接移除（与 TokenSHAP 相同）
ConceptX-n：用 GPT-4o-mini 生成语义中性的替换词，保持语法正确
ConceptX-a：用反义词替换，提供更明确的语义对比
设计动机：简单移除会破坏语法导致不稳定生成；中性替换保持结构的同时隔离概念的语义影响
灵活的解释目标（Value Function）:
做什么：用余弦相似度衡量概念联盟对输出的影响
\(v(S) = \cos(Emb \cdot f(S), Emb \cdot \mathbf{t})\)
三种解释目标：ConceptX_B（与原始输出的相似度）、ConceptX_R（与参考文本的相似度）、ConceptX_A（与特定方面如"性别偏见"的相似度）
设计动机：传统方法只能解释"为什么生成这个输出"，ConceptX_A 可以回答"输入中什么驱动了特定方面（如偏见）"

应用场景¶

审计：识别 prompt 中导致偏见/有害输出的关键概念
引导：通过移除或替换高归因概念来改变 LLM 输出的情感/安全性

实验关键数据¶

越狱防御（Salad-Bench, Mistral-7B）¶

方法	ASR↓	HS↓
无防御	0.463	2.51
Random	0.383	2.30
TokenSHAP	0.312	2.14
SelfParaphrase	0.328	2.14
ConceptX_B-r	0.242	1.92
ConceptX_B-n	0.281	2.01
GPT-4o Mini (self-attr)	0.233	1.86
SelfReminder (prompt)	0.223	1.79

性别偏见审计（GenderBias 数据集）¶

方法	性别词排名Top-1/Top-2比例
TokenSHAP	<10%
ConceptX_B-n	~50%+
ConceptX_A-n	~70%+ （最佳）

关键发现¶

概念级优于 token 级：ConceptX_B-r 的 ASR (0.242) 大幅优于 TokenSHAP (0.312)，说明概念级归因更准确地识别了有害 prompt 的关键部分
移除优于反义替换（在有害内容场景）：有害词通常是名词（如"drug"），没有直接反义词，移除更有效
反义替换优于移除（在情感场景）：情感常由形容词驱动，反义替换可实现情感反转
模型间差异：GPT-4o mini 对性别偏见更鲁棒（性别概念归因分数更低）
解释目标的影响：ConceptX_A-n 在偏见审计中最有效（定向解释），但在引导任务中不比 ConceptX_B-n 更好

亮点与洞察¶

可解释性→可操作性的桥接：不仅解释模型行为，还直接用归因结果指导 prompt 编辑——这弥合了 XAI 研究和实际安全需求之间的鸿沟
方面定向解释（Aspect-Targeted）：ConceptX_A 可以针对特定维度（性别偏见、有害性）做归因，这在审计特定安全属性时非常有用
无需重训练的轻量级安全方案：只需识别并编辑 prompt 中的关键概念就能显著降低有害输出，比微调和提示工程更透明可控

局限性 / 可改进方向¶

计算复杂度仍指数级：虽然只归因概念词（约减半 token 数），但 Shapley 值计算的指数复杂度限制了长 prompt 的应用
忽略功能词的语义角色：某些功能词（如"not"）承载关键语义（否定），ConceptX 的概念过滤可能遗漏
模型对齐差异：有些模型（Gemma）更依赖 token 级信号，此时 ConceptX 不如 TokenSHAP
依赖外部模型：ConceptX-n 的中性替换需要调用 GPT-4o-mini，引入额外成本和依赖

评分¶

新颖性: ⭐⭐⭐⭐ 概念级归因+语义相似度价值函数+方面定向解释三个创新点组合新颖，将 XAI 与 LLM 安全连接的视角有价值
实验充分度: ⭐⭐⭐⭐ 三个 LLM + 三种任务（忠实性/偏见审计/引导）+ 多种变体对比，实验设计全面
写作质量: ⭐⭐⭐⭐ 论文结构清晰，方法和实验描述详细，符号规范
价值: ⭐⭐⭐⭐ 展示了归因方法在 LLM 安全中的实用价值，为"无需重训练的安全对齐"提供了新思路