Revitalizing Black-Box Interpretability: Actionable Interpretability for LLMs via Proxy Models¶

会议: ACL 2026
arXiv: 2505.12509
代码: https://github.com/outerform/Large-Model-Explanation-Benchmark
领域: 可解释性 / LLM 优化
关键词: 模型无关解释, 代理模型, 黑盒可解释性, Prompt 压缩, 特征归因

一句话总结¶

本文提出一种基于代理模型的黑盒可解释性框架，利用廉价小模型近似昂贵大模型的局部决策边界来生成 LIME/SHAP 解释，通过统计筛选-应用（screen-and-apply）机制确保可靠性，代理解释在保持超过 90% 保真度的同时将成本降低 88.2%，并成功用于 Prompt 压缩和中毒样本移除等下游优化任务。

研究背景与动机¶

领域现状：后验解释（post-hoc explanation）不仅是透明性工具，更是模型优化的驱动器（如 prompt 调试和数据清洗）。然而，闭源模型（如 GPT-4o、Google Gemini）阻断了对内部表示的访问，使模型无关方法（如 LIME、SHAP）成为唯一选择。但这些方法依赖大量扰动采样——生成单个 LIME 解释通常需要 1000 次查询，在验证集（如 50 个样本）上生成解释需要 50,000 次查询，花费超过 $100。

现有痛点：(1) 成本-效用困境：生成解释的前期成本超过了优化任务本身的潜在收益，使这些强大的工具无法实际使用；(2) 现有加速方法（如摊销解释器、特征数缩减）与本文方法正交，但未利用 LLM 间的同质性；(3) 白盒解释方法需要访问模型内部表示，不适用于闭源模型。

核心矛盾：模型无关解释在理论上可以指导 LLM 优化，但其对昂贵模型的大量查询需求使其在实践中不可用——形成了"解释成本高于优化收益"的根本效用困境。

本文目标：(1) 提出经济可行的代理解释框架，用廉价模型替代昂贵模型生成解释；(2) 通过统计验证机制确保代理解释的可靠性；(3) 展示代理解释在下游优化任务中的实际效用。

切入角度：基于 LLM 间的同质性（homogeneity）——不同 LLM 在相似输入上倾向于表现出相似的行为，这意味着小模型可以在局部近似大模型的决策边界（"以小见大"）。

核心 idea：用廉价的本地/开源模型作为代理生成扰动式解释，通过两层统计筛选（任务级 + 实例级）确保只在代理解释可靠时才部署，不可靠时回退到昂贵模型。

方法详解¶

整体框架¶

代理解释框架包含两个关键步骤：(1) 筛选步骤——在部署前统计验证代理模型的局部决策边界是否与目标模型对齐；(2) 应用步骤——对通过筛选的实例，使用代理模型生成解释替代昂贵的 oracle 解释。筛选分为离线任务级筛选和在线实例级筛选两层。

关键设计¶

任务级筛选（Task-Level Screening，离线）:
- 功能：一次性评估代理模型 $f'$ 是否能在整个任务/数据集 $\mathbb{D}$ 上为目标模型 $f$ 提供足够保真的解释
- 核心思路：通过顺序单侧配对 $t$ 检验验证代理解释的保真度是否达到 oracle 保真度的 $\tau$ 倍（$\tau=0.9$），置信度 $1-\delta=0.99$。对配对差异 $d_i = q_{\text{proxy}}(\mathbf{x}_i) - \tau \cdot q_{\text{oracle}}(\mathbf{x}_i)$ 检验 $H_0: \mu_d < 0$ vs $H_1: \mu_d \geq 0$。计算置信区间，若整个区间大于零则接受 $H_1$，否则继续采样至最大样本数 $N=50$
- 设计动机：盲目使用小模型存在对齐不良的风险，需要统计安全阀确保只在代理解释平均足够保真时才部署
实例级筛选（Instance-Level Screening，在线）:
- 功能：运行时逐实例验证代理模型和目标模型是否在当前输入上一致
- 核心思路：$s_{\text{inst}}(\mathbf{x}; f, f') = \mathbf{1}[f(\mathbf{x}) = f'(\mathbf{x})]$，即仅当两模型预测一致时才使用代理解释
- 设计动机：(a) 局部解释是为模型当前预测设计的，两模型预测不一致时代理解释不适用；(b) 预测不一致暗示在 $\mathbf{x}$ 附近的局部决策行为不同，代理解释更可能不保真。不一致时回退到 oracle，保证保真度
代理解释应用与成本降低:
- 功能：通过代理模型生成解释，显著降低成本
- 核心思路：成本降低比 $\text{CRR} = \frac{C_{\text{oracle}}}{C_{\text{proxy}} + C_{\text{fallback}} + C_{\text{screen}}}$，其中 $C_{\text{proxy}}$ 是代理解释成本（仅对一致实例），$C_{\text{fallback}}$ 是回退到 oracle 的成本（不一致实例），$C_{\text{screen}}$ 是筛选成本。通过本地运行开源模型进一步降低 $C_{\text{proxy}}$ 至接近零
- 设计动机：代理+回退的混合策略在保证保真度的前提下最大化成本节约

损失函数 / 训练策略¶

本文不涉及模型训练。代理解释框架使用现有的 LIME 和 Kernel SHAP 方法生成解释，每个方法使用 1000 个扰动样本，其他超参数使用默认值。评估的 12 个 LLM 包括 GPT-4o 系列、DeepSeek V3、7 个 Qwen 2.5 模型和 2 个 Llama 3.1 模型。

实验关键数据¶

主实验¶

成本降低比（CRR）——用代理模型解释昂贵 LLM

目标模型	CRR 类型	SST	MMLU	NQ
GPT-4o	CRR_max (API)	10.33	4.84	7.41
GPT-4o	CRR_local	14.17	5.62	10.53
DeepSeek V3	CRR_local	13.31	5.32	8.33
Qwen 2.5 72B	CRR_local	16.25	6.07	9.09

筛选步骤可靠性

指标	LIME (SST/MMLU/NQ)	Kernel SHAP (SST/MMLU/NQ)
Precision	100.0 / 99.4 / 94.1	100.0 / 100.0 / 100.0
Recall	80.2 / 77.6 / 76.1	96.3 / 97.2 / 96.2
F1	89.0 / 87.2 / 84.2	98.1 / 98.5 / 98.0

消融实验¶

Prompt 压缩比较（GPT-4o 上不同方法的压缩率 %）

方法	MMLU-Chem	MMLU-CS	HellaSwag	GSM8K	PIQA
Random	29.0	35.6	58.8	25.3	54.3
AttnComp	34.5	39.1	64.3	30.2	60.2
LLMLingua	38.7	38.3	62.7	28.9	58.7
Proxy Exp.	41.0	43.0	70.1	35.5	64.5
Oracle Exp.	49.2	50.2	75.5	37.2	69.2

中毒样本移除（GPT-4o 准确率 %）

任务	Oracle Exp.	Proxy Exp.	Random deletion
SST	94.2	94.0	87.1
HellaSwag	93.7	93.5	88.4
PIQA	91.5	90.7	79.6

关键发现¶

对最昂贵的 GPT-4o，代理解释最多可节省 88% 的成本（CRR_max 达到 14.17），同时保持超过 90% 的保真度
筛选步骤平均精确率达 98.9%，极少将不保真的代理标记为可用；即使罕见的假阳性，实际代理保真度仍超过 89%
代理解释在 Prompt 压缩中达到 oracle 的 91.7% 性能，显著优于随机删除和 LLMLingua/AttnComp 等 SOTA 方法
代理解释能准确识别和移除中毒样本，使 GPT-4o 准确率从 <80% 恢复至 94%，与 oracle 效果几乎一致
跨模型解释可迁移性在不同任务和数据集上保持一致，Qwen 7B/14B 对 GPT-4o 均能达到超过 90% 保真度

亮点与洞察¶

将 LLM 同质性从一个被动观察转化为主动利用的工具——不同 LLM 的局部决策边界相似性成为节约解释成本的基础
screen-and-apply 的双层筛选机制兼顾安全性和成本效率：任务级筛选一次性过滤不合格代理，实例级筛选提供逐样本安全阀
将可解释性从被动观察工具转变为主动优化原语（prompt 压缩、数据清洗），拓展了解释方法的应用边界

局限与展望¶

聚焦于扰动式特征归因方法（LIME、SHAP），对其他解释技术的适用性未探索
在需要极端推理能力的场景中（如复杂符号逻辑），小代理与大 oracle 的对齐可能减弱，此时框架会回退到 oracle，降低成本节约幅度
未探索通过轻量微调来对齐代理模型与 oracle 的方向
解释本身的双重用途风险——同样的工具可能被用于对抗性攻击或生成误导性解释

评分¶

新颖性: ⭐⭐⭐⭐ 利用 LLM 同质性构建代理解释框架是新颖视角，统计筛选机制设计严谨
实验充分度: ⭐⭐⭐⭐⭐ 12 个 LLM、7 个数据集、两种解释方法、两种下游任务，覆盖极为全面
写作质量: ⭐⭐⭐⭐⭐ 问题动机清晰，统计框架严谨，实验组织条理分明
价值: ⭐⭐⭐⭐⭐ 使黑盒可解释性从"理论可行但实践不可用"变为"经济可行且实际有用"，开源基准数据集有长期价值