Revitalizing Black-Box Interpretability: Actionable Interpretability for LLMs via Proxy Models¶
会议: ACL 2026
arXiv: 2505.12509
代码: https://github.com/outerform/Large-Model-Explanation-Benchmark
领域: 可解释性 / LLM 优化
关键词: 模型无关解释, 代理模型, 黑盒可解释性, Prompt 压缩, 特征归因
一句话总结¶
本文提出一种基于代理模型的黑盒可解释性框架,利用廉价小模型近似昂贵大模型的局部决策边界来生成 LIME/SHAP 解释,通过统计筛选-应用(screen-and-apply)机制确保可靠性,代理解释在保持超过 90% 保真度的同时将成本降低 88.2%,并成功用于 Prompt 压缩和中毒样本移除等下游优化任务。
研究背景与动机¶
领域现状:后验解释(post-hoc explanation)不仅是透明性工具,更是模型优化的驱动器(如 prompt 调试和数据清洗)。然而,闭源模型(如 GPT-4o、Google Gemini)阻断了对内部表示的访问,使模型无关方法(如 LIME、SHAP)成为唯一选择。但这些方法依赖大量扰动采样——生成单个 LIME 解释通常需要 1000 次查询,在验证集(如 50 个样本)上生成解释需要 50,000 次查询,花费超过 $100。
现有痛点:(1) 成本-效用困境:生成解释的前期成本超过了优化任务本身的潜在收益,使这些强大的工具无法实际使用;(2) 现有加速方法(如摊销解释器、特征数缩减)与本文方法正交,但未利用 LLM 间的同质性;(3) 白盒解释方法需要访问模型内部表示,不适用于闭源模型。
核心矛盾:模型无关解释在理论上可以指导 LLM 优化,但其对昂贵模型的大量查询需求使其在实践中不可用——形成了"解释成本高于优化收益"的根本效用困境。
本文目标:(1) 提出经济可行的代理解释框架,用廉价模型替代昂贵模型生成解释;(2) 通过统计验证机制确保代理解释的可靠性;(3) 展示代理解释在下游优化任务中的实际效用。
切入角度:基于 LLM 间的同质性(homogeneity)——不同 LLM 在相似输入上倾向于表现出相似的行为,这意味着小模型可以在局部近似大模型的决策边界("以小见大")。
核心 idea:用廉价的本地/开源模型作为代理生成扰动式解释,通过两层统计筛选(任务级 + 实例级)确保只在代理解释可靠时才部署,不可靠时回退到昂贵模型。
方法详解¶
整体框架¶
代理解释框架包含两个关键步骤:(1) 筛选步骤——在部署前统计验证代理模型的局部决策边界是否与目标模型对齐;(2) 应用步骤——对通过筛选的实例,使用代理模型生成解释替代昂贵的 oracle 解释。筛选分为离线任务级筛选和在线实例级筛选两层。
关键设计¶
-
任务级筛选(Task-Level Screening,离线):
- 功能:一次性评估代理模型 \(f'\) 是否能在整个任务/数据集 \(\mathbb{D}\) 上为目标模型 \(f\) 提供足够保真的解释
- 核心思路:通过顺序单侧配对 \(t\) 检验验证代理解释的保真度是否达到 oracle 保真度的 \(\tau\) 倍(\(\tau=0.9\)),置信度 \(1-\delta=0.99\)。对配对差异 \(d_i = q_{\text{proxy}}(\mathbf{x}_i) - \tau \cdot q_{\text{oracle}}(\mathbf{x}_i)\) 检验 \(H_0: \mu_d < 0\) vs \(H_1: \mu_d \geq 0\)。计算置信区间,若整个区间大于零则接受 \(H_1\),否则继续采样至最大样本数 \(N=50\)
- 设计动机:盲目使用小模型存在对齐不良的风险,需要统计安全阀确保只在代理解释平均足够保真时才部署
-
实例级筛选(Instance-Level Screening,在线):
- 功能:运行时逐实例验证代理模型和目标模型是否在当前输入上一致
- 核心思路:\(s_{\text{inst}}(\mathbf{x}; f, f') = \mathbf{1}[f(\mathbf{x}) = f'(\mathbf{x})]\),即仅当两模型预测一致时才使用代理解释
- 设计动机:(a) 局部解释是为模型当前预测设计的,两模型预测不一致时代理解释不适用;(b) 预测不一致暗示在 \(\mathbf{x}\) 附近的局部决策行为不同,代理解释更可能不保真。不一致时回退到 oracle,保证保真度
-
代理解释应用与成本降低:
- 功能:通过代理模型生成解释,显著降低成本
- 核心思路:成本降低比 \(\text{CRR} = \frac{C_{\text{oracle}}}{C_{\text{proxy}} + C_{\text{fallback}} + C_{\text{screen}}}\),其中 \(C_{\text{proxy}}\) 是代理解释成本(仅对一致实例),\(C_{\text{fallback}}\) 是回退到 oracle 的成本(不一致实例),\(C_{\text{screen}}\) 是筛选成本。通过本地运行开源模型进一步降低 \(C_{\text{proxy}}\) 至接近零
- 设计动机:代理+回退的混合策略在保证保真度的前提下最大化成本节约
损失函数 / 训练策略¶
本文不涉及模型训练。代理解释框架使用现有的 LIME 和 Kernel SHAP 方法生成解释,每个方法使用 1000 个扰动样本,其他超参数使用默认值。评估的 12 个 LLM 包括 GPT-4o 系列、DeepSeek V3、7 个 Qwen 2.5 模型和 2 个 Llama 3.1 模型。
实验关键数据¶
主实验¶
成本降低比(CRR)——用代理模型解释昂贵 LLM
| 目标模型 | CRR 类型 | SST | MMLU | NQ |
|---|---|---|---|---|
| GPT-4o | CRR_max (API) | 10.33 | 4.84 | 7.41 |
| GPT-4o | CRR_local | 14.17 | 5.62 | 10.53 |
| DeepSeek V3 | CRR_local | 13.31 | 5.32 | 8.33 |
| Qwen 2.5 72B | CRR_local | 16.25 | 6.07 | 9.09 |
筛选步骤可靠性
| 指标 | LIME (SST/MMLU/NQ) | Kernel SHAP (SST/MMLU/NQ) |
|---|---|---|
| Precision | 100.0 / 99.4 / 94.1 | 100.0 / 100.0 / 100.0 |
| Recall | 80.2 / 77.6 / 76.1 | 96.3 / 97.2 / 96.2 |
| F1 | 89.0 / 87.2 / 84.2 | 98.1 / 98.5 / 98.0 |
消融实验¶
Prompt 压缩比较(GPT-4o 上不同方法的压缩率 %)
| 方法 | MMLU-Chem | MMLU-CS | HellaSwag | GSM8K | PIQA |
|---|---|---|---|---|---|
| Random | 29.0 | 35.6 | 58.8 | 25.3 | 54.3 |
| AttnComp | 34.5 | 39.1 | 64.3 | 30.2 | 60.2 |
| LLMLingua | 38.7 | 38.3 | 62.7 | 28.9 | 58.7 |
| Proxy Exp. | 41.0 | 43.0 | 70.1 | 35.5 | 64.5 |
| Oracle Exp. | 49.2 | 50.2 | 75.5 | 37.2 | 69.2 |
中毒样本移除(GPT-4o 准确率 %)
| 任务 | Oracle Exp. | Proxy Exp. | Random deletion |
|---|---|---|---|
| SST | 94.2 | 94.0 | 87.1 |
| HellaSwag | 93.7 | 93.5 | 88.4 |
| PIQA | 91.5 | 90.7 | 79.6 |
关键发现¶
- 对最昂贵的 GPT-4o,代理解释最多可节省 88% 的成本(CRR_max 达到 14.17),同时保持超过 90% 的保真度
- 筛选步骤平均精确率达 98.9%,极少将不保真的代理标记为可用;即使罕见的假阳性,实际代理保真度仍超过 89%
- 代理解释在 Prompt 压缩中达到 oracle 的 91.7% 性能,显著优于随机删除和 LLMLingua/AttnComp 等 SOTA 方法
- 代理解释能准确识别和移除中毒样本,使 GPT-4o 准确率从 <80% 恢复至 94%,与 oracle 效果几乎一致
- 跨模型解释可迁移性在不同任务和数据集上保持一致,Qwen 7B/14B 对 GPT-4o 均能达到超过 90% 保真度
亮点与洞察¶
- 将 LLM 同质性从一个被动观察转化为主动利用的工具——不同 LLM 的局部决策边界相似性成为节约解释成本的基础
- screen-and-apply 的双层筛选机制兼顾安全性和成本效率:任务级筛选一次性过滤不合格代理,实例级筛选提供逐样本安全阀
- 将可解释性从被动观察工具转变为主动优化原语(prompt 压缩、数据清洗),拓展了解释方法的应用边界
局限与展望¶
- 聚焦于扰动式特征归因方法(LIME、SHAP),对其他解释技术的适用性未探索
- 在需要极端推理能力的场景中(如复杂符号逻辑),小代理与大 oracle 的对齐可能减弱,此时框架会回退到 oracle,降低成本节约幅度
- 未探索通过轻量微调来对齐代理模型与 oracle 的方向
- 解释本身的双重用途风险——同样的工具可能被用于对抗性攻击或生成误导性解释
相关工作与启发¶
- vs LLMLingua/AttnComp: 这些是专门的 prompt 压缩方法,代理解释在压缩率上显著优于它们,说明解释引导的优化比专用启发式更有效
- vs 摊销解释方法(Amortized): 摊销方法训练统一解释器来近似解释分布,与本文的代理方法正交,可以组合使用进一步降低成本
- vs 白盒解释: 白盒方法需要访问模型内部表示,不适用于闭源模型;本文用代理模型的模型无关方法实现类似效果
评分¶
- 新颖性: ⭐⭐⭐⭐ 利用 LLM 同质性构建代理解释框架是新颖视角,统计筛选机制设计严谨
- 实验充分度: ⭐⭐⭐⭐⭐ 12 个 LLM、7 个数据集、两种解释方法、两种下游任务,覆盖极为全面
- 写作质量: ⭐⭐⭐⭐⭐ 问题动机清晰,统计框架严谨,实验组织条理分明
- 价值: ⭐⭐⭐⭐⭐ 使黑盒可解释性从"理论可行但实践不可用"变为"经济可行且实际有用",开源基准数据集有长期价值
相关论文¶
- [ACL 2026] Interpretability from the Ground Up
- [ACL 2026] Towards Intrinsic Interpretability of Large Language Models: A Survey of Design Principles and Architectures
- [NeurIPS 2025] OrdShap: Feature Position Importance for Sequential Black-Box Models
- [ACL 2026] Aligning What LLMs Do and Say: Towards Self-Consistent Explanations
- [ICLR 2026] Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts