Aligning What LLMs Do and Say: Towards Self-Consistent Explanations¶

会议: ACL 2026
arXiv: 2506.07523
代码: GitHub
领域: Interpretability / LLM Alignment
关键词: 自一致性, 特征归因, 解释忠实性, DPO优化, 归因对齐

一句话总结¶

构建大规模Post-hoc Self-Consistency Bank（PSCB，85K决策×428K解释），量化LLM答案与其解释之间的特征归因差距，并通过DPO优化在不损害准确率的前提下提升解释的归因一致性。

领域现状：LLM常被要求生成自然语言解释来说明其答案，但这些post-hoc解释往往与实际驱动答案的输入特征不一致——解释说的和模型做的不一样。

现有痛点：(1) 现有忠实性度量方法（如反事实干预）计算成本极高，难以大规模应用；(2) CC-SHAP等方法仅评估了约100个样本，结论可靠性受限；(3) 没有人展示过如何改善这种归因不一致。

核心矛盾：LLM的解释可能流畅合理但"答非所问"——解释关注的输入特征与实际驱动答案的特征不同，这对可信AI构成根本威胁。

本文目标：(1) 大规模量化答案与解释之间的归因一致性；(2) 提出改善方法。

切入角度：对每个QA决策和其多个解释分别计算特征归因向量，比较两者的对齐度。用DPO在归因偏好数据上微调以改善一致性。

核心 idea：Spearman秩相关比余弦相似度更能区分高低质量解释；基于归因偏好的DPO优化能有效提升自一致性且跨域泛化。

PSCB构建流程：(1) 对QA决策计算特征归因向量；(2) 对每个决策生成K个多样化解释，分别计算归因向量；(3) 用对齐函数度量决策与解释的归因一致性；(4) 选取最好和最差解释构建偏好对，用DPO优化。

Post-hoc Self-Consistency Bank (PSCB):
- 功能：提供大规模的归因增强QA基准
- 核心思路：85K决策 × 每个5个解释 = 428K解释-归因对。使用LIME和Layer Integrated Gradients (LIG)两种归因方法，覆盖4个QA数据集和2个LLM
- 设计动机：此前仅能在约100个样本上评估，无法得出可靠结论。大规模数据是系统研究的前提
Spearman秩相关作为对齐度量:
- 功能：比余弦相似度更可靠地度量归因对齐
- 核心思路：Spearman秩相关 \(CC_{sp} = 1 - \frac{6\sum(r(\phi_i^{dec}) - r(\phi_i^{exp}))^2}{m(m^2-1)}\) 捕获特征优先级的一致性，不受归因量纲影响
- 设计动机：余弦相似度在区分好坏解释时分布高度重叠（区分力弱），Spearman秩相关能清晰分离不同质量的解释
基于归因偏好的DPO优化:
- 功能：在不损害任务准确率的前提下提升解释的自一致性
- 核心思路：用PSCB中自一致性最高的解释作为chosen、最低的作为rejected构建偏好对，然后用DPO微调LLM
- 设计动机：SFT在同样数据上效果差，DPO能更好地学习归因偏好的微妙差异

使用标准DPO目标函数，训练在PSCB的偏好对上进行。解释通过温度采样生成（p=0.9, T=0.7），每个决策5个解释，取最好和最差构建偏好对。

模型	数据集	CC-Sp(优化前)	CC-Sp(DPO后)	准确率变化
LLaMA3.1-8B	ECQA	18.47(mean)	显著提升	不降
LLaMA3.2-3B	ECQA	9.75(mean)	显著提升	不降