Attribution-Guided Decoding¶
会议: ICLR2026
arXiv: 2509.26307
代码: GitHub
领域: LLM 解码 / 可解释性
关键词: 归因引导解码, LRP, 指令遵循, 事实性, 熵门控
一句话总结¶
提出 Attribution-Guided Decoding (AGD),在解码时利用归因方法(LRP)对候选 token 计算其对"感兴趣区域"(ROI) 的依赖分数,选择归因最高的 token,从而在不修改模型内部激活的前提下提升指令遵循和事实准确性。
背景与动机¶
- LLM 在复杂指令遵循和事实生成上仍不可靠,尤其在长上下文和多轮对话中约束容易漂移
- 现有控制方法(如 activation steering)直接修改内部激活,经常导致通用生成质量下降(重复、困惑度上升)
- 标准解码策略(top-k、nucleus sampling)对语义属性(事实性、指令遵循)缺乏直接控制力
- 作者提出:能否在不干预模型前向传播的情况下引导生成?
核心问题¶
如何在解码阶段利用可解释性工具(归因方法)作为主动引导信号,让模型选择最"依赖"于给定目标(指令/知识/上下文)的 token,同时保持输出流畅性。
方法详解¶
AGD 框架¶
- 候选集构建:每步解码取 top-k(k=5)高概率 token,过滤概率低于 πmin=0.05 的候选
- 归因打分:对每个候选 token c,用归因方法(LRP)从该 token 的 logit 反向传播,计算其对 ROI 中各组件的归因分数 S(c, R) = Σ r_ω
- Token 选择:选归因分数最高的候选 token 作为输出
ROI(感兴趣区域)的灵活定义¶
- 指令遵循:ROI = 指令部分的 input embeddings(如 system prompt)
- 闭卷事实性:ROI = 预先识别的参数化知识注意力头(parametric knowledge heads)
- 开卷检索:ROI = 上下文文档的 input embeddings 或 in-context retrieval heads
归因方法选择¶
- 采用 LRP(Layer-wise Relevance Propagation),特别是针对 Transformer 的 AttnLRP
- LRP 比 I×G 更稳定可靠,比扰动方法高效(仅需一次反向传播)
- I×G 作为对比:保持质量但指令遵循提升不一致
熵门控自适应机制 (Entropy-Gating)¶
- 仅在模型不确定时(输出分布熵 H(p_t) ≥ τ)才启用 AGD,否则使用贪心解码
- τ 设为 IHEval 上 token 熵的第 80 百分位(1.734)
- 显著降低计算开销,同时缓解过度干预导致的质量下降
实验关键数据¶
指令遵循 (IHEval)¶
| 模型 | 方法 | PLA↑ | QS↑ | PLA×QS↑ |
|---|---|---|---|---|
| Llama 3.1 8B | Greedy | 66.0 | 81.3 | 53.7 |
| Llama 3.1 8B | AGD_LRP | 79.1 | 73.2 | 57.9 |
| Llama 3.1 8B | AGD_LRP^e | 74.5 | 76.4 | 56.9 |
| Gemma 3 4B | Greedy | 84.7 | 82.3 | 69.7 |
| Gemma 3 4B | AGD_LRP^e | 86.7 | 81.4 | 70.6 |
多轮指令遵循 (SysBench)¶
- Llama 3.1:AGD_LRP^e 的 SSR(Session Stability Rate)较 greedy 提升 7.9 个百分点(26.0→33.9)
- 三个模型上 AGD 均一致提升 CSR/ISR/SSR
归因信号分析¶
- 正向约束(关键词包含):满足约束的 token 在指令 token 上呈正归因
- 负向约束(禁用词):违反约束的 token 在指令 token 上呈负归因,自动被惩罚
- 这一正/负信号机制使 AGD 对"包含"和"排除"类指令都有效
亮点¶
- 选择式而非干预式:不修改模型激活或 logit,只在高概率候选中做归因引导的选择,避免质量退化
- ROI 灵活性强:同一框架可服务于指令遵循、事实性、上下文检索等多种任务
- 熵门控设计优雅:仅在"关键分叉点"干预,大幅降低计算开销,同时平衡遵循率和生成质量
- 首次将归因方法从被动解释转为主动引导,开辟了 XAI-for-generation 新范式
- 提供逐 token 的可解释选择理由
局限性 / 可改进方向¶
- 即使有熵门控,AGD 仍需额外的反向传播,计算开销高于标准解码
- 效果依赖归因方法的忠实度,I×G 效果明显弱于 LRP
- ROI 需要人工定义(指令分段、知识头识别),自动化 ROI 选择是开放问题
- 候选集大小 k=5 和阈值 πmin=0.05 为固定超参,可能非所有场景最优
- 在基线已较强的模型(如 Gemma 3)上边际提升较小
- 负向约束依赖归因方法能产生负分数,不适用于所有归因方法
与相关工作的对比¶
| 方法 | 类型 | 是否修改激活/logit | 质量影响 |
|---|---|---|---|
| Activation Steering | 干预式 | 是(残差流加向量) | 常常退化 |
| CAD (对比解码) | 干预式 | 是(修改 logit) | 部分退化 |
| AGD | 选择式 | 否 | 可通过熵门控保持 |
- vs. CAD:AGD 在 IHEval 上 PLA 超过 CAD(Llama: 79.1 vs 73.9),且 PLA×QS 更优
- vs. Activation Steering:AGD 不需要预计算 steering vector 或选择干预层
启发与关联¶
- 归因方法作为主动解码信号的思路可扩展到安全对齐(ROI=安全相关头)、风格控制等
- 熵门控的"只在不确定时干预"策略对其他解码增强方法也有参考价值
- 与 knowledge head / retrieval head 的工作结合,提供了一种不微调的事实性提升路径
- 可与 RAG 管线结合:ROI 设为检索文档 embeddings,鼓励模型基于证据生成
评分¶
- 新颖性: 8/10 — 首次将归因从被动解释转为主动解码引导,概念新颖
- 实验充分度: 7/10 — 三个模型、两个指令遵循基准、事实性实验,但缺少大模型验证
- 写作质量: 8/10 — 结构清晰,可视化丰富,案例分析直观
- 价值: 7/10 — 实用价值受限于计算开销,但新范式有启发性