跳转至

Attribution-Guided Decoding

会议: ICLR2026
arXiv: 2509.26307
代码: GitHub
领域: LLM 解码 / 可解释性
关键词: 归因引导解码, LRP, 指令遵循, 事实性, 熵门控

一句话总结

提出 Attribution-Guided Decoding (AGD),在解码时利用归因方法(LRP)对候选 token 计算其对"感兴趣区域"(ROI) 的依赖分数,选择归因最高的 token,从而在不修改模型内部激活的前提下提升指令遵循和事实准确性。

背景与动机

  • LLM 在复杂指令遵循和事实生成上仍不可靠,尤其在长上下文和多轮对话中约束容易漂移
  • 现有控制方法(如 activation steering)直接修改内部激活,经常导致通用生成质量下降(重复、困惑度上升)
  • 标准解码策略(top-k、nucleus sampling)对语义属性(事实性、指令遵循)缺乏直接控制力
  • 作者提出:能否在不干预模型前向传播的情况下引导生成?

核心问题

如何在解码阶段利用可解释性工具(归因方法)作为主动引导信号,让模型选择最"依赖"于给定目标(指令/知识/上下文)的 token,同时保持输出流畅性。

方法详解

AGD 框架

  1. 候选集构建:每步解码取 top-k(k=5)高概率 token,过滤概率低于 πmin=0.05 的候选
  2. 归因打分:对每个候选 token c,用归因方法(LRP)从该 token 的 logit 反向传播,计算其对 ROI 中各组件的归因分数 S(c, R) = Σ r_ω
  3. Token 选择:选归因分数最高的候选 token 作为输出

ROI(感兴趣区域)的灵活定义

  • 指令遵循:ROI = 指令部分的 input embeddings(如 system prompt)
  • 闭卷事实性:ROI = 预先识别的参数化知识注意力头(parametric knowledge heads)
  • 开卷检索:ROI = 上下文文档的 input embeddings 或 in-context retrieval heads

归因方法选择

  • 采用 LRP(Layer-wise Relevance Propagation),特别是针对 Transformer 的 AttnLRP
  • LRP 比 I×G 更稳定可靠,比扰动方法高效(仅需一次反向传播)
  • I×G 作为对比:保持质量但指令遵循提升不一致

熵门控自适应机制 (Entropy-Gating)

  • 仅在模型不确定时(输出分布熵 H(p_t) ≥ τ)才启用 AGD,否则使用贪心解码
  • τ 设为 IHEval 上 token 熵的第 80 百分位(1.734)
  • 显著降低计算开销,同时缓解过度干预导致的质量下降

实验关键数据

指令遵循 (IHEval)

模型 方法 PLA↑ QS↑ PLA×QS↑
Llama 3.1 8B Greedy 66.0 81.3 53.7
Llama 3.1 8B AGD_LRP 79.1 73.2 57.9
Llama 3.1 8B AGD_LRP^e 74.5 76.4 56.9
Gemma 3 4B Greedy 84.7 82.3 69.7
Gemma 3 4B AGD_LRP^e 86.7 81.4 70.6

多轮指令遵循 (SysBench)

  • Llama 3.1:AGD_LRP^e 的 SSR(Session Stability Rate)较 greedy 提升 7.9 个百分点(26.0→33.9)
  • 三个模型上 AGD 均一致提升 CSR/ISR/SSR

归因信号分析

  • 正向约束(关键词包含):满足约束的 token 在指令 token 上呈正归因
  • 负向约束(禁用词):违反约束的 token 在指令 token 上呈负归因,自动被惩罚
  • 这一正/负信号机制使 AGD 对"包含"和"排除"类指令都有效

亮点

  • 选择式而非干预式:不修改模型激活或 logit,只在高概率候选中做归因引导的选择,避免质量退化
  • ROI 灵活性强:同一框架可服务于指令遵循、事实性、上下文检索等多种任务
  • 熵门控设计优雅:仅在"关键分叉点"干预,大幅降低计算开销,同时平衡遵循率和生成质量
  • 首次将归因方法从被动解释转为主动引导,开辟了 XAI-for-generation 新范式
  • 提供逐 token 的可解释选择理由

局限性 / 可改进方向

  • 即使有熵门控,AGD 仍需额外的反向传播,计算开销高于标准解码
  • 效果依赖归因方法的忠实度,I×G 效果明显弱于 LRP
  • ROI 需要人工定义(指令分段、知识头识别),自动化 ROI 选择是开放问题
  • 候选集大小 k=5 和阈值 πmin=0.05 为固定超参,可能非所有场景最优
  • 在基线已较强的模型(如 Gemma 3)上边际提升较小
  • 负向约束依赖归因方法能产生负分数,不适用于所有归因方法

与相关工作的对比

方法 类型 是否修改激活/logit 质量影响
Activation Steering 干预式 是(残差流加向量) 常常退化
CAD (对比解码) 干预式 是(修改 logit) 部分退化
AGD 选择式 可通过熵门控保持
  • vs. CAD:AGD 在 IHEval 上 PLA 超过 CAD(Llama: 79.1 vs 73.9),且 PLA×QS 更优
  • vs. Activation Steering:AGD 不需要预计算 steering vector 或选择干预层

启发与关联

  • 归因方法作为主动解码信号的思路可扩展到安全对齐(ROI=安全相关头)、风格控制等
  • 熵门控的"只在不确定时干预"策略对其他解码增强方法也有参考价值
  • 与 knowledge head / retrieval head 的工作结合,提供了一种不微调的事实性提升路径
  • 可与 RAG 管线结合:ROI 设为检索文档 embeddings,鼓励模型基于证据生成

评分

  • 新颖性: 8/10 — 首次将归因从被动解释转为主动解码引导,概念新颖
  • 实验充分度: 7/10 — 三个模型、两个指令遵循基准、事实性实验,但缺少大模型验证
  • 写作质量: 8/10 — 结构清晰,可视化丰富,案例分析直观
  • 价值: 7/10 — 实用价值受限于计算开销,但新范式有启发性