跳转至

📚 AI Paper Notes

Attribution-Guided Decoding

Attribution-Guided Decoding¶

会议: ICLR2026
arXiv: 2509.26307
代码: GitHub
领域: LLM 解码 / 可解释性
关键词: 归因引导解码, LRP, 指令遵循, 事实性, 熵门控

一句话总结¶

提出 Attribution-Guided Decoding (AGD)，在解码时利用归因方法（LRP）对候选 token 计算其对"感兴趣区域"(ROI) 的依赖分数，选择归因最高的 token，从而在不修改模型内部激活的前提下提升指令遵循和事实准确性。

背景与动机¶

LLM 在复杂指令遵循和事实生成上仍不可靠，尤其在长上下文和多轮对话中约束容易漂移
现有控制方法（如 activation steering）直接修改内部激活，经常导致通用生成质量下降（重复、困惑度上升）
标准解码策略（top-k、nucleus sampling）对语义属性（事实性、指令遵循）缺乏直接控制力
作者提出：能否在不干预模型前向传播的情况下引导生成？

核心问题¶

如何在解码阶段利用可解释性工具（归因方法）作为主动引导信号，让模型选择最"依赖"于给定目标（指令/知识/上下文）的 token，同时保持输出流畅性。

方法详解¶

AGD 框架¶

候选集构建：每步解码取 top-k（k=5）高概率 token，过滤概率低于 πmin=0.05 的候选
归因打分：对每个候选 token c，用归因方法（LRP）从该 token 的 logit 反向传播，计算其对 ROI 中各组件的归因分数 S(c, R) = Σ r_ω
Token 选择：选归因分数最高的候选 token 作为输出

ROI（感兴趣区域）的灵活定义¶

指令遵循：ROI = 指令部分的 input embeddings（如 system prompt）
闭卷事实性：ROI = 预先识别的参数化知识注意力头（parametric knowledge heads）
开卷检索：ROI = 上下文文档的 input embeddings 或 in-context retrieval heads

归因方法选择¶

采用 LRP（Layer-wise Relevance Propagation），特别是针对 Transformer 的 AttnLRP
LRP 比 I×G 更稳定可靠，比扰动方法高效（仅需一次反向传播）
I×G 作为对比：保持质量但指令遵循提升不一致

熵门控自适应机制 (Entropy-Gating)¶

仅在模型不确定时（输出分布熵 H(p_t) ≥ τ）才启用 AGD，否则使用贪心解码
τ 设为 IHEval 上 token 熵的第 80 百分位（1.734）
显著降低计算开销，同时缓解过度干预导致的质量下降

实验关键数据¶

指令遵循 (IHEval)¶

模型	方法	PLA↑	QS↑	PLA×QS↑
Llama 3.1 8B	Greedy	66.0	81.3	53.7
Llama 3.1 8B	AGD_LRP	79.1	73.2	57.9
Llama 3.1 8B	AGD_LRP^e	74.5	76.4	56.9
Gemma 3 4B	Greedy	84.7	82.3	69.7
Gemma 3 4B	AGD_LRP^e	86.7	81.4	70.6

多轮指令遵循 (SysBench)¶

Llama 3.1：AGD_LRP^e 的 SSR（Session Stability Rate）较 greedy 提升 7.9 个百分点（26.0→33.9）
三个模型上 AGD 均一致提升 CSR/ISR/SSR

归因信号分析¶

正向约束（关键词包含）：满足约束的 token 在指令 token 上呈正归因
负向约束（禁用词）：违反约束的 token 在指令 token 上呈负归因，自动被惩罚
这一正/负信号机制使 AGD 对"包含"和"排除"类指令都有效

亮点¶

选择式而非干预式：不修改模型激活或 logit，只在高概率候选中做归因引导的选择，避免质量退化
ROI 灵活性强：同一框架可服务于指令遵循、事实性、上下文检索等多种任务
熵门控设计优雅：仅在"关键分叉点"干预，大幅降低计算开销，同时平衡遵循率和生成质量
首次将归因方法从被动解释转为主动引导，开辟了 XAI-for-generation 新范式
提供逐 token 的可解释选择理由

局限性 / 可改进方向¶

即使有熵门控，AGD 仍需额外的反向传播，计算开销高于标准解码
效果依赖归因方法的忠实度，I×G 效果明显弱于 LRP
ROI 需要人工定义（指令分段、知识头识别），自动化 ROI 选择是开放问题
候选集大小 k=5 和阈值 πmin=0.05 为固定超参，可能非所有场景最优
在基线已较强的模型（如 Gemma 3）上边际提升较小
负向约束依赖归因方法能产生负分数，不适用于所有归因方法

与相关工作的对比¶

方法	类型	是否修改激活/logit	质量影响
Activation Steering	干预式	是（残差流加向量）	常常退化
CAD (对比解码)	干预式	是（修改 logit）	部分退化
AGD	选择式	否	可通过熵门控保持

vs. CAD：AGD 在 IHEval 上 PLA 超过 CAD（Llama: 79.1 vs 73.9），且 PLA×QS 更优
vs. Activation Steering：AGD 不需要预计算 steering vector 或选择干预层

启发与关联¶

归因方法作为主动解码信号的思路可扩展到安全对齐（ROI=安全相关头）、风格控制等
熵门控的"只在不确定时干预"策略对其他解码增强方法也有参考价值
与 knowledge head / retrieval head 的工作结合，提供了一种不微调的事实性提升路径
可与 RAG 管线结合：ROI 设为检索文档 embeddings，鼓励模型基于证据生成

评分¶

新颖性: 8/10 — 首次将归因从被动解释转为主动解码引导，概念新颖
实验充分度: 7/10 — 三个模型、两个指令遵循基准、事实性实验，但缺少大模型验证
写作质量: 8/10 — 结构清晰，可视化丰富，案例分析直观
价值: 7/10 — 实用价值受限于计算开销，但新范式有启发性