Attention (as Discrete-Time Markov) Chains¶

会议: NeurIPS 2025
arXiv: 2507.17657
代码: https://yoterel.github.io/attention_chains/
领域: 注意力分析 / 可视化
关键词: 注意力Markov链, TokenRank, PageRank, 多跳注意力, 图像分割

一句话总结¶

将 softmax 归一化后的注意力矩阵重新解读为离散时间 Markov 链（DTMC）的转移概率矩阵，提出多跳注意力（Multi-Bounce）和 TokenRank（稳态分布，类似 PageRank）来捕获间接注意力路径和全局 token 重要性，在 ImageNet 分割上达 94.29% mAP，并增强 Self-Attention Guidance 的图像生成质量。

研究背景与动机¶

领域现状：注意力分析依赖直接操作——行选择（token 关注谁）、列选择（谁关注 token）、求和（全局聚合）。这些只捕获一阶/直接注意力效应。
现有痛点：像 PageRank 在网页链接中的启示——直接超链接计数不如传播式重要性评估。注意力也有间接影响路径：token A 关注 B，B 关注 C，但直接操作看不到 A→C 的间接关系。
核心矛盾：注意力矩阵的行列操作是一阶的，忽略了高阶间接路径。需要一种数学框架统一直接和间接注意力效应。
本文要解决什么？ 提供基于 Markov 链的注意力分析框架，捕获多阶间接依赖和全局 token 重要性。
切入角度：softmax 归一化的注意力矩阵天然满足 Markov 链转移概率的定义（行和为 1，非负），可以直接复用 Markov 链/PageRank 的理论工具。
核心 idea 一句话：注意力矩阵 = DTMC 转移矩阵 → 多跳传播 = k 次矩阵幂 → 稳态向量 = TokenRank（类比 PageRank）→ \(\lambda_2\) 加权混合多头。

方法详解¶

整体框架¶

注意力矩阵 \(A\)（softmax 输出）→ Multi-Bounce: \(\mathbf{v}_{i,n+1}^T = \mathbf{v}_{i,n}^T A\)（n=1 即标准行选择）→ TokenRank: 求 \(A\) 的稳态向量 \(\pi\)（满足 \(\pi^T A = \pi^T\)）→ \(\lambda_2\) 加权: 用第二大特征值大小加权不同注意力头的贡献 → 应用于分割/生成/token masking

核心洞察：softmax 归一化后的注意力矩阵天然满足 Markov 链转移概率定义（行和为 1，非负），PageRank 的所有理论工具可直接迁移。

关键设计¶

多跳注意力（Multi-Bounce Attention）:
做什么：通过矩阵幂传播捕获间接注意力路径
核心思路：对 token \(i\)，初始化 one-hot 向量 \(\mathbf{v}_{i,0} = \mathbf{e}_i\)，迭代 \(\mathbf{v}_{i,n+1}^T = \mathbf{v}_{i,n}^T A\)。\(n=1\) 是标准行选择（直接关注），\(n=2\) 加入二阶间接路径，\(n \to \infty\) 收敛到稳态
设计动机：图像分割中一个像素可能不直接关注其所属物体的中心，但通过中间像素间接关联——多跳捕获这种间接关系
TokenRank（稳态分布）:
做什么：计算每个 token 的全局重要性（类比 PageRank）
核心思路：用幂法或 PageRank 修正（\(P' = \alpha P + (1-\alpha)\frac{1}{n}\mathbf{e}\mathbf{e}^T\) 保证遍历性和原始性）求稳态向量 \(\pi\)。\(\pi(i)\) 越高表示 token \(i\) 在注意力传播中越"重要"
设计动机：关注于 token 的全局影响力而非局部关系——"哪些 token 在整个注意力图中最核心？"
\(\lambda_2\) 加权多头混合:
做什么：用第二大特征值 \(\lambda_2\) 加权不同注意力头的贡献
核心思路：\(\lambda_2\) 越大表示 Markov 链收敛越慢（更多亚稳态），对应注意力头有更丰富的多尺度结构。用 \(\lambda_2\) 加权给这些头更大权重
设计动机：不是所有注意力头对下游任务同等重要——\(\lambda_2\) 提供了无监督的头重要性估计

损失函数 / 训练策略¶

纯分析方法，无训练
通过 10-20 次幂迭代计算 TokenRank

实验关键数据¶

主实验¶

任务	方法	Accuracy	mIoU	mAP
ImageNet分割	Concept Attention	83.07%	71.04%	—
	Ours (FLUX DiT)	84.12%	70.20%	94.29%
SAG图像生成	SD1.5 base	IS 16.32	—	—
	TokenRank	IS 18.37	—	—
DiffSeg	Uniform sampling	72.50 mACC	43.60 mIoU	—
	TokenRank grid	84.97 mACC	44.87 mIoU	—

消融实验¶

配置	结果
\(\lambda_2\) 加权 vs 均匀	统计显著改善（E.1 检验）
n=1 (标准) vs n=2 (双跳)	n=2 在分割上最优
结构化特征(DINOv2) vs 非结构化(ViT)	DINOv2 + TokenRank 收益更大
Token Masking	TokenRank 移除 → AUC 0.26-0.64（比 baseline 0.27-0.79 更快降低准确率）——证明 TokenRank 确实找到了重要 token

关键发现¶

多跳注意力（n=2）在分割任务上比直接注意力（n=1）好——间接路径确实包含有用信息
TokenRank 在 SAG 中比随机采样种子显著改善生成质量——找到"重要 token"作为引导更有效
结构化注意力（DINOv2 + registers）从 TokenRank 获益更大——说明 Markov 链分析需要注意力有一定结构
\(\lambda_2\) 加权提供了微小但统计显著的改善——自动头选择有价值

亮点与洞察¶

PageRank 到 TokenRank 的类比非常自然：注意力矩阵的行随机性恰好满足 Markov 链定义，PageRank 的所有理论工具可以直接迁移
多跳注意力揭示了"注意力的注意力"：一个 token 的真正影响不仅是它直接关注的，还包括它间接通过其他 token 到达的——这对理解 Transformer 的信息流动有深刻意义
统一框架涵盖多个应用：分割（Multi-Bounce）、生成引导（TokenRank + SAG）、token 重要性分析（masking）——一个理论框架多个应用

局限性 / 可改进方向¶

仅适用于方阵（自注意力/混合注意力），交叉注意力有不可达状态问题——需要扩展理论
\(\lambda_2\) 计算对大矩阵较贵——但多跳和 TokenRank 效率高（10-20 次迭代）
在无结构注意力（如普通 ViT 无 registers）上收益有限——暗示 Markov 分析需要注意力有一定结构先验
未探索多跳注意力的最优跳数自动选择——当前手动设 n=2
未分析跨层注意力的 Markov 链特性——当前仅在单层内分析
稳态向量可能不唯一（周期链或不连通注意力图）——需要 PageRank 修正保证

评分¶

新颖性: ⭐⭐⭐⭐⭐ Markov 链视角完全新颖，PageRank→TokenRank 的迁移优雅
实验充分度: ⭐⭐⭐⭐ 分割+生成+masking 三个应用 + 消融
写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰，类比直观
价值: ⭐⭐⭐⭐ 为注意力分析提供了新的数学框架，对理解 Transformer 信息流动有深层启发