Influence Malleability in Linearized Attention: Dual Implications of Non-Convergent NTK Dynamics¶

会议: CVPR 2026
arXiv: 2603.13085
代码: 无
领域: 深度学习理论 / 注意力机制
关键词: [线性化注意力, 神经正切核, 影响可塑性, 特征学习, 对抗鲁棒性]

一句话总结¶

通过NTK框架证明线性化注意力不会收敛到无限宽度核极限（需要宽度m=Ω(κ⁶)），并提出"影响可塑性"指标量化其双面效应：注意力比ReLU网络高6-9倍的数据依赖灵活性，既能降低近似误差也增加对抗脆弱性。

NTK理论预测足够宽的网络在"懒训练"中保持核近似不变，但注意力机制一直未被纳入该分析框架。传统研究聚焦于注意力的架构性质或最终性能，忽视了注意力学习过程的动力学特征。现有NTK理论仅适用于"比深度宽数个量级"的网络，实际注意力架构是否满足这一条件完全未知。

线性化注意力机制是否收敛到其无限宽度NTK极限？如果不收敛，这种非收敛对模型的训练数据依赖性意味着什么？本文揭示非收敛既赋予了注意力灵活的数据适应能力，也引入了对抗脆弱性——二者同源于注意力偏离核体制。

输入：原始数据 X ∈ ℝⁿˣᵈ → 线性化注意力变换 f_att(X) = XX^TX → 得到变换特征 → 送入两层ReLU MLP → 输出预测。对比基线为直接在原始输入上运行的2L-ReLU网络。在不同宽度m上计算有限宽NTK与无限宽NTK的距离，并通过影响函数量化数据依赖性。

线性化注意力与Gram诱导核（Theorem 4.1）: 无参线性化注意力 f_att(X)=XX^TX 精确对应一个数据依赖的Gram诱导核 K_LinAttn = G³（G=XX^T），每个核元素是四阶交互项∑(xᵢᵀxₖ)(xₖᵀxₗ)(xₗᵀxⱼ)，实现传递性相似度传播 i→k→ℓ→j。这是一种全新的无参四阶数据依赖核。
谱放大与NTK非收敛（Theorem 4.7）: 注意力变换将Gram矩阵条件数立方化：κ(G̃)=κ(G)³。NTK收敛要求宽度 m=Ω(κ(G)⁶/ε²)，对MNIST(κ≈1.2×10³)需m≫10¹⁸，对CIFAR-10(κ≈8.7×10³)需m≫10²⁴，远超实验范围m≤4096。而2L-ReLU仅需m=Ω(1/ε²)。
影响可塑性度量（Definition 3.4）: 定义Influence Flip Rate = 在top 10%高影响训练样本上，经PGD扰动(ε=0.3)后影响函数符号翻转的比例。互补指标为影响排名的Spearman相关系数ρ。还设计三种数据干预策略（Curated/Transformed/Adversarial）全面评估。

数据集	指标	MLP-Attn	2L-ReLU	倍率
MNIST (10类)	Flip Rate (PGD)	28.9%	3.3%	8.8×
MNIST (10类)	Flip Rate (FGSM)	34.6%	4.1%	8.4×
CIFAR-10 (10类)	Flip Rate (PGD)	19.1%	3.1%	6.2×
MNIST (二分类)	Flip Rate (PGD)	41.0%	8.4%	4.9×
MNIST	NTK距离(m=4096)	43.4(↑)	39.2(↓)	非收敛vs收敛
CIFAR-10	NTK距离(m=4096)	12.6(↑)	56.9(↓)	单调增vs单调减

对抗训练分析：AT将2L-ReLU可塑性从3.3%提升至43.4%（MNIST），但MLP-Attn无需AT即达28.9%，说明注意力的敏感性是架构内禀的。

vs Jacot et al. (NTK, 2018): 经典NTK理论预测宽网络收敛；本文证明注意力架构违反此预测
vs Chizat et al. (Lazy vs Feature Learning, 2019): 本文提供了注意力作为"特征学习体制"的具体架构实例和量化证据
vs Zhang et al. (NTK-based Influence, 2022): 延续其NTK影响函数方法，但首次用于比较架构间的影响可塑性差异

模型压缩启发: 线性化注意力的谱放大效应暗示，对注意力模块进行低秩近似（保留top-r奇异值）可能在保持表达力的同时恢复NTK收敛，降低对抗脆弱性。这为注意力头剪枝/低秩分解提供了新的理论指导
对抗鲁棒性方向: 影响可塑性可作为衡量模型鲁棒性的新指标，比传统对抗精度更细粒度
可探索：不同注意力变体（如线性注意力Performer vs softmax）的可塑性谱系