Influence Malleability in Linearized Attention: Dual Implications of Non-Convergent NTK Dynamics¶
会议: CVPR2025
arXiv: 2603.13085
代码: 待确认
领域: 深度学习理论
关键词: Neural Tangent Kernel, 注意力机制, 核方法, influence function, 对抗鲁棒性
一句话总结¶
通过 NTK 框架揭示线性化注意力机制不会收敛到无穷宽 NTK 极限(谱放大效应使 Gram 矩阵条件数立方化,需宽度 \(m = \Omega(\kappa^6)\)),并引入「影响可塑性」概念量化这一非收敛的双面后果:注意力比 ReLU 网络高 6-9 倍的可塑性既增强了任务适配能力,也加剧了对抗脆弱性。
研究背景与动机¶
- NTK 理论的基本预测:Neural Tangent Kernel 理论预测足够宽的网络在训练中核保持近似不变(lazy training),可用核方法精确分析学习动态
- 注意力机制缺乏理论刻画:注意力的非线性动态使其大部分游离于 NTK 理论框架之外,学习过程中的灵活性缺乏严格理论表征
- 惊人的经验发现:标准 ReLU 网络随宽度增加 NTK 距离单调递减(符合预期),但带注意力的网络 NTK 距离不降反升或非单调,表明注意力从未进入核 regime
- 核心问题:注意力为什么不收敛到 NTK 极限?这种非收敛对训练数据依赖性意味着什么?
- 切入角度:设计参数无关的线性化注意力 \(f^{\text{att}}(\mathbf{X}) = \mathbf{X}\mathbf{X}^T\mathbf{X}\),建立与数据依赖 Gram 诱导核的精确对应,从而实现严格的理论分析
方法详解¶
核心理论框架¶
- 线性化注意力定义:\(f^{\text{att}}(\mathbf{X}) = \mathbf{X}\mathbf{X}^T\mathbf{X}\),对应 identity QKV 投影 + 线性化 softmax(\(\exp(A_{ij}) \approx 1 + A_{ij}\))的标准注意力,保留了注意力核心的二次交互结构,相当于未归一化的 Nadaraya-Watson 估计器
- MLP-Attn 架构:线性化注意力预处理(输出做 \(\ell_2\) 归一化)→ 两层 ReLU MLP(\(f = \frac{1}{\sqrt{m}} \sum_r a_r \sigma(\mathbf{w}_r^T \tilde{\mathbf{x}})\))。注意力层参数无关,仅 MLP 权重 \(\mathbf{w}_r\) 参与训练,\(a_r \in \{-1, +1\}\) 固定
关键定理¶
- Theorem 4.1(数据依赖 Gram 诱导核):线性化注意力诱导核为 \(K_{\text{LinAttn}}(\mathbf{x}_i, \mathbf{x}_j) = \sum_{k,\ell} (\mathbf{x}_i^T \mathbf{x}_k)(\mathbf{x}_k^T \mathbf{x}_\ell)(\mathbf{x}_\ell^T \mathbf{x}_j)\),矩阵形式 \(\mathbf{K} = \mathbf{G}^3\)(\(\mathbf{G} = \mathbf{X}\mathbf{X}^T\)),呈现传递相似性链 \(i \to k \to \ell \to j\):影响从 \(\mathbf{x}_i\) 经中间点传播到 \(\mathbf{x}_j\)
- Theorem 4.2(序列架构 NTK):MLP-Attn 无穷宽极限 NTK 为 \(K_{\text{seq}}(\mathbf{x}, \mathbf{x}') = \mathbb{E}_{\mathbf{w}}[\sigma'(\mathbf{w}^T \tilde{\mathbf{x}}) \sigma'(\mathbf{w}^T \tilde{\mathbf{x}}')] \cdot \langle \tilde{\mathbf{x}}, \tilde{\mathbf{x}}' \rangle\),由于 \(f^{\text{att}}\) 参数无关,仅 \(\mathbf{w}_r\) 梯度贡献
- Theorem 4.7(谱放大与 NTK 非收敛):注意力变换使条件数立方化 \(\kappa(\tilde{\mathbf{G}}) = \kappa(\mathbf{G})^3\),NTK 收敛所需宽度为 \(m = \Omega(\kappa(\mathbf{G})^6/\epsilon^2)\)。MNIST 上 \(\kappa(\mathbf{G}) \approx 1.2 \times 10^3\) → 需 \(m \gg 10^{18}\);CIFAR-10 上 \(\kappa(\mathbf{G}) \approx 8.7 \times 10^3\) → 需 \(m \gg 10^{24}\),远超实际宽度
- Proposition 4.5(数据依赖核灵敏度):注意力核灵敏度依赖于整个数据集的相关结构 \(|K_{\text{LinAttn}}(\mathbf{x}_i + \delta, \mathbf{x}_j) - K_{\text{LinAttn}}(\mathbf{x}_i, \mathbf{x}_j)| \leq \|\mathbf{G}\mathbf{x}_j\|_1 \cdot \epsilon\),\(\|\mathbf{G}\mathbf{x}_j\|_1\) 随数据集规模和相关密度增长;对比多项式核的 \(O(\epsilon)\) 灵敏度与数据无关
影响可塑性(Influence Malleability)¶
- 影响函数:基于 NTK 的 leave-one-out 公式 \(I(\mathbf{x}_i, \mathbf{x}_{\text{test}})\),通过经验有限宽核矩阵 \((\mathbf{K}_m + \lambda \mathbf{I})^{-1}\) 高效计算,无需重训练
- 翻转率定义:选取 top-\(\tau\)(\(\tau=0.1\))高影响力训练样本,施加 PGD 对抗扰动(\(\epsilon=0.3\)),计算影响力符号翻转的比例
- 互补度量:原始与扰动后影响力排名的 Spearman 秩相关系数 \(\rho\),越低表示可塑性越高
- 三种干预策略:Curated(移除高影响样本)、Transformed(替换为对抗版本)、Adversarial(全数据 PGD 扰动)
实验关键数据¶
NTK 非收敛验证¶
| 模型 | 数据集 | \(m=16\) | \(m=1024\) | \(m=4096\) | 趋势 |
|---|---|---|---|---|---|
| 2L-ReLU | MNIST | 45.1 | 39.9 | 39.2 | ↓ 收敛 |
| MLP-Attn | MNIST | 10.3 | 33.3 | 43.4 | ↑ 非单调后发散 |
| 2L-ReLU | CIFAR-10 | 246.2 | 101.7 | 56.9 | ↓ 收敛 |
| MLP-Attn | CIFAR-10 | 3.7 | 10.4 | 12.6 | ↑ 单调发散 |
MNIST 非单调 vs CIFAR-10 单调递增反映了 Gram 矩阵结构差异:MNIST 较低的 \(\kappa(\mathbf{G})\) 允许小宽度下出现暂态近 lazy regime,而 CIFAR-10 从初始化起就处于特征学习 regime。
影响可塑性(10 类分类,\(\epsilon=0.3\))¶
| 数据集 | 模型 | FGSM | PGD | MIM |
|---|---|---|---|---|
| MNIST | 2L-ReLU | 4.1% | 3.3% | 3.4% |
| MNIST | MLP-Attn | 34.6% | 28.9% | 21.9% |
| CIFAR-10 | 2L-ReLU | 3.3% | 3.1% | 3.2% |
| CIFAR-10 | MLP-Attn | 26.4% | 19.1% | 20.5% |
MLP-Attn 翻转率比 ReLU 高 6-9 倍。FGSM 产生最高翻转率,PGD 在 MNIST 上产生最大比值(8.8×)。
二分类场景(\(\epsilon=0.3\))¶
| 数据集 | 模型 | FGSM | PGD | MIM |
|---|---|---|---|---|
| MNIST (3 vs 8) | 2L-ReLU | 8.4% | 8.4% | 8.6% |
| MNIST (3 vs 8) | MLP-Attn | 25.9% | 41.0% | 40.5% |
| CIFAR-10 (cars vs planes) | 2L-ReLU | 15.2% | 15.5% | 15.3% |
| CIFAR-10 (cars vs planes) | MLP-Attn | 14.3% | 14.0% | 14.8% |
MNIST 二分类中注意力优势 3-5×;CIFAR-10 二分类中优势消失(≈1×),与 Theorem 4.7 一致——二分类 CIFAR-10 的 \(\kappa(\mathbf{G})\) 较低,立方条件数放大效应减弱。
对抗训练分析¶
| 数据集 | 模型 | 标准训练 | 对抗训练 |
|---|---|---|---|
| MNIST | 2L-ReLU | 3.3% | 43.4% |
| MNIST | MLP-Attn | 28.9% | 42.2% |
| CIFAR-10 | 2L-ReLU | 3.1% | 36.5% |
| CIFAR-10 | MLP-Attn | 19.1% | 38.6% |
对抗训练大幅提升 ReLU 可塑性(3.3% → 43.4%),但 MLP-Attn 在标准训练下就天然具有高可塑性(28.9%)。两种不同机制产生可塑性:(1) 架构性——注意力的 Gram 诱导核天然创造灵敏度;(2) 训练诱导性——对抗增强迫使特征重学习。注意力的灵敏度是内禀的而非外部施加的。
亮点¶
- 理论优雅:从线性化注意力出发建立精确核对应(\(\mathbf{K} = \mathbf{G}^3\)),再通过谱放大解释非收敛,因果链完整
- "影响可塑性"概念新颖:将 NTK 非收敛的理论发现转化为可度量的实际指标——训练数据依赖性的动态变化
- 双面性洞察深刻:同一个数据依赖核机制既是注意力的力量之源(数据依赖核在目标与数据分布对齐时降低逼近误差)也是脆弱性之源(高可塑性使对抗操纵更容易)
- 实验与理论精确一致:经验条件数 \(\kappa(\mathbf{G}) \approx 10^3\) 精确预测了观测到的非收敛行为;二分类场景中 \(\kappa(\mathbf{G})\) 降低时优势消失也验证了理论
- 可推广性分析:堆叠 \(k\) 层线性化自注意力产生 \(\mathbf{G}^{2k+1}\),条件数 \(\kappa(\mathbf{G})^{2k+1}\),进一步加剧非收敛;截断注意力(保留 top-\(r\) 奇异分量)可恢复收敛
局限性¶
- 仅分析线性化注意力(identity QKV + 线性化 softmax),与实际 softmax 注意力存在差距;softmax 的逐行归一化可能进一步放大非收敛
- 实验限于 MNIST/CIFAR-10 和两层网络(\(m \leq 4096\)),未扩展到更大规模架构或更复杂数据
- Theorem 4.7 仅给出初始化时 NTK 偏差的下界,未直接预测训练后轨迹——宽度增大导致 NTK 距离上升是互补效应(更大网络有更多特征学习容量)
- 影响可塑性度量依赖扰动预算 \(\epsilon\) 和选择阈值 \(\tau\) 的具体取值,虽然补充实验确认了不同 \(\epsilon \in \{0.1, 0.2, 0.3, 0.5\}\) 下排序一致
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次揭示注意力 NTK 非收敛及其影响可塑性后果
- 实验充分度: ⭐⭐⭐ 理论验证充分但实验规模受限
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰严谨,实验与理论紧密呼应
- 价值: ⭐⭐⭐⭐ 为理解注意力机制的根本特性提供新视角