Alias-Free ViT: Fractional Shift Invariance via Linear Attention¶

会议: NeurIPS 2025
arXiv: 2510.22673
代码: GitHub
领域: 视觉Transformer / 鲁棒性
关键词: 平移不变性, 抗混叠, ViT, 线性注意力, 亚像素偏移

一句话总结¶

提出Alias-Free ViT，通过两个关键组件实现Vision Transformer对整数和亚像素平移的鲁棒性：(1) 抗混叠下采样和非线性层设计，(2) 基于交叉协方差的线性注意力（shift-equivariant），在图像分类中保持竞争力的同时显著提升对抗性平移鲁棒性。

领域现状：ViT已成为视觉任务的主流架构，但缺乏卷积网络的平移不变性归纳偏置，对微小图像平移敏感。
现有痛点：(a) 标准ViT不是平移不变的，小平移可导致输出显著变化；(b) 之前的抗混叠方法（如APS）只能处理整数像素循环平移，无法处理亚像素平移；(c) 自注意力机制本身不是shift-equivariant的。
核心矛盾：CNN通过卷积自带平移等变性，但ViT的patch embedding和注意力机制没有这种结构性保证。
切入角度：结合抗混叠信号处理技术和线性注意力设计。
核心idea一句话：用抗混叠下采样消除降采样引起的混叠，用线性交叉协方差注意力替代标准softmax注意力实现shift-equivariance。

抗混叠下采样和非线性层：
做什么：消除patch merging、pooling和非线性层中的混叠
核心思路：在所有降采样操作前应用低通滤波器，非线性层（如GELU）中也加入抗混叠处理
设计动机：混叠是ViT（和CNN）丧失平移不变性的根本原因
线性交叉协方差注意力（XCA）：
做什么：替代标准自注意力，实现shift-equivariant的全局表示
核心思路：使用cross-covariance attention（不计算token间的完整注意力图），而是计算channel间的协方差关系。由于不依赖token的绝对位置，天然具有shift-equivariance
设计动机：标准softmax自注意力通过位置编码或绝对token位置引入平移敏感性；线性注意力避免了这个问题
Shift-Invariant全局池化：
在最终的全局表示层也应用抗混叠处理

证明了在连续域极限下，Alias-Free ViT对亚像素平移是精确shift-invariant的。

模型	Top-1 Acc	整数平移一致性	亚像素平移一致性
DeiT-Ti	~72%	中等	低
AF-DeiT-Ti	~71%	显著提升	显著提升
XCiT-Ti	~73%	较好	中等
AF-XCiT-Ti	~72%	最高	最高