ViT3: Unlocking Test-Time Training in Vision¶

会议: CVPR 2026
arXiv: 2512.01643
代码: GitHub
领域: 高效架构 / 视觉序列建模
关键词: Test-Time Training, 线性复杂度, 内部模型, 视觉Transformer, 卷积

一句话总结¶

系统性探索Test-Time Training（TTT）在视觉任务中的设计空间，总结六条实用设计洞察，提出ViT3——一个线性复杂度的纯TTT视觉架构，在分类/生成/检测/分割任务中匹配或超越Mamba和线性注意力方法。

Vision Transformer的二次复杂度O(N²)限制了长视觉序列的处理。TTT模型提供了一种新的线性复杂度路径：将注意力操作重新表述为在线学习问题——在测试时用Key-Value对作为"迷你数据集"训练一个紧凑的内部模型，然后用这个模型处理Query。

然而，TTT的设计空间巨大且探索不足：内部训练（损失函数、学习率、批量大小、epoch数）和内部模型（架构、大小）的选择缺乏系统理解。这导致了视觉TTT模型的性能被锁定，无法充分发挥其潜力。

输入token序列 → 投影为Q/K/V → K/V作为内部训练数据训练内部模型F_W → 用训练后的F_{W*}处理Q得到输出 → 与Transformer相同的宏观架构（每层替换Attention为TTT层）。

损失函数选择（Insight 1）:
- 混合二阶导数∂²L/∂V̂∂V为零的损失不适合TTT（如MAE/L1损失），因为外循环梯度信号在反向传播内部更新时消失
- 推荐：Dot Product Loss、MSE Loss
内部训练配置（Insight 2&3）:
- 视觉任务适合单epoch全批量梯度下降（B=N），与语言任务的小批量不同
- 因果迷你批量对非因果的视觉数据是次优的
- 较大的内部学习率（η=1.0）最有效
内部模型设计（Insight 4&5&6）:
- 增大内部模型容量一致提升性能（宽度scaling有效）
- 深层内部模型存在优化困难（训练损失更高，即欠拟合），当前TTT设置下深度scaling无效
- 卷积架构（尤其是深度可分离卷积DWConv）特别适合作为内部模型——80.1% Top-1（vs MLP 78.9%）

方法	类型	Params	Top-1
DeiT-S	Transformer	22M	79.8
Vim-S	Mamba	26M	80.3
Agent-DeiT-S	Linear	23M	80.5
ViT3-S	TTT	24M	81.6
H-ViT3-S‡	TTT	54M	84.9
H-ViT3-B‡	TTT	94M	85.5