Quantum Doubly Stochastic Transformers¶
会议: NEURIPS2025
arXiv: 2504.16275
代码: 待确认
领域: others
关键词: quantum computing, doubly stochastic matrices, Vision Transformer, attention mechanism, variational quantum circuit
一句话总结¶
提出 QDSFormer,用变分量子电路(QontOT)替换 ViT 中的 softmax 生成双随机注意力矩阵,在多个小规模图像识别任务上超越标准 ViT 和 Sinkformer,并显著稳定训练。
背景与动机¶
- Transformer 中的 softmax 让注意力矩阵成为右随机矩阵,但已知会导致 entropy collapse、rank collapse、token uniformity 等问题
- Sinkformer 通过 Sinkhorn 算法将注意力矩阵强制为双随机矩阵(DSM),在多种任务上提升性能
- 但 Sinkhorn 算法是迭代近似、非参数化、梯度不稳定的
- 近期证明:变分量子电路(QontOT)可以参数化地生成 DSM,且没有已知的经典对应方法
核心问题¶
如何利用量子电路的参数化 DSM 生成能力来替代 softmax,构建一种更灵活、更稳定的双随机 Transformer?
方法详解¶
- DSM 生成方式对比:对比了 Sinkhorn、QR 分解、Birkhoff 投影、QontOT 量子电路等多种 DSM 生成算子
- QontOT 集成:将 QontOT 量子电路扩展为矩阵级 DSM 输出,替换 ViT 自注意力中的 softmax
- 电路训练策略:
- Differentiable:电路参数与 Transformer 联合优化(最慢)
- Mixed:Transformer 训练交替进行梯度无关的电路优化
- Static:使用预训练电路参数,纯推理模式(效果最好)
- 量子灵感经典替代:提出基于 QR 分解的双随机 Transformer(QRFormer)作为经典替代
实验关键数据¶
- FashionMNIST/MNIST:2-4 层 ViT 上 QDSFormer 在大多数配置下显著超越 softmax 和 Sinkhorn
- FashionMNIST 4层:QontOT 90.3% vs Softmax 89.7% vs Sinkhorn 89.1%
- MNIST 4层:QontOT 98.8% vs Softmax 98.8% vs Sinkhorn 97.9%
- MedMNIST(7 个数据集):QDSFormer 在 5/7 数据集上最优,平均准确率 74.3% vs ViT 73.0%
- Eureka 组合任务:QDSFormer 在 100 epoch 内学会(vs 标准 ViT 需数百 epoch),准确率提升 ~30%
- lr=5e-4 时 QontOT 达 89.4% 且 5/5 run 出现 Eureka moment;Softmax 仅 61.1%(1/5)
- 训练稳定性:QDSFormer 在所有实验中性能方差一致低于其他方法
亮点¶
- 首个参数化双随机 Transformer,利用量子电路生成 DSM 且无已知经典等价方法
- Static 模式不需额外训练电路参数,却性能最强——说明量子 DSM 的归纳偏置本身就有价值
- 在组合推理任务上大幅提前 Eureka Moment,显示双随机注意力自然地稳定了 ViT 训练
- 量子硬件噪声保留了注意力矩阵的排序(Spearman ρ>0.9),可能反而有正则化效果
局限性 / 可改进方向¶
- 所有实验在小规模数据集上,受限于量子模拟器的扩展性
- 量子硬件上运行尚不可行(需 ~640K shots/sample,当前硬件 kHz 级频率)
- 端到端训练反而劣于 Static,可能受 Barren plateaus 影响
- 未与 ESPFormer、LOTFormer 等并发工作比较
与相关工作的对比¶
| 方法 | 注意力类型 | 参数化 | DSM 保证 |
|---|---|---|---|
| ViT(Softmax) | 右随机 | ✓ | ✗ |
| Sinkformer | 双随机 | ✗ | 近似(迭代) |
| QRFormer(本文提出) | 双随机 | ✗ | 精确 |
| QDSFormer | 双随机 | ✓ | 精确 |
| ESPFormer | 双随机 | ✗ | Sliced OT |
| LOTFormer | 双随机+线性 | ✓ | Conditional OT |
启发与关联¶
- 量子归纳偏置的一般性启示:不一定需要量子优势,量子电路的结构约束本身可作为有用的归纳偏置
- Static 模式成功暗示:随机(但结构良好的)DSM 可能已足够好,关键在于双随机性而非特定的 DSM
- 与注意力温度调节的关系:双随机注意力自动增加 entropy 且不使其均匀,避免了手动调温的需求
评分¶
- 新颖性: ⭐⭐⭐⭐ (量子电路替换 softmax 思路新颖)
- 实验充分度: ⭐⭐⭐ (仅小规模数据集,但对比全面)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,理论与实验平衡)
- 价值: ⭐⭐⭐ (概念验证阶段,实际应用受限于量子硬件)