QKD: Quantum-Gated Task-interaction Knowledge Distillation for Class-Incremental Learning¶
会议: CVPR 2026
arXiv: 2604.11112
代码: https://github.com/Frank-lilinjie/CVPR26-QKD
领域: 自监督/增量学习
关键词: 类增量学习, 量子计算, 知识蒸馏, 预训练模型, 适配器
一句话总结¶
QKD 将量子门控引入类增量学习,通过参数化量子电路在高维 Hilbert 空间中建模样本-任务相关性,引导跨任务知识蒸馏和推理时适配器融合,在 5 个基准上达到 SOTA。
研究背景与动机¶
领域现状:基于预训练模型(PTM)的类增量学习(CIL)冻结骨干网络,为每个任务学习轻量适配器。Prompt-based 方法靠相似性检索提示,Adapter-based 方法为各任务分配独立适配器。
现有痛点:Prompt-based 方法的局部相似性检索在任务子空间重叠时产生噪声匹配;Adapter-based 方法将适配器视为独立子空间,忽略了跨任务相关性,推理时的启发式路由/融合无法处理纠缠的子空间。
核心矛盾:路由和融合缺乏显式的学习型任务交互机制——如何量化当前样本与各历史任务的相关性,并将其用于训练时的知识转移和推理时的适配器选择?
本文目标:设计统一的可学习机制,动态量化样本-任务相关性,同时服务于训练时知识蒸馏和推理时自适应路由。
核心 idea:将样本特征和任务嵌入映射到量子 Hilbert 空间,利用量子叠加和干涉天然编码复杂的多路任务依赖关系。
方法详解¶
整体框架¶
冻结 ViT 骨干 + 每任务轻量适配器 → 从各适配器构建任务嵌入(SVD 降维) → 量子门控模块计算样本-任务相关性分数 → 训练时:用相关性加权的特征蒸馏从旧适配器到新适配器 → 推理时:同样的相关性分数用于自适应适配器融合。
关键设计¶
-
量子门控任务调制(QGTM):
- 功能:计算样本与各历史任务的几何互信息
- 核心思路:用截断 SVD 从各适配器提取任务嵌入,与样本特征归一化后通过参数化量子电路编码(\(R_y\) 旋转 + 可学习旋转 + CNOT 纠缠链),测量量子态后通过投影量子核(PQK)计算相关性分数,softmax 归一化
- 设计动机:量子 Hilbert 空间的指数级维度和干涉效应能紧凑地编码重叠任务子空间间的复杂多路依赖,而经典的余弦相似度或 MLP 无法捕获这种几何结构
-
任务交互知识蒸馏(TIKD):
- 功能:用量子相关性引导跨任务特征转移
- 核心思路:计算当前样本通过各旧适配器的特征输出,以量子门控的相关性分数为权重对这些特征做加权聚合,与新适配器特征做 MSE 蒸馏损失
- 设计动机:高相关性的旧任务贡献更多知识,低相关性的被抑制,避免不相关任务的干扰
-
训练-推理一致的路由:
- 功能:推理时复用训练时学到的相关性分数做适配器融合
- 核心思路:推理时用同一个量子门控模块计算样本与所有任务的相关性,加权融合各适配器的分类 logits
- 设计动机:训练和推理使用相同的路由机制消除了不一致性
损失函数 / 训练策略¶
分类交叉熵损失 + 相关性加权特征蒸馏损失。量子电路参数与适配器参数联合训练。
实验关键数据¶
主实验¶
| 数据集 | QKD 最终准确率 | 之前SOTA | 提升 |
|---|---|---|---|
| CIFAR-100 | SOTA | EASE | +提升 |
| CUB-200 | SOTA | MOE-Adapters | +提升 |
| ImageNet-R | SOTA | - | - |
消融实验¶
| 配置 | 准确率 | 说明 |
|---|---|---|
| 量子门控 | 最优 | 完整模型 |
| 替换为余弦相似度 | 下降 | 表达力不足 |
| 替换为 MLP | 下降 | 复杂依赖捕获差 |
| w/o TIKD | 下降 | 跨任务知识转移缺失 |
关键发现¶
- 量子门控始终优于余弦相似度和 MLP 替代,证明量子 Hilbert 空间的几何表达力确实更强
- TIKD 在任务数增多时效果更明显,说明随着子空间重叠加剧,选择性知识转移越来越重要
- 训练-推理一致的路由是关键,不一致会导致性能下降
亮点与洞察¶
- 量子计算的实用化尝试:不是为了"用量子而量子",而是因为量子 Hilbert 空间的几何特性确实适合建模多路任务依赖
- 训练-推理一致性:同一套相关性分数同时用于蒸馏和路由,设计优雅
局限与展望¶
- 量子电路目前在经典计算机上模拟,实际量子硬件上的效率尚不清楚
- 任务嵌入的 SVD 计算随任务增多而增长
- 未来可探索更深的量子电路或与真正量子硬件结合
相关工作与启发¶
- vs EASE: EASE 用类原型相似度做跨任务对齐,表达力有限
- vs MOE-Adapters: MoE 用多数投票融合,缺乏样本级自适应性
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将量子计算引入 CIL,理论动机充分
- 实验充分度: ⭐⭐⭐⭐ 5 个数据集,消融证明量子门控优于经典替代
- 写作质量: ⭐⭐⭐⭐ 量子背景介绍清楚
- 价值: ⭐⭐⭐⭐ 为 CIL 提供了新工具
相关论文¶
- [NeurIPS 2025] Knowledge is Overrated: A Zero-Knowledge ML and Cryptographic Hashing-Based Framework for Verifiable, Low Latency Inference at the LHC
- [NeurIPS 2025] Simulation-Based Inference for Neutrino Interaction Model Parameter Tuning
- [ICML 2025] Rethink the Role of Deep Learning towards Large-scale Quantum Systems
- [ICLR 2026] Sublinear Time Quantum Algorithm for Attention Approximation
- [NeurIPS 2025] Transfer Learning Beyond the Standard Model