FlyPrompt: Brain-Inspired Random-Expanded Routing with Temporal-Ensemble Experts for General Continual Learning¶

会议: ICLR 2026
arXiv: 2602.01976
代码: GitHub
领域: 模型压缩 / LLM效率
关键词: 持续学习, 参数高效微调, 果蝇神经系统, 随机扩展路由, 时序集成

一句话总结¶

受果蝇蘑菇体神经系统启发，提出 FlyPrompt 框架将通用持续学习（GCL）分解为专家路由和专家能力提升两个子问题，通过随机扩展解析路由器（REAR）和时序集成专家（TE2）分别解决，在 CIFAR-100/ImageNet-R/CUB-200 上分别提升 11.23%/12.43%/7.62%。

研究背景与动机¶

通用持续学习（GCL） 要求智能系统从非平稳的单次遍历数据流中持续学习，任务之间没有清晰的边界。与传统持续学习不同，GCL 面临更严峻的挑战：（1）需要快速适应；（2）鲁棒的知识保留；（3）有限监督和任务模糊下的高效资源使用。

近年来，基于预训练模型（PTM）的参数高效微调（PET）方法在持续学习中表现出色，如 L2P、DualPrompt、CODA-P 等引入可训练的 prompt 专家来适配 PTM。然而这些方法面临两个根本性挑战：

专家路由问题：如何在没有任务标签或迭代训练的条件下，将输入动态路由到合适的专家？现有方法的路由器在 GCL 的模糊任务边界下表现不佳。实验证实即使训练完成后，DualPrompt、MVP 等方法的路由准确率仍然较低。
专家能力问题：如何在稀疏且不平衡的监督下确保每个专家的表征能力？即使使用 oracle 路由器（完美选择正确专家），现有方法的最终精度仍然不佳，说明专家自身的表征质量也存在问题。

生物学启发：果蝇尽管只有不到 10 万个神经元，却展现出鲁棒的记忆巩固和上下文感知行为。其蘑菇体结构通过稀疏随机投影编码感官输入，投射神经元（PN）随机连接到 Kenyon 细胞（KC）实现约 40 倍维度扩展，不同 KC 子区域在不同时间尺度上表现出可塑性（gamma 短期 / alpha'/beta' 中期 / alpha/beta 长期记忆）。

方法详解¶

整体框架¶

FlyPrompt 将 GCL 分解为两个子问题并分别解决：

REAR（Random Expanded Analytic Router）：模拟果蝇的稀疏扩展回路，实现快速、无梯度的实例级专家选择
TE2（Task-wise Experts with Temporal Ensemble）：利用指数移动平均（EMA）在多个时间尺度上捕获知识，模拟蘑菇体的分区巩固机制

关键设计¶

1. 随机扩展解析路由器（REAR）

REAR 的核心思想是利用固定随机投影和闭式解析更新来实现专家分配，无需梯度更新。

给定预训练骨干编码器特征 h = f(x)，首先进行随机扩展：phi(x) = sigma(h R)，其中 R 是固定高斯随机矩阵（维度 d x M, M > d），sigma 为 ReLU。这模拟了果蝇中投射神经元到 Kenyon 细胞的约 40 倍稀疏扩展。

在线训练时，为每个任务 t 关联专家 E_t。对每个 batch 累积两个统计量：

Gram 矩阵：G += Phi_i^T Phi_i（二阶特征相关性）
原型矩阵：Q += Phi_i^T C_t（专家级特征和）

路由器矩阵通过岭回归闭式解得到：U_hat^T = (G + lambda I)^(-1) Q

路由器矩阵仅在评估时计算一次。推理时通过 argmax phi(x) U_hat^T 选择专家。

REAR 理论保证（Theorem 1）：群体超额风险可分解为近似误差（增大 M 可降低）、估计方差（增大 N 或 lambda 可降低）和正则化偏置三项。通过足够大的随机扩展维度和适当正则化，误路由概率可任意小。

与 RanPAC 等方法的关键区别：REAR 仅用随机投影做专家路由，每个专家的 prompt 和 head 仍然是可训练的；而 RanPAC 直接用岭回归做最终分类。

2. 时序集成专家（TE2）

受果蝇 KC 子类型的启发，每个专家 E_t 维护一组 n 个 EMA head，衰减率分别为 {alpha_j}。

训练时只更新在线 head 和 prompt。损失函数使用交叉熵，并加入非参数 logit 掩码 m：对当前 batch 中未出现的类别设为负无穷，抑制未见标签的预测。每次更新后，EMA head 同步更新：

W_t^(j) <- alpha_j * W_t^(j) + (1 - alpha_j) * W

推理时，ensemble 所有 n+1 个 head（在线 + EMA），对每个 head 计算 softmax 后取逐元素最大值： z_hat(x) = max_j softmax(z^(j) + m)

新任务初始化：新专家的 prompt 初始化为此前所有已学 prompt 的平均值，在 GCL 有限数据下加速收敛。

TE2 理论保证（Theorem 2）：EMA head 的参数误差满足方差-偏置分解。几何 EMA bank 在任何时刻都包含一个接近最优偏差-方差权衡的 head。实践中两个 EMA head（alpha=0.9 和 0.99，对应窗口 10 和 100）即可。

损失函数 / 训练策略¶

使用标准交叉熵损失训练在线 head 和 prompt
非参数 logit 掩码抑制当前 batch 未见类别的预测，缓解跨任务和任务内的类别不平衡
REAR 路由器在评估时通过累积统计量的闭式解一次性计算
无需 replay buffer 或额外的蒸馏损失
prompt 使用历史 prompt 均值做暖启动

实验关键数据¶

主实验¶

表1：GCL 基准性能（Sup-21K 预训练）

方法	CIFAR-100 A_auc	CIFAR-100 A_last	ImageNet-R A_auc	ImageNet-R A_last	CUB-200 A_auc	CUB-200 A_last
L2P	76.23	79.11	44.40	42.03	64.30	61.42
DualPrompt	76.04	76.62	46.13	40.80	65.03	62.43
CODA-P	79.13	80.91	51.87	48.09	66.01	62.90
MVP	67.74	63.22	39.50	32.63	54.69	50.07
MISA	80.35	80.75	51.52	45.08	65.40	60.20
FlyPrompt	83.24	86.76	56.58	55.27	70.64	73.40

FlyPrompt 全面领先，A_last 提升尤为显著（CIFAR-100: +5.85%, ImageNet-R: +7.18%, CUB-200: +10.50%）。

表2：跨预训练模型泛化性（iBOT-21K）

方法	CIFAR-100 A_auc	ImageNet-R A_auc	CUB-200 A_auc
CODA-P	62.13	45.50	17.72
MISA	65.30	40.94	18.62
FlyPrompt	75.58	57.75	28.86

即使在自监督预训练模型上，FlyPrompt 仍大幅领先。

消融实验¶

消融实验验证了两个核心组件的贡献：

移除 REAR（使用其他路由策略）：路由准确率显著下降
移除 TE2（使用单一 head）：A_last 明显下降
移除 logit 掩码：性能在类别不平衡场景下下降
EMA head 数量：2 个 EMA head（alpha=0.9, 0.99）即达到最佳

关键发现¶

路由准确率是瓶颈：现有方法在 GCL 设置下路由准确率远低于理想水平；REAR 通过固定随机投影+闭式解大幅提升路由精度
专家能力同样重要：即使使用 oracle 路由器，现有方法仍不理想；TE2 通过多时间尺度 EMA heads 有效提升单个专家的鲁棒性
跨 PTM 泛化：FlyPrompt 在多种预训练模型（Sup-21K、iBOT-21K、DINO-1K、MoCo v3-1K 等）上均有效
前向传播即可路由：REAR 无需梯度更新，适合 GCL 的在线单次遍历约束
CKA 分析证实不同专家确实特化在不同特征子空间中

亮点与洞察¶

将 GCL 问题清晰分解为专家路由和专家能力两个正交子问题，分析框架比直接端到端设计更有结构
果蝇蘑菇体的生物学类比贴切：稀疏随机扩展对应 REAR，多时间尺度可塑性对应 TE2
REAR 的闭式解在评估时才需计算，训练时仅累积统计量，计算开销可忽略
提供了 REAR 和 TE2 的理论保证，不仅仅是经验改进
在极端设置下（如 DINO-1K 预训练的 CUB-200）仍能有效工作

局限性 / 可改进方向¶

主要在视觉分类任务上验证，需要扩展到 NLP 和多模态场景
专家数量与任务数量绑定，大量任务时可能导致参数量线性增长
Si-Blurry 基准虽是 GCL 标准设置，但与某些实际应用场景可能有差距
随机投影矩阵维度 M 需预先设定，对不同规模问题可能需要调整
当前框架假设任务以 session 形式到达，纯流式场景表现需进一步验证

评分¶

新颖性: ⭐⭐⭐⭐⭐（生物启发 + 问题分解 + 理论支撑）
技术深度: ⭐⭐⭐⭐⭐（完整理论分析 + 闭式解路由 + 多时间尺度集成）
实验充分度: ⭐⭐⭐⭐⭐（3 数据集 x 6+ PTMs, 详细消融）
实用性: ⭐⭐⭐⭐（无需梯度更新的路由器对部署友好）
写作质量: ⭐⭐⭐⭐⭐（问题分析深入，生物类比恰当）