跳转至

Disentangling Latent Shifts of In-Context Learning with Weak Supervision

会议: NeurIPS 2025
arXiv: 2410.01508
代码: github.com/josipjukic/wilda
领域: 模型压缩 / LLM 效率
关键词: In-Context Learning, 弱监督, 适配器算术, 潜在偏移解耦, LoRA

一句话总结

WILDA 将 ICL 视为弱监督信号,用 teacher-student 框架将示例引发的潜在偏移编码进轻量 LoRA 适配器,实现无需重复 prompting 的高效推理,且 student 通过伪标签修正和覆盖扩展超越 teacher(弱到强泛化)。

研究背景与动机

  1. 领域现状:In-Context Learning (ICL) 让 LLM 通过 prompt 中的少量标注示例实现 few-shot 学习,无需参数更新,是低资源场景下的核心适配机制。
  2. 现有痛点:(a) ICL 对示例的选择和排列高度敏感,导致预测不稳定;(b) 多示例需要长上下文,推理效率低且受上下文窗口限制;(c) 示例数量超过阈值后性能反而下降——ICL 的可扩展性差。
  3. 核心矛盾:现有解耦方法(ICV、Batch-ICL)直接操纵注意力头或隐藏状态来分离示例的影响,但依赖线性注意力近似,忽略了 FFN 层、激活函数、残差连接等关键架构组件。
  4. 本文要解决什么? 如何在不修改模型内部状态的前提下,将 ICL 示例的效果"参数化"为可复用的紧凑表示?
  5. 切入角度:从功能性视角看 ICL——关注模型最终输出而非中间状态。ICL 输出本身就是示例效果的完整体现,可作为弱监督信号。
  6. 核心 idea 一句话:用 ICL 预测作为伪标签训练轻量适配器,将示例的潜在偏移编码为可复用参数。

方法详解

整体框架

WILDA 采用 teacher-student 设置:teacher 是标准 ICL 模型(处理示例+查询),student 共享同一架构但加装 LoRA 适配器(仅处理查询)。student 通过最小化与 teacher 输出的交叉熵损失来学习。

关键设计

  1. ICL 作为弱监督信号:
  2. 做什么:用 ICL 的全概率分布(而非硬标签)作为 teacher 信号
  3. 核心思路:损失函数为 \(\sum_{x_q \in \mathcal{D}_{\text{unlab}}} \ell_{\text{CE}}(\mathbf{f}_{\text{teacher}}([\mathbf{X}_d^*; x_q]), \mathbf{f}_{\text{student}}(x_q))\),其中 \(\mathcal{D}_{\text{unlab}}\) 是无标签数据集(仅 100 个样本即可)
  4. 设计动机:不直接操纵注意力头/隐藏状态,而是从模型输出端捕获示例的完整影响(包含注意力、FFN、残差等所有组件的综合效果)

  5. 适配器参数化的潜在偏移:

  6. 做什么:将示例引发的效果编码为 LoRA 权重 \(\mathbf{W}_{\text{ICL}}\)
  7. 核心思路:模型参数分解为 \(\mathbf{W}_{\text{ZS}} \oplus \mathbf{W}_{\text{ICL}}\),其中 \(\mathbf{W}_{\text{ZS}}\) 是零样本基础参数,\(\mathbf{W}_{\text{ICL}}\) 是适配器捕获的 ICL 偏移。最终隐藏状态满足 \(\mathbf{h}_{\text{LLM}}(x_q | \mathbf{W}_{\text{ZS}} \oplus \mathbf{W}_{\text{ICL}}) = \mathbf{h}_{\text{LLM}}(x_q | \mathbf{W}_{\text{ZS}}) + \Delta \mathbf{h}_{\text{ICL}}\)
  8. 设计动机:适配器仅占 0.1-0.3% 参数,推理时无需示例即可使用,且可与新示例组合

  9. 适配器算术(Adapter Arithmetic):

  10. 做什么:对多个示例子集训练独立适配器,通过参数求和合并
  11. 核心思路:将大量示例分割为 2/4/8 个子集各 16 个示例,分别训练适配器后直接相加:\(\mathbf{W}_{\text{ICL}}^{\text{merged}} = \sum_k \mathbf{W}_{\text{ICL}}^{(k)}\)
  12. 设计动机:突破上下文窗口限制,让模型有效利用远超窗口长度的示例集

  13. 三种训练变体:

  14. wilda-f(fixed):示例集固定不变
  15. wilda-s(shuffle):每 epoch 打乱示例顺序 → 缓解顺序敏感性
  16. wilda-r(resample):每 epoch 从更大池中重采样示例

损失函数 / 训练策略

交叉熵损失对齐 teacher 全概率分布。训练 10 epochs,使用 LoRA 适配器(仅更新适配器参数)。同一 LLM 实例在训练中交替作为 teacher(关闭适配器)和 student(开启适配器)。

实验关键数据

主实验(16-shot,100 无标签样本,Llama 3 8B)

数据集 0-shot n-shot ICL Batch-ICL wilda-s 提升 (vs ICL)
RTE 62.3 75.1 77.8 86.0 +10.9
SST 79.1 93.5 94.1 96.1 +2.6
QNLI 64.3 77.0 78.0 81.4 +4.4
MNLI 59.9 68.0 70.9 73.1 +5.1
CoLA 44.6 58.5 59.8 64.3 +5.8
MRPC 63.6 74.0 75.2 77.7 +3.7
QQP 61.1 70.0 72.5 73.1 +3.1
Math (MMLU) 31.5 43.5 36.2 49.5 +6.0
Misc (MMLU) 62.5 84.0 81.0 88.0 +4.0

wilda-s 标准差显著低于 ICL(如 RTE: 0.6 vs 6.5),stability 大幅提升。

适配器算术消融(Llama 3 8B,知识融合)

示例组合 方法 RTE SST MMLU-Math MMLU-Misc
2×16 Batch-ICL 80.2 95.3 43.5 83.0
2×16 wilda-s 87.1 96.4 51.5 89.5
4×16 Batch-ICL 84.4 96.4 45.5 84.5
4×16 wilda-s 88.4 97.5 53.5 91.0
8×16 wilda-s 92.8

随着子集数量增加,wilda-s 性能持续提升,展现出优秀的可扩展性。

关键发现

  • 弱到强泛化:Student 超越 teacher(ICL)是一致现象,通过伪标签修正(修正 teacher 错误)和覆盖扩展(泛化到 teacher 未见样本)两个机制实现
  • wilda-s(shuffle)综合表现最佳——打乱顺序有效缓解 ICL 的位置偏差(primacy/recency effects)
  • 仅需 100 个无标签样本即可有效训练适配器,数据效率极高
  • OOD 泛化强:在跨数据集迁移(如 QNLI→RTE)中也显著优于 ICL

亮点与洞察

  • ICL 作为弱监督的视角转换:不直接操纵注意力机制,而是从输出端捕获 ICL 全部效果。这种"黑盒"视角更完整,也更适用于复杂架构
  • 适配器算术实现超长上下文 ICL:通过拆分-训练-合并,突破上下文窗口限制。8×16=128 个示例的效果远超直接使用 128-shot ICL
  • 极度参数高效:LoRA 仅占 0.1-0.3% 参数,100 个无标签样本,10 个 epoch 训练——成本极低但效果显著

局限性 / 可改进方向

  • 适配器训练仍需一些计算开销(虽然很轻量),纯推理场景下不如直接 ICL 灵活
  • 伪标签质量依赖 teacher ICL 的基础能力——在 ICL 本身很差的任务上可能失效
  • 仅在分类任务上验证,生成任务(如摘要、翻译)的效果未知
  • 适配器算术的简单参数求和可能不是最优合并策略,可以探索加权合并或学习合并系数
  • 未讨论适配器在不同模型间的迁移性

相关工作与启发

  • vs ICV (In-Context Vectors): ICV 从隐藏状态提取示例表征,依赖线性注意力近似;WILDA 从模型输出端学习,不假设特定注意力机制
  • vs Batch-ICL: Batch-ICL 聚合多次 one-shot 的 meta-gradients,仍在操纵内部状态;WILDA 用参数化适配器更灵活
  • vs PBFT (Pattern-Based Fine-Tuning): PBFT 在有标签数据上微调,WILDA 仅用无标签数据 + ICL 伪标签,更符合 few-shot 场景

评分

  • 新颖性: ⭐⭐⭐⭐ ICL-as-weak-supervision 的视角新颖,适配器算术实用
  • 实验充分度: ⭐⭐⭐⭐⭐ 7 个 GLUE 任务 + 2 个 MMLU + 3 个模型,含 OOD/稳定性/融合多角度评估
  • 写作质量: ⭐⭐⭐⭐ 理论动机清晰,实验全面,但部分内容重复
  • 价值: ⭐⭐⭐⭐ 提供了高效稳定的 ICL 替代方案,适配器算术思路可广泛应用