Disentangling Latent Shifts of In-Context Learning with Weak Supervision¶

会议: NeurIPS 2025
arXiv: 2410.01508
代码: github.com/josipjukic/wilda
领域: 模型压缩 / LLM 效率
关键词: In-Context Learning, 弱监督, 适配器算术, 潜在偏移解耦, LoRA

一句话总结¶

WILDA 将 ICL 视为弱监督信号，用 teacher-student 框架将示例引发的潜在偏移编码进轻量 LoRA 适配器，实现无需重复 prompting 的高效推理，且 student 通过伪标签修正和覆盖扩展超越 teacher（弱到强泛化）。

研究背景与动机¶

领域现状：In-Context Learning (ICL) 让 LLM 通过 prompt 中的少量标注示例实现 few-shot 学习，无需参数更新，是低资源场景下的核心适配机制。
现有痛点：(a) ICL 对示例的选择和排列高度敏感，导致预测不稳定；(b) 多示例需要长上下文，推理效率低且受上下文窗口限制；(c) 示例数量超过阈值后性能反而下降——ICL 的可扩展性差。
核心矛盾：现有解耦方法（ICV、Batch-ICL）直接操纵注意力头或隐藏状态来分离示例的影响，但依赖线性注意力近似，忽略了 FFN 层、激活函数、残差连接等关键架构组件。
本文要解决什么？ 如何在不修改模型内部状态的前提下，将 ICL 示例的效果"参数化"为可复用的紧凑表示？
切入角度：从功能性视角看 ICL——关注模型最终输出而非中间状态。ICL 输出本身就是示例效果的完整体现，可作为弱监督信号。
核心 idea 一句话：用 ICL 预测作为伪标签训练轻量适配器，将示例的潜在偏移编码为可复用参数。

方法详解¶

整体框架¶

WILDA 采用 teacher-student 设置：teacher 是标准 ICL 模型（处理示例+查询），student 共享同一架构但加装 LoRA 适配器（仅处理查询）。student 通过最小化与 teacher 输出的交叉熵损失来学习。

关键设计¶

ICL 作为弱监督信号:
做什么：用 ICL 的全概率分布（而非硬标签）作为 teacher 信号
核心思路：损失函数为 \(\sum_{x_q \in \mathcal{D}_{\text{unlab}}} \ell_{\text{CE}}(\mathbf{f}_{\text{teacher}}([\mathbf{X}_d^*; x_q]), \mathbf{f}_{\text{student}}(x_q))\)，其中 \(\mathcal{D}_{\text{unlab}}\) 是无标签数据集（仅 100 个样本即可）
设计动机：不直接操纵注意力头/隐藏状态，而是从模型输出端捕获示例的完整影响（包含注意力、FFN、残差等所有组件的综合效果）
适配器参数化的潜在偏移:
做什么：将示例引发的效果编码为 LoRA 权重 \(\mathbf{W}_{\text{ICL}}\)
核心思路：模型参数分解为 \(\mathbf{W}_{\text{ZS}} \oplus \mathbf{W}_{\text{ICL}}\)，其中 \(\mathbf{W}_{\text{ZS}}\) 是零样本基础参数，\(\mathbf{W}_{\text{ICL}}\) 是适配器捕获的 ICL 偏移。最终隐藏状态满足 \(\mathbf{h}_{\text{LLM}}(x_q | \mathbf{W}_{\text{ZS}} \oplus \mathbf{W}_{\text{ICL}}) = \mathbf{h}_{\text{LLM}}(x_q | \mathbf{W}_{\text{ZS}}) + \Delta \mathbf{h}_{\text{ICL}}\)
设计动机：适配器仅占 0.1-0.3% 参数，推理时无需示例即可使用，且可与新示例组合
适配器算术（Adapter Arithmetic）:
做什么：对多个示例子集训练独立适配器，通过参数求和合并
核心思路：将大量示例分割为 2/4/8 个子集各 16 个示例，分别训练适配器后直接相加：\(\mathbf{W}_{\text{ICL}}^{\text{merged}} = \sum_k \mathbf{W}_{\text{ICL}}^{(k)}\)
设计动机：突破上下文窗口限制，让模型有效利用远超窗口长度的示例集
三种训练变体:
wilda-f（fixed）：示例集固定不变
wilda-s（shuffle）：每 epoch 打乱示例顺序 → 缓解顺序敏感性
wilda-r（resample）：每 epoch 从更大池中重采样示例

损失函数 / 训练策略¶

交叉熵损失对齐 teacher 全概率分布。训练 10 epochs，使用 LoRA 适配器（仅更新适配器参数）。同一 LLM 实例在训练中交替作为 teacher（关闭适配器）和 student（开启适配器）。

实验关键数据¶

主实验（16-shot，100 无标签样本，Llama 3 8B）¶

数据集	0-shot	n-shot ICL	Batch-ICL	wilda-s	提升 (vs ICL)
RTE	62.3	75.1	77.8	86.0	+10.9
SST	79.1	93.5	94.1	96.1	+2.6
QNLI	64.3	77.0	78.0	81.4	+4.4
MNLI	59.9	68.0	70.9	73.1	+5.1
CoLA	44.6	58.5	59.8	64.3	+5.8
MRPC	63.6	74.0	75.2	77.7	+3.7
QQP	61.1	70.0	72.5	73.1	+3.1
Math (MMLU)	31.5	43.5	36.2	49.5	+6.0
Misc (MMLU)	62.5	84.0	81.0	88.0	+4.0

wilda-s 标准差显著低于 ICL（如 RTE: 0.6 vs 6.5），stability 大幅提升。

适配器算术消融（Llama 3 8B，知识融合）¶

示例组合	方法	RTE	SST	MMLU-Math	MMLU-Misc
2×16	Batch-ICL	80.2	95.3	43.5	83.0
2×16	wilda-s	87.1	96.4	51.5	89.5
4×16	Batch-ICL	84.4	96.4	45.5	84.5
4×16	wilda-s	88.4	97.5	53.5	91.0
8×16	wilda-s	92.8	—	—	—

随着子集数量增加，wilda-s 性能持续提升，展现出优秀的可扩展性。

关键发现¶

弱到强泛化：Student 超越 teacher（ICL）是一致现象，通过伪标签修正（修正 teacher 错误）和覆盖扩展（泛化到 teacher 未见样本）两个机制实现
wilda-s（shuffle）综合表现最佳——打乱顺序有效缓解 ICL 的位置偏差（primacy/recency effects）
仅需 100 个无标签样本即可有效训练适配器，数据效率极高
OOD 泛化强：在跨数据集迁移（如 QNLI→RTE）中也显著优于 ICL

亮点与洞察¶

ICL 作为弱监督的视角转换：不直接操纵注意力机制，而是从输出端捕获 ICL 全部效果。这种"黑盒"视角更完整，也更适用于复杂架构
适配器算术实现超长上下文 ICL：通过拆分-训练-合并，突破上下文窗口限制。8×16=128 个示例的效果远超直接使用 128-shot ICL
极度参数高效：LoRA 仅占 0.1-0.3% 参数，100 个无标签样本，10 个 epoch 训练——成本极低但效果显著

局限性 / 可改进方向¶

适配器训练仍需一些计算开销（虽然很轻量），纯推理场景下不如直接 ICL 灵活
伪标签质量依赖 teacher ICL 的基础能力——在 ICL 本身很差的任务上可能失效
仅在分类任务上验证，生成任务（如摘要、翻译）的效果未知
适配器算术的简单参数求和可能不是最优合并策略，可以探索加权合并或学习合并系数
未讨论适配器在不同模型间的迁移性

评分¶

新颖性: ⭐⭐⭐⭐ ICL-as-weak-supervision 的视角新颖，适配器算术实用
实验充分度: ⭐⭐⭐⭐⭐ 7 个 GLUE 任务 + 2 个 MMLU + 3 个模型，含 OOD/稳定性/融合多角度评估
写作质量: ⭐⭐⭐⭐ 理论动机清晰，实验全面，但部分内容重复
价值: ⭐⭐⭐⭐ 提供了高效稳定的 ICL 替代方案，适配器算术思路可广泛应用