Unlabeled Data Can Provably Enhance In-Context Learning of Transformers¶

会议: NeurIPS 2025
arXiv: 2601.10058
代码: 无
领域: LLM推理 / 理论
关键词: in-context learning, unlabeled data, semi-supervised learning, EM algorithm, chain-of-thought, transformer theory

一句话总结¶

提出增强型ICL框架，在prompt中同时包含少量标记样本和大量无标记样本，理论证明多层Transformer通过CoT可模拟EM算法从无标记数据中提取信息，将分类excess risk从 \(\mathcal{O}(1/\sqrt{N})\) 改进到 \(\mathcal{O}(1/\sqrt{N + \text{poly}(M)})\)。

研究背景与动机¶

领域现状：ICL让Transformer无需参数更新就能从prompt中的示例学习新任务，但严重依赖标记示例的数量和质量。高质量标记数据获取成本高昂（如GPT-3.5/4的RLHF数据涉及数千小时专家标注）。
现有痛点：(a) prompt长度限制了标记示例数量；(b) 现有方法用LLM自身生成伪标签（pseudo-labels），但会继承模型偏差；(c) 海量无标记数据未被ICL利用。
核心矛盾：存在大量无标记数据但ICL不知道怎么用——传统ICL只处理 \((x,y)\) 对，无标记的 \(x\) 被忽略。
本文要解决什么？ 从理论上证明无标记数据可以提升ICL性能，并给出具体的Transformer构造和训练收敛保证。
切入角度：将增强ICL（labeled + unlabeled in prompt）与经典半监督学习中的EM算法联系——Transformer通过CoT的多步推理可以迭代精化类均值估计。
核心idea一句话：4层Transformer + CoT推理 = 隐式EM算法，在prompt中同时从标记和无标记数据学习。

方法详解¶

整体框架¶

输入为混合prompt \(\mathcal{I} = \mathcal{D}_{label} \cup \mathcal{D}_{unlabel}\)，其中 \(\mathcal{D}_{label} = \{(\mathbf{x}_j, y_j)\}_{j=1}^N\)，\(\mathcal{D}_{unlabel} = \{\mathbf{x}_j\}_{j=N+1}^{N+M}\)。编码为矩阵 \(\mathbf{H}\)，包含标记块、无标记块和推理块。Transformer通过CoT在推理块中迭代精化类均值估计 \(\hat{\mu}_i^{(t)}\)，最终用最近邻分类无标记样本。

关键设计¶

增强ICL的CoT编码:
做什么：将labeled+unlabeled数据和推理中间状态编码到统一的token序列中
核心思路：推理块 \(\mathbf{Q}^{(t)}\) 存储第 \(t\) 步的类均值估计 \(\hat{\mu}_i^{(t)}\)。每步CoT将新产生的 \(C\) 个token append到序列末尾
设计动机：利用CoT的自回归特性实现EM的迭代——每步CoT = 一步EM迭代
4层Transformer构造（Theorem 4.1）:
做什么：显式构造一个4层Transformer实现EM更新
核心思路：更新公式为 \(\hat{\mu}_i^{(t+1)} = \hat{\mu}_i^{(t)} - \frac{\eta^{(t)}}{M} \sum_{j} p_{ij}^{(t)}(\hat{\mu}_i^{(t)} - \mathbf{x}_j) + \mathbf{1}_{\{t=0\}} \frac{C}{N} \sum_j (\mathbf{e}_i^\top \mathbf{y}_j) \mathbf{x}_j\)。第一层用softmax attention计算E-step（类成员概率 \(p_{ij}^{(t)}\)），后续层实现M-step（加权均值更新）。初始化用标记数据的类均值
设计动机：精确模拟高斯混合模型的EM算法——E-step计算后验概率，M-step更新参数
收敛性分析（Theorem 4.2）:
做什么：证明类均值估计在CoT步数增加时收敛到真值
核心思路：在信噪比 \(\text{SNR} \geq \Omega(\sqrt{C \log(CM)})\)、足够多标记数据 \(N\) 和无标记数据 \(M\) 的条件下，excess risk为 \(\mathcal{O}(1/\sqrt{N + \text{poly}(M)})\)，严格优于仅用标记数据的下界 \(\mathcal{O}(1/\sqrt{N})\)
设计动机：从理论上严格证明无标记数据的价值——不只是经验观察
训练收敛（Theorem 5.1）:
做什么：证明用teacher forcing训练的Transformer参数线性收敛到目标解
核心思路：将CoT训练损失的梯度分解为两个可分析项，利用involved quantities的各向同性简化分析
设计动机：证明理论构造不只是存在性结果，还能通过标准训练找到

损失函数 / 训练策略¶

Teacher forcing训练：在每个CoT步骤 \(t\)，监督信号是EM算法的"真实"下一步输出。梯度下降在population loss上以线性速率收敛。

实验关键数据¶

主实验¶

在多类线性分类设置上（\(d=20\), \(C=\)3,5类）：

方法	均值估计误差	分类准确率
传统ICL (仅N个标记)	基线	基线
增强ICL (N标记 + M无标记)	显著降低	显著提升
仅标记数据的Bayes最优	低于增强ICL	低于增强ICL

消融实验¶

配置	效果	说明
M增加 (更多无标记)	性能持续提升	验证 \(\mathcal{O}(1/\sqrt{N+\text{poly}(M)})\)
T增加 (更多CoT步)	性能提升后饱和	EM收敛特性
N固定, 仅增加M	性能从N-only水平提升	无标记数据独立贡献

关键发现¶

增强ICL显著超越传统ICL，且超越了仅用标记数据的Bayes最优分类器——证明了无标记数据的真实价值
性能增益随M增加而持续增长，与理论预测一致
CoT步数T=5-10步通常足够收敛

亮点与洞察¶

ICL与半监督学习的理论桥梁：首次从理论上建立了"Transformer的CoT推理 = EM算法"的等价关系，为理解ICL的推理机制提供了新视角
精确的excess risk改进量化：\(\mathcal{O}(1/\sqrt{N}) \to \mathcal{O}(1/\sqrt{N + \text{poly}(M)})\) 是clean的理论结果，清晰展示了无标记数据的边际贡献
存在性+可学习性的完整理论：不仅构造了理想Transformer（存在性），还证明了训练收敛（可学习性），理论链条完整

局限性 / 可改进方向¶

理论仅限于多类线性分类+高斯混合模型——是否能推广到非线性分类、回归任务？
假设各向同性协方差 \(\Sigma\)——非各向同性情况下理论分析困难
构造的4层Transformer是"理想化"的——实际预训练的LLM是否隐式学到了类似的EM策略？
实验仅在合成数据上验证——真实NLP/CV任务上的增强ICL效果未测试
无标记数据需要与任务相关——如果无标记数据分布与任务不匹配，效果可能退化

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次从理论上回答"无标记数据能否帮助ICL"，建立了ICL-EM的等价性
实验充分度: ⭐⭐⭐ 仅合成数据实验，缺乏真实任务验证——理论工作的标准做法但仍是局限
写作质量: ⭐⭐⭐⭐ 理论论文写作规范，符号系统清晰，但技术密度高
价值: ⭐⭐⭐⭐ 对理解ICL机制有重要贡献，但从线性分类到实际LLM的gap较大