Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context¶

会议: ICLR 2026
arXiv: 2603.10573

代码: 无
领域: LLM NLP / 可解释性

关键词: in-context learning, likelihood-ratio test, mechanistic interpretability, sufficient statistic, Neyman-Pearson

一句话总结¶

从统计决策论视角出发，证明Transformer在上下文学习中能近似Bayes最优的似然比检验充分统计量，并通过机制分析揭示模型对线性/非线性任务采用不同深度的自适应电路。

领域现状：1. 领域现状：ICL 使Transformer无需权重更新即可适应新任务，但底层算法机制仍有争议——是简单的检索/平均，还是构建了原则性的学习算法？

已有进展：合成环境下 Transformer 可恢复线性回归、决策树等经典算法，但多聚焦回归问题的渐近收敛，未精确刻画每个 episode 的决策规则。
核心矛盾："ICL 即梯度下降"假说解释了如何随示例改善，但未保证统计最优性。核心问题是：ICL 到底是相似度匹配（核平滑），还是在线构建任务自适应的统计估计器？
本文切入：采用统计决策论视角，选择二元假设检验这一最优决策规则完全被 Neyman-Pearson 引理刻画的框架。在此框架下，恢复对数似然比 (LLR) 至单调变换等价于最优预测——这提供了可解释性研究中罕见的已知 ground truth。
创新设计：构造两种需要不同几何结构的判别任务（线性 vs 非线性），测试模型是否根据上下文推断并应用正确的充分统计量，而非依赖固定启发式。
核心idea：ICL 通过构建任务自适应的统计估计器实现最优推断，而非简单的相似度匹配；模型根据任务几何自适应调整电路深度。

训练 2 层 4 头 Transformer 做动态统计判别。

每个 episode 采样任务参数 \(\phi\)，生成上下文数据集 \(C=\{(x_i,y_i)\}_{i=1}^N\)（\(y_i \sim \text{Bernoulli}(1/2)\)，\(x_i \sim p_\phi(x|H_{y_i})\)）和查询 \((x_q, y_q)\)。

模型仅从 \((x_q, C)\) 预测 \(y_q\)，最小化 BCE 损失。

Task A: 平移均值判别（线性域）：
- 采样方向 \(\mu \sim \text{Unif}(\mathbb{S}^{d-1})\) 和偏移 \(k \sim \mathcal{N}(0,\sigma_k^2 I)\)
- \(H_0: x \sim \mathcal{N}(-\mu+k, I)\)，\(H_1: x \sim \mathcal{N}(\mu+k, I)\)
- 最优充分统计量 \(S(x) = \mu^\top(x-k)\)：模型必须从上下文推断 \(\mu\) 和 \(k\)
- 设计动机：测试模型是否能动态估计局部重心并执行线性判别
Task B: 方差判别（非线性域）：
- 采样 \(\sigma_0, \sigma_1 \sim \text{Unif}[0.5, 3.0]\)，均值固定为零
- \(H_0: x \sim \mathcal{N}(0, \sigma_0^2 I)\)，\(H_1: x \sim \mathcal{N}(0, \sigma_1^2 I)\)
- 类均值相同→点积相似度无信息，最优统计量依赖二次能量 \(\|x\|^2\)
- 设计动机：测试模型是否能将内部几何从线性投影切换到基于范数的估计
LLR 恢复验证：将输出 logit 与解析 LLR 做回归，检验 Pearson \(r\)（线性相关）和 Spearman \(\rho\)（秩相关）
机制分析工具：Logit Lens 投影中间层表示到输出空间；OV 电路对齐分析各注意力头的 \(W_{OV}\) 矩阵与最终决策方向的 \(\cos\theta\)

实验	关键发现
Task B (非线性)	准确率83.0%，逼近oracle的84.0%；Spearman \(\rho\)=0.98，几乎完美恢复LLR排序
Task A (线性)	准确率78.3%，低于oracle 6.3%；Pearson \(r\)=0.86，属于局部近似而非精确恢复
OOD测试 (\(\sigma_k\)=9.0)	LLR相关性降至\(r\)=0.567，证实模型学到的是训练支撑上的局部近似
去位置编码 (NoPos)	准确率不变(78.2%)，确认模型将上下文视为集合而非序列
冻结QK权重	性能崩溃至随机(49.6%)，证明需要学习任务相关的相似度度量
Logit Lens	Task A在Layer 1即出现与LLR的相关性；Task B直到最终层才出现
OV电路	Task A: Layer 0头与决策方向高对齐(>0.7)→投票集成；Task B: Layer 0沉默→深层顺序计算