Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context¶

会议: ICLR 2026 / arXiv: 2603.10573
代码: GitHub (已公开)
领域: llm_alignment / 可解释性
关键词: in-context learning, likelihood-ratio test, mechanistic interpretability, sufficient statistic, Neyman-Pearson

一句话总结¶

从统计决策论视角出发，证明Transformer在上下文学习中能近似Bayes最优的似然比检验充分统计量，并通过机制分析揭示模型对线性/非线性任务采用不同深度的自适应电路。

背景与动机¶

ICL使Transformer无需权重更新即可适应新任务，但其底层算法机制仍有争议
已有工作证明Transformer能恢复线性回归、决策树等经典算法，但多关注回归问题
二元假设检验提供了一个最优决策规则完全已知（Neyman-Pearson引理）的理想测试床
恢复对数似然比(LLR)至仿射变换等价于最优预测——这为可解释性提供精确ground truth
"ICL即梯度下降"假说解释了学习过程，但未保证统计最优性
核心问题：ICL是简单的相似度匹配，还是在构建任务自适应的统计估计器？

方法¶

任务设计: 两种高斯判别任务——Task A（shifted mean，线性边界，充分统计量 \(S(x)=\mu^\top(x-k)\)）和Task B（variance discrimination，非线性边界，充分统计量 \(\|x\|^2\)）
训练: 2层4头Transformer，逐episode采样任务参数+上下文数据集，最小化BCE损失
LLR恢复验证: 将模型输出logit与解析LLR做回归，检验Pearson \(r\) 和Spearman \(\rho\)
机制分析: Logit Lens投影中间层表示到输出空间；OV电路对齐分析各注意力头与决策方向的cos相似度

实验¶

实验	关键发现
Task B (非线性)	准确率83.0%，逼近oracle的84.0%；Spearman \(\rho\)=0.98，几乎完美恢复LLR排序
Task A (线性)	准确率78.3%，低于oracle 6.3%；Pearson \(r\)=0.86，属于局部近似而非精确恢复
OOD测试 (\(\sigma_k\)=9.0)	LLR相关性降至\(r\)=0.567，证实模型学到的是训练支撑上的局部近似
去位置编码 (NoPos)	准确率不变(78.2%)，确认模型将上下文视为集合而非序列
冻结QK权重	性能崩溃至随机(49.6%)，证明需要学习任务相关的相似度度量
Logit Lens	Task A在Layer 1即出现与LLR的相关性；Task B直到最终层才出现
OV电路	Task A: Layer 0头与决策方向高对齐(>0.7)→投票集成；Task B: Layer 0沉默→深层顺序计算

亮点¶

首次在已知最优解的框架下严格测试ICL的统计最优性，为可解释性研究提供理想测试床
揭示自适应电路深度机制：线性任务用浅层投票集成，非线性任务用深层顺序计算
排除了"ICL=核平滑"假说——与Nadaraya-Watson estimator的相关性很弱
实验设计极其干净，每个消融都有明确的理论对应

局限性¶

仅使用2层小型Transformer和低维高斯数据，机制是否在大模型/真实分布中保持未知
Logit Lens和OV分析提供相关性证据而非因果证明，需要因果干预进一步验证
仅考虑简单假设检验（balanced prior，symmetric loss），未扩展到复合假设或多分类

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐

Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context¶

一句话总结¶

背景与动机¶

方法¶

实验¶

亮点¶

局限性¶

相关工作¶

评分¶