How Do Transformers Learn Implicit Reasoning?¶
会议: NeurIPS 2025
arXiv: 2505.23653
代码: https://github.com/Jiaran-Ye/ImplicitReasoning
领域: 隐式推理、可解释性、表示学习
关键词: 多跳推理、神经回路、余弦聚类、语义修补
一句话总结¶
通过符号环境的精细控制研究,本文发现多跳隐式推理会经历记忆→分布内泛化→跨分布泛化三阶段,关键机制是中间实体表示在余弦空间的聚类。
研究背景与动机¶
虽然LLM能进行隐式推理(不显式说出中间步骤的多跳推理),但内部机制不明。现有研究困境: - 预训练LLM中难以区分真推理与记忆/捷径 - 符号数据集缺乏查询级精细控制 - 标准探测方法(线性探测)假设显式可解码性,但这可能伪造推理
本工作构建扩展符号环境,系统化研究隐式推理的行为和机制。
方法详解¶
整体框架¶
符号环境设计: - 2000实体、200关系、40000原子三元组 - 分布内(ID)和分布外(OOD)三元组(95:5比例) - 2跳查询种类(Train-II、Test-II、Test-OI、Test-IO、Test-OO) - 精细化控制:移除特定三元组、限制组合模式等
训练配置:GPT-2(从头训练),确保完全可控
关键创新方法¶
1. 跨查询语义修补(Cross-Query Semantic Patching) - 问题:线性探测仅测相关性,因果修补不测语义 - 解决:从源查询提取中间实体表示,植入结构相似的目标查询 - 判断:修补后预测改变 → 表示语义转移,非伪信号
2. 余弦透镜(Cosine Lens) - 基于:聚类而非解码 - 指标: - ID内聚分数:ID导出表示与其质心的余弦相似度 - OOD对齐分数:OOD导出表示与ID质心的余弦相似度 - 优势:避免解码假设,捕捉表示的几何规律
实验关键数据¶
| 阶段 | Train-II准确率 | Test-II准确率 | Test-OI准确率 | ID内聚 | OOD对齐 |
|---|---|---|---|---|---|
| I(记忆) | 98%+ | <5% | <5% | 0.15 | 0.12 |
| II(ID泛化) | 99%+ | 92% | <5% | 0.78 | 0.18 |
| III(跨分布) | 99%+ | 95% | 65% | 0.82 | 0.71 |
可解码性vs实际推理: | 来源 | 立即探测 | 全程探测 | Phase I | Phase II | Phase III | |------|--------|---------|---------|----------|-----------| | ID导出 | 92.1% | 97.1% | M | 99.9% | 99.9% | | OOD导出 | 67.7% | 83.7% | M | 81.3% | 99.8% |
关键:Phase II中,ID和OOD表示的可解码性相似(均高),但Test-OI查询性能差异巨大(92% vs <5%)。
亮点与洞察¶
-
三阶段发展轨迹:首次系统化区分记忆、ID泛化、跨分布泛化的行为特征
-
ID三元组加速但非必需:
- Train-II仅足够学习ID泛化
-
ID三元组通过约束表示空间、加快聚类 → 提速
-
查询级匹配的关键性:
- 第二跳泛化严格要求训练中遇到相同组合
-
即使原子三元组在第一跳出现,若未用作第二跳,泛化失败
-
几何而非解码:
- 可解码性伪造:高可解码性不等于有效推理
-
实际机制:表示在余弦空间聚类→结构化重用
-
OOD"泛化"的欺骗性:
- 表面看起来ID→OOD第一跳泛化成功
- 实际:ID三元组的锚定效应使OOD表示与ID聚类对齐("作弊")
- 无ID锚定时Test-OI性能崩溃 → 证明了这一机制
局限性¶
- 符号环境简化:
- LLM处理更复杂、混杂的知识
-
单一关系类型(无属性、类型约束)
-
GPT-2模型:
- 规模较小
- 可能推理能力与大模型有质的差异
-
3跳实验证号虽一致,但演示有限
-
固定干预层:
- 使用L/3层,虽附录有扫描
-
最优层可能因任务/阶段而异
-
单一提示模板和随机种子:
- 缺乏对模板敏感性的充分验证
- 重复有限,方差未量化
相关工作¶
- 隐式推理:Zero-shot推理与Chain-of-Thought
- 象征性学习:Grokking现象、组合泛化
- 神经回路:Transformer机制解释、因果探针
评分¶
⭐⭐⭐⭐⭐ (5/5)