How Do Transformers Learn Implicit Reasoning?¶

会议: NeurIPS 2025
arXiv: 2505.23653
代码: https://github.com/Jiaran-Ye/ImplicitReasoning
领域: 隐式推理、可解释性、表示学习
关键词: 多跳推理、神经回路、余弦聚类、语义修补

一句话总结¶

通过符号环境的精细控制研究，本文发现多跳隐式推理会经历记忆→分布内泛化→跨分布泛化三阶段，关键机制是中间实体表示在余弦空间的聚类。

研究背景与动机¶

虽然LLM能进行隐式推理（不显式说出中间步骤的多跳推理），但内部机制不明。现有研究困境： - 预训练LLM中难以区分真推理与记忆/捷径 - 符号数据集缺乏查询级精细控制 - 标准探测方法（线性探测）假设显式可解码性，但这可能伪造推理

本工作构建扩展符号环境，系统化研究隐式推理的行为和机制。

方法详解¶

整体框架¶

符号环境设计： - 2000实体、200关系、40000原子三元组 - 分布内(ID)和分布外(OOD)三元组（95:5比例） - 2跳查询种类（Train-II、Test-II、Test-OI、Test-IO、Test-OO） - 精细化控制：移除特定三元组、限制组合模式等

训练配置：GPT-2（从头训练），确保完全可控

关键创新方法¶

1. 跨查询语义修补(Cross-Query Semantic Patching) - 问题：线性探测仅测相关性，因果修补不测语义 - 解决：从源查询提取中间实体表示，植入结构相似的目标查询 - 判断：修补后预测改变 → 表示语义转移，非伪信号

2. 余弦透镜(Cosine Lens) - 基于：聚类而非解码 - 指标： - ID内聚分数：ID导出表示与其质心的余弦相似度 - OOD对齐分数：OOD导出表示与ID质心的余弦相似度 - 优势：避免解码假设，捕捉表示的几何规律

实验关键数据¶

阶段	Train-II准确率	Test-II准确率	Test-OI准确率	ID内聚	OOD对齐
I（记忆）	98%+	<5%	<5%	0.15	0.12
II（ID泛化）	99%+	92%	<5%	0.78	0.18
III（跨分布）	99%+	95%	65%	0.82	0.71

可解码性vs实际推理： | 来源 | 立即探测 | 全程探测 | Phase I | Phase II | Phase III | |------|--------|---------|---------|----------|-----------| | ID导出 | 92.1% | 97.1% | M | 99.9% | 99.9% | | OOD导出 | 67.7% | 83.7% | M | 81.3% | 99.8% |

关键：Phase II中，ID和OOD表示的可解码性相似（均高），但Test-OI查询性能差异巨大（92% vs <5%）。

亮点与洞察¶

三阶段发展轨迹：首次系统化区分记忆、ID泛化、跨分布泛化的行为特征
ID三元组加速但非必需：
Train-II仅足够学习ID泛化
ID三元组通过约束表示空间、加快聚类 → 提速
查询级匹配的关键性：
第二跳泛化严格要求训练中遇到相同组合
即使原子三元组在第一跳出现，若未用作第二跳，泛化失败
几何而非解码：
可解码性伪造：高可解码性不等于有效推理
实际机制：表示在余弦空间聚类→结构化重用
OOD"泛化"的欺骗性：
表面看起来ID→OOD第一跳泛化成功
实际：ID三元组的锚定效应使OOD表示与ID聚类对齐（"作弊"）
无ID锚定时Test-OI性能崩溃 → 证明了这一机制

局限性¶

符号环境简化：
LLM处理更复杂、混杂的知识
单一关系类型（无属性、类型约束）
GPT-2模型：
规模较小
可能推理能力与大模型有质的差异
3跳实验证号虽一致，但演示有限
固定干预层：
使用L/3层，虽附录有扫描
最优层可能因任务/阶段而异
单一提示模板和随机种子：
缺乏对模板敏感性的充分验证
重复有限，方差未量化

评分¶

⭐⭐⭐⭐⭐ (5/5)