跳转至

How Do Transformers Learn Implicit Reasoning?

会议: NeurIPS 2025
arXiv: 2505.23653
代码: https://github.com/Jiaran-Ye/ImplicitReasoning
领域: 隐式推理、可解释性、表示学习
关键词: 多跳推理、神经回路、余弦聚类、语义修补

一句话总结

通过符号环境的精细控制研究,本文发现多跳隐式推理会经历记忆→分布内泛化→跨分布泛化三阶段,关键机制是中间实体表示在余弦空间的聚类。

研究背景与动机

虽然LLM能进行隐式推理(不显式说出中间步骤的多跳推理),但内部机制不明。现有研究困境: - 预训练LLM中难以区分真推理与记忆/捷径 - 符号数据集缺乏查询级精细控制 - 标准探测方法(线性探测)假设显式可解码性,但这可能伪造推理

本工作构建扩展符号环境,系统化研究隐式推理的行为和机制。

方法详解

整体框架

符号环境设计: - 2000实体、200关系、40000原子三元组 - 分布内(ID)和分布外(OOD)三元组(95:5比例) - 2跳查询种类(Train-II、Test-II、Test-OI、Test-IO、Test-OO) - 精细化控制:移除特定三元组、限制组合模式等

训练配置:GPT-2(从头训练),确保完全可控

关键创新方法

1. 跨查询语义修补(Cross-Query Semantic Patching) - 问题:线性探测仅测相关性,因果修补不测语义 - 解决:从源查询提取中间实体表示,植入结构相似的目标查询 - 判断:修补后预测改变 → 表示语义转移,非伪信号

2. 余弦透镜(Cosine Lens) - 基于:聚类而非解码 - 指标: - ID内聚分数:ID导出表示与其质心的余弦相似度 - OOD对齐分数:OOD导出表示与ID质心的余弦相似度 - 优势:避免解码假设,捕捉表示的几何规律

实验关键数据

阶段 Train-II准确率 Test-II准确率 Test-OI准确率 ID内聚 OOD对齐
I(记忆) 98%+ <5% <5% 0.15 0.12
II(ID泛化) 99%+ 92% <5% 0.78 0.18
III(跨分布) 99%+ 95% 65% 0.82 0.71

可解码性vs实际推理: | 来源 | 立即探测 | 全程探测 | Phase I | Phase II | Phase III | |------|--------|---------|---------|----------|-----------| | ID导出 | 92.1% | 97.1% | M | 99.9% | 99.9% | | OOD导出 | 67.7% | 83.7% | M | 81.3% | 99.8% |

关键:Phase II中,ID和OOD表示的可解码性相似(均高),但Test-OI查询性能差异巨大(92% vs <5%)。

亮点与洞察

  1. 三阶段发展轨迹:首次系统化区分记忆、ID泛化、跨分布泛化的行为特征

  2. ID三元组加速但非必需

  3. Train-II仅足够学习ID泛化
  4. ID三元组通过约束表示空间、加快聚类 → 提速

  5. 查询级匹配的关键性

  6. 第二跳泛化严格要求训练中遇到相同组合
  7. 即使原子三元组在第一跳出现,若未用作第二跳,泛化失败

  8. 几何而非解码

  9. 可解码性伪造:高可解码性不等于有效推理
  10. 实际机制:表示在余弦空间聚类→结构化重用

  11. OOD"泛化"的欺骗性

  12. 表面看起来ID→OOD第一跳泛化成功
  13. 实际:ID三元组的锚定效应使OOD表示与ID聚类对齐("作弊")
  14. 无ID锚定时Test-OI性能崩溃 → 证明了这一机制

局限性

  1. 符号环境简化
  2. LLM处理更复杂、混杂的知识
  3. 单一关系类型(无属性、类型约束)

  4. GPT-2模型

  5. 规模较小
  6. 可能推理能力与大模型有质的差异
  7. 3跳实验证号虽一致,但演示有限

  8. 固定干预层

  9. 使用L/3层,虽附录有扫描
  10. 最优层可能因任务/阶段而异

  11. 单一提示模板和随机种子

  12. 缺乏对模板敏感性的充分验证
  13. 重复有限,方差未量化

相关工作

  • 隐式推理:Zero-shot推理与Chain-of-Thought
  • 象征性学习:Grokking现象、组合泛化
  • 神经回路:Transformer机制解释、因果探针

评分

⭐⭐⭐⭐⭐ (5/5)