Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure¶
会议: ICLR2026
arXiv: 2602.08783
代码: GitHub
领域: llm_reasoning
关键词: 隐式思维链, 因果分析, do-干预, 结构因果模型, 可解释性
一句话总结¶
将隐式CoT建模为结构因果模型(SCM),通过逐步do-干预分析Coconut和CODI两种范式,发现隐式推理步骤具有异质性因果杠杆、非局部跳跃传播结构、以及输出层早期偏向与表征层晚期提交之间的持续性差距。
背景与动机¶
- 隐式/连续CoT用内部隐状态替代文本推理步骤,但中间计算难以评估和解释
- 传统分析方法(步骤编辑/消融)无法直接应用于隐式CoT
- 现有对隐式CoT的理解主要基于相关性探测,缺乏因果层面的分析
- 隐式CoT的步骤预算是否均匀贡献?信息如何在步骤间传播?这些问题未被充分探索
- 输出层面的"提交"(commitment)与表征层面是否同步,尚不清楚
- 需要一个统一的干预协议来系统研究隐式推理的因果结构
方法详解¶
因果框架:将隐式CoT的隐状态序列\(H_{1:T}\)建模为SCM中的因果变量,通过\(\mathrm{do}(h_t \leftarrow \tilde{h}_t)\)干预单个步骤状态,观察对下游计算和最终输出的因果影响。
三个研究问题: - RQ1(必要性与充分性):用零干预(将\(h_t\)置零)测量flip rate——被干预后预测改变的样本比例;用early-stop解码测量正确答案何时可被解码 - RQ2(传播与路由):结合单步干预与early readout,通过teacher-forced KL散度构建步间影响矩阵\(W\),可视化为主导影响图(principal influence graph) - RQ3(叠加与提交):在StrategyQA上通过随机采样获得两模式prompt,用superposition score衡量中间步骤对竞争答案的支持程度
实验范式:Coconut(显式隐模式,隐状态回馈)和CODI(自蒸馏压缩离散CoT);backbone: GPT-2, Llama3-1B, Qwen3-4B-Instruct。
实验关键数据¶
| 发现 | 细节 |
|---|---|
| RQ1: 步骤必要性异质 | flip rate随步骤变化显著,呈非均匀/中间步峰值模式 |
| RQ1: 任务依赖 | GSM8K flip rate 0.1-0.2+,CommonsenseQA普遍<0.1 |
| RQ1: 范式差异 | Coconut比CODI flip rate更高;更强backbone降低flip rate |
| RQ2: 显式CoT近链式 | CoT-SFT局部性≥0.6,相邻步骤间传播为主 |
| RQ2: 隐式CoT跳跃连接 | 隐式模型局部性显著更低、跨度更大,存在大量skip connection |
| RQ3: 提交不同步 | teacher-forced readout显示早期输出提交;probe readout显示中间步骤持续保留竞争假设 |
亮点¶
- 首次对隐式CoT进行因果层面的逐步分析,区分可用性(availability)与稳定性(stability)
- 揭示隐式推理步骤并非均匀"额外深度",而是具有非局部路由的分阶段功能
- 发现输出层与表征层提交时机不同步——一个重要的设计洞察
- 统一的"干预+读出"协议,适用于不同隐式推理范式的对比
局限性 / 可改进方向¶
- 仅研究了两种隐式CoT范式(Coconut/CODI),泛化性待验证
- 零干预(置零)作为唯一干预策略,可能引入分布外效应
- RQ3仅在StrategyQA(二元标签)上分析,未扩展到开放式任务
- 未提出具体的训练/解码改进方法,主要停留在分析层面
- 影响图的稀疏化阈值(α=0.1)选择较主观
与相关工作的对比¶
- 相比mechanistic interpretability(Elhage等)关注神经元/注意力头,本文以"步骤"为分析粒度
- 与Wu等(2025)认为连续推理是贪心/单线程的观点互补:probe readout显示确实保留了竞争假设
- 延续了因果干预分析(Pearl, Singh等)在LLM中的应用,首次聚焦隐式CoT
评分¶
- 新颖性: ⭐⭐⭐⭐ (首次因果分析隐式CoT,三个RQ层层递进)
- 实验充分度: ⭐⭐⭐⭐ (多范式/多backbone/多任务,分析全面)
- 写作质量: ⭐⭐⭐⭐⭐ (结构极清晰,现象→机制→本质)
- 价值: ⭐⭐⭐⭐ (对隐式推理设计有重要启发)