Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure¶

会议: ICLR2026
arXiv: 2602.08783
代码: GitHub
领域: llm_reasoning
关键词: 隐式思维链, 因果分析, do-干预, 结构因果模型, 可解释性

一句话总结¶

将隐式CoT建模为结构因果模型(SCM)，通过逐步do-干预分析Coconut和CODI两种范式，发现隐式推理步骤具有异质性因果杠杆、非局部跳跃传播结构、以及输出层早期偏向与表征层晚期提交之间的持续性差距。

背景与动机¶

隐式/连续CoT用内部隐状态替代文本推理步骤，但中间计算难以评估和解释
传统分析方法(步骤编辑/消融)无法直接应用于隐式CoT
现有对隐式CoT的理解主要基于相关性探测，缺乏因果层面的分析
隐式CoT的步骤预算是否均匀贡献？信息如何在步骤间传播？这些问题未被充分探索
输出层面的"提交"(commitment)与表征层面是否同步，尚不清楚
需要一个统一的干预协议来系统研究隐式推理的因果结构

方法详解¶

因果框架：将隐式CoT的隐状态序列\(H_{1:T}\)建模为SCM中的因果变量，通过\(\mathrm{do}(h_t \leftarrow \tilde{h}_t)\)干预单个步骤状态，观察对下游计算和最终输出的因果影响。

三个研究问题： - RQ1(必要性与充分性)：用零干预(将\(h_t\)置零)测量flip rate——被干预后预测改变的样本比例；用early-stop解码测量正确答案何时可被解码 - RQ2(传播与路由)：结合单步干预与early readout，通过teacher-forced KL散度构建步间影响矩阵\(W\)，可视化为主导影响图(principal influence graph) - RQ3(叠加与提交)：在StrategyQA上通过随机采样获得两模式prompt，用superposition score衡量中间步骤对竞争答案的支持程度

实验范式：Coconut(显式隐模式，隐状态回馈)和CODI(自蒸馏压缩离散CoT)；backbone: GPT-2, Llama3-1B, Qwen3-4B-Instruct。

实验关键数据¶

发现	细节
RQ1: 步骤必要性异质	flip rate随步骤变化显著，呈非均匀/中间步峰值模式
RQ1: 任务依赖	GSM8K flip rate 0.1-0.2+，CommonsenseQA普遍<0.1
RQ1: 范式差异	Coconut比CODI flip rate更高；更强backbone降低flip rate
RQ2: 显式CoT近链式	CoT-SFT局部性≥0.6，相邻步骤间传播为主
RQ2: 隐式CoT跳跃连接	隐式模型局部性显著更低、跨度更大，存在大量skip connection
RQ3: 提交不同步	teacher-forced readout显示早期输出提交；probe readout显示中间步骤持续保留竞争假设

亮点¶

首次对隐式CoT进行因果层面的逐步分析，区分可用性(availability)与稳定性(stability)
揭示隐式推理步骤并非均匀"额外深度"，而是具有非局部路由的分阶段功能
发现输出层与表征层提交时机不同步——一个重要的设计洞察
统一的"干预+读出"协议，适用于不同隐式推理范式的对比

局限性 / 可改进方向¶

仅研究了两种隐式CoT范式(Coconut/CODI)，泛化性待验证
零干预(置零)作为唯一干预策略，可能引入分布外效应
RQ3仅在StrategyQA(二元标签)上分析，未扩展到开放式任务
未提出具体的训练/解码改进方法，主要停留在分析层面
影响图的稀疏化阈值(α=0.1)选择较主观

与相关工作的对比¶

相比mechanistic interpretability(Elhage等)关注神经元/注意力头，本文以"步骤"为分析粒度
与Wu等(2025)认为连续推理是贪心/单线程的观点互补：probe readout显示确实保留了竞争假设
延续了因果干预分析(Pearl, Singh等)在LLM中的应用，首次聚焦隐式CoT

评分¶

新颖性: ⭐⭐⭐⭐ (首次因果分析隐式CoT，三个RQ层层递进)
实验充分度: ⭐⭐⭐⭐ (多范式/多backbone/多任务，分析全面)
写作质量: ⭐⭐⭐⭐⭐ (结构极清晰，现象→机制→本质)
价值: ⭐⭐⭐⭐ (对隐式推理设计有重要启发)