跳转至

Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation

会议: ACL 2026
arXiv: 2505.13792
代码: 有(GitHub)
领域: 可解释性 / 知识蒸馏
关键词: CoT推理链, 知识蒸馏, 语义正确性, 可解释性, 推理链忠实度

一句话总结

通过规则化问题分解方法构建可验证的中间推理链数据集,揭示 CoT 推理链的语义正确性与最终答案准确率不可靠地相关(正确链仅 28% 导致正确答案),且最可解释的推理链并非最提升性能的——冗长的 R1 链性能最优但用户评为最不可解释。

研究背景与动机

领域现状:推理型 LLM(如 DeepSeek R1)通过生成 CoT 推理链来提升性能,这些推理链不仅用于推理时引导,也作为知识蒸馏(KD)的监督信号来改进小模型。

现有痛点:当前普遍但未经检验的隐含假设是:CoT 推理链在推理时既是语义正确的,也是对终端用户可解释的。然而 SFT 训练目标并不要求推理链语义正确或可解释,只要求最终答案正确。推理链冗长且非结构化,使得验证其有效性和可解释性极其困难。

核心矛盾:推理链被同时赋予了两个角色——(1) 作为 LLM 的训练/推理信号提升性能,(2) 作为向用户解释推理过程的可解释性工具——但这两个目标可能根本矛盾。

本文目标:独立评估 (1) CoT 链的语义正确性是否与任务性能相关,(2) CoT 链的可解释性是否与任务性能相关。

切入角度:利用基于规则的问题分解方法(分类步骤 + 信息检索步骤)构建中间推理链可验证的 SFT 数据集,使得正确性和答案准确率可以独立评估。

核心 idea:通过可验证的实验设计证明:研究者应将"模型监督目标"和"面向用户的推理链设计"解耦——两者不应混为一谈。

方法详解

整体框架

在开放书 QA 领域(CoTemp QA、MS MARCO、Facebook bAbI)上,用规则化问题分解生成可验证的正确/错误中间推理链,构建不同 SFT 数据集训练小模型,同时进行 100 人的人工可解释性评估研究。

关键设计

  1. 规则化问题分解与推理链构建:

    • 功能:生成可独立验证正确性的结构化中间推理链
    • 核心思路:将 QA 问题分解为两步——(1) 分类步骤确定问题类型(如时间关系类型),(2) 信息检索步骤确定回答问题所需的文本事实。由此构建 Input-Trace-Output 三元组,其中 Trace 的每一步可独立验证。SFT w/ Correct Traces 使用正确分类+正确事实;SFT w/ Incorrect Traces 使用错误分类+错误事实但保持正确最终答案。
    • 设计动机:LLM 生成的推理链噪声大、无法确定性验证;规则化分解确保二元非概率性评估
  2. 多类型推理链的可解释性比较:

    • 功能:评估不同类型推理链的可解释性-性能权衡
    • 核心思路:用四种推理链进行 SFT——(1) 规则化分解的正确链,(2) DeepSeek R1 的冗长推理链,(3) GPT-4o-mini 生成的 R1 链摘要,(4) GPT-4o-mini 生成的 R1 链事后解释。在相同任务上评估性能并进行人工可解释性评估。
    • 设计动机:如果可解释性和性能可以同时优化,那用可解释链应该性能也好;如果矛盾则需要解耦
  3. 100 人人工可解释性研究:

    • 功能:量化终端用户对不同推理链类型的可解释性感知
    • 核心思路:在 Prolific 上招募 100 名参与者(每组 25 人),用标准化 Likert 量表从可预测性、可理解性、忠实度三个维度评估四种推理链。同时测量认知负荷。
    • 设计动机:模型性能由自动指标衡量,但可解释性必须由人类主观评判

训练策略

使用 Llama-3.2-1B-Instruct 和 Qwen3-1.7B 进行 SFT,可解释性实验额外使用 Qwen3-8B 和 Llama-3.1-8B。

实验关键数据

主实验

CoTemp QA 数据集上的结果:

模型+设置 最终答案准确率 分类步骤准确率 IR步骤准确率
Qwen3-1.7B SFT-Vanilla 60.33%
Qwen3-1.7B SFT-正确链 52.88% 47.06% 78.99%
Qwen3-1.7B SFT-错误链 63.88% 20.36% 56.92%
Llama SFT-Vanilla 44.65%
Llama SFT-正确链 39.55% 39.09% 79.40%
Llama SFT-错误链 45.58% 18.80% 73.62%

可解释性评估

推理链类型 可解释性评分 (1-5) 认知负荷 (1-5) 模型性能
R1 推理链 3.39(最低) 4.59(最高) 最优
R1 摘要 中等 中等 中等
事后解释 中等偏高 中等偏低 中等
分解推理链 最高 最低 最低

关键发现

  • 正确推理链仅 28% 导致正确最终答案——语义正确性与答案准确率不可靠地相关
  • 用错误推理链训练的模型反而性能更好(63.88% vs 52.88%),说明推理链对 LLM 的作用不是语义指导
  • R1 推理链性能最优但可解释性最差(3.39/5)、认知负荷最高(4.59/5)——存在根本性权衡
  • 最可解释的分解推理链性能最差——可解释性和性能目标矛盾

亮点与洞察

  • "语义正确的推理链不一定提升性能"这一发现对当前 CoT 蒸馏实践提出了根本性质疑——推理链可能更多是"token 密度调节器"而非"推理路径指导"
  • "解耦模型监督目标和用户可解释性"的建议具有重要实践意义——系统应生成两套不同的推理链
  • 规则化问题分解使推理链的正确性可独立验证,这一实验设计方法论本身具有推广价值

局限与展望

  • 仅在 QA 领域验证,数学推理、代码生成等领域的结论可能不同
  • 规则化分解仅适用于可结构化的问题类型,限制了泛化性
  • 人工研究仅 100 人(每组 25 人),统计效力有限
  • 未来应探索"为什么错误推理链也能提升性能"的机制性解释

相关工作与启发

  • vs Magister et al. (CoT蒸馏): 他们假设 CoT 链提供有价值的推理信号,本文质疑这一假设
  • vs Barez et al. (推理链不可解释): 他们论证推理链对用户不可解释,本文进一步量化了可解释性-性能的权衡
  • vs Kambhampati et al. (R1推理链分析): 他们指出 R1 链冗长且非结构化,本文提供了系统性实验证据

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 挑战了 CoT 蒸馏的核心假设,发现出人意料且重要
  • 实验充分度: ⭐⭐⭐⭐ 三个数据集+四种推理链+人工研究,但规模有限
  • 写作质量: ⭐⭐⭐⭐ 论证逻辑清晰,但部分结果表格可更直观
  • 价值: ⭐⭐⭐⭐⭐ 对 CoT 蒸馏和可解释性研究有重要方向指引

相关论文