Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation¶

会议: ACL 2026
arXiv: 2505.13792
代码: 有（GitHub）
领域: 可解释性 / 知识蒸馏
关键词: CoT推理链, 知识蒸馏, 语义正确性, 可解释性, 推理链忠实度

一句话总结¶

通过规则化问题分解方法构建可验证的中间推理链数据集，揭示 CoT 推理链的语义正确性与最终答案准确率不可靠地相关（正确链仅 28% 导致正确答案），且最可解释的推理链并非最提升性能的——冗长的 R1 链性能最优但用户评为最不可解释。

研究背景与动机¶

领域现状：推理型 LLM（如 DeepSeek R1）通过生成 CoT 推理链来提升性能，这些推理链不仅用于推理时引导，也作为知识蒸馏（KD）的监督信号来改进小模型。

现有痛点：当前普遍但未经检验的隐含假设是：CoT 推理链在推理时既是语义正确的，也是对终端用户可解释的。然而 SFT 训练目标并不要求推理链语义正确或可解释，只要求最终答案正确。推理链冗长且非结构化，使得验证其有效性和可解释性极其困难。

核心矛盾：推理链被同时赋予了两个角色——(1) 作为 LLM 的训练/推理信号提升性能，(2) 作为向用户解释推理过程的可解释性工具——但这两个目标可能根本矛盾。

本文目标：独立评估 (1) CoT 链的语义正确性是否与任务性能相关，(2) CoT 链的可解释性是否与任务性能相关。

切入角度：利用基于规则的问题分解方法（分类步骤 + 信息检索步骤）构建中间推理链可验证的 SFT 数据集，使得正确性和答案准确率可以独立评估。

核心 idea：通过可验证的实验设计证明：研究者应将"模型监督目标"和"面向用户的推理链设计"解耦——两者不应混为一谈。

方法详解¶

整体框架¶

在开放书 QA 领域（CoTemp QA、MS MARCO、Facebook bAbI）上，用规则化问题分解生成可验证的正确/错误中间推理链，构建不同 SFT 数据集训练小模型，同时进行 100 人的人工可解释性评估研究。

关键设计¶

规则化问题分解与推理链构建:
- 功能：生成可独立验证正确性的结构化中间推理链
- 核心思路：将 QA 问题分解为两步——(1) 分类步骤确定问题类型（如时间关系类型），(2) 信息检索步骤确定回答问题所需的文本事实。由此构建 Input-Trace-Output 三元组，其中 Trace 的每一步可独立验证。SFT w/ Correct Traces 使用正确分类+正确事实；SFT w/ Incorrect Traces 使用错误分类+错误事实但保持正确最终答案。
- 设计动机：LLM 生成的推理链噪声大、无法确定性验证；规则化分解确保二元非概率性评估
多类型推理链的可解释性比较:
- 功能：评估不同类型推理链的可解释性-性能权衡
- 核心思路：用四种推理链进行 SFT——(1) 规则化分解的正确链，(2) DeepSeek R1 的冗长推理链，(3) GPT-4o-mini 生成的 R1 链摘要，(4) GPT-4o-mini 生成的 R1 链事后解释。在相同任务上评估性能并进行人工可解释性评估。
- 设计动机：如果可解释性和性能可以同时优化，那用可解释链应该性能也好；如果矛盾则需要解耦
100 人人工可解释性研究:
- 功能：量化终端用户对不同推理链类型的可解释性感知
- 核心思路：在 Prolific 上招募 100 名参与者（每组 25 人），用标准化 Likert 量表从可预测性、可理解性、忠实度三个维度评估四种推理链。同时测量认知负荷。
- 设计动机：模型性能由自动指标衡量，但可解释性必须由人类主观评判

训练策略¶

使用 Llama-3.2-1B-Instruct 和 Qwen3-1.7B 进行 SFT，可解释性实验额外使用 Qwen3-8B 和 Llama-3.1-8B。

实验关键数据¶

主实验¶

CoTemp QA 数据集上的结果：

模型+设置	最终答案准确率	分类步骤准确率	IR步骤准确率
Qwen3-1.7B SFT-Vanilla	60.33%	—	—
Qwen3-1.7B SFT-正确链	52.88%	47.06%	78.99%
Qwen3-1.7B SFT-错误链	63.88%	20.36%	56.92%
Llama SFT-Vanilla	44.65%	—	—
Llama SFT-正确链	39.55%	39.09%	79.40%
Llama SFT-错误链	45.58%	18.80%	73.62%

可解释性评估¶

推理链类型	可解释性评分 (1-5)	认知负荷 (1-5)	模型性能
R1 推理链	3.39（最低）	4.59（最高）	最优
R1 摘要	中等	中等	中等
事后解释	中等偏高	中等偏低	中等
分解推理链	最高	最低	最低

关键发现¶

正确推理链仅 28% 导致正确最终答案——语义正确性与答案准确率不可靠地相关
用错误推理链训练的模型反而性能更好（63.88% vs 52.88%），说明推理链对 LLM 的作用不是语义指导
R1 推理链性能最优但可解释性最差（3.39/5）、认知负荷最高（4.59/5）——存在根本性权衡
最可解释的分解推理链性能最差——可解释性和性能目标矛盾

亮点与洞察¶

"语义正确的推理链不一定提升性能"这一发现对当前 CoT 蒸馏实践提出了根本性质疑——推理链可能更多是"token 密度调节器"而非"推理路径指导"
"解耦模型监督目标和用户可解释性"的建议具有重要实践意义——系统应生成两套不同的推理链
规则化问题分解使推理链的正确性可独立验证，这一实验设计方法论本身具有推广价值

局限与展望¶

仅在 QA 领域验证，数学推理、代码生成等领域的结论可能不同
规则化分解仅适用于可结构化的问题类型，限制了泛化性
人工研究仅 100 人（每组 25 人），统计效力有限
未来应探索"为什么错误推理链也能提升性能"的机制性解释

评分¶

新颖性: ⭐⭐⭐⭐⭐ 挑战了 CoT 蒸馏的核心假设，发现出人意料且重要
实验充分度: ⭐⭐⭐⭐ 三个数据集+四种推理链+人工研究，但规模有限
写作质量: ⭐⭐⭐⭐ 论证逻辑清晰，但部分结果表格可更直观
价值: ⭐⭐⭐⭐⭐ 对 CoT 蒸馏和可解释性研究有重要方向指引