SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs¶

会议: ACL 2025
arXiv: 2502.12134
代码: https://github.com/xuyige/SoftCoT
领域: LLM效率
关键词: 连续空间推理, 软思维token, 辅助小模型, 投影模块, 灾难性遗忘缓解

一句话总结¶

提出 SoftCoT，用一个冻结的小型辅助模型（如 LLaMA-3.2-1B）生成实例特定的"软思维 token"（连续隐状态），通过可训练的投影模块映射到主 LLM 的表示空间作为推理前缀，实现参数高效的连续空间 CoT 推理，避免了全模型微调导致的灾难性遗忘问题。

研究背景与动机¶

领域现状：Chain-of-Thought (CoT) 推理通过生成中间推理步骤提升 LLM 在复杂任务上的表现。传统 CoT 在离散 token 空间生成推理链，受限于词表空间。近期有 Coconut、CCoT 等方法探索连续空间推理，用潜在表示替代离散 token 序列。
现有痛点：
Coconut/CCoT 需要全模型微调（语言建模目标），在 GPT-2 上有效，但在 LLaMA-3.1-8B-Instruct 等已对齐的强模型上会导致灾难性遗忘——LoRA 微调后的表现甚至低于 zero-shot CoT
离散 CoT 的 token 空间受限，可能不是最优的推理表示
多路径采样（self-consistency、Tree-of-Thought）计算开销大
核心矛盾：连续空间推理有表达力优势，但现有方法需要修改 LLM 参数，导致强大的指令调优模型丧失已学到的推理能力。如何在不修改 LLM 的前提下引入连续空间推理？
本文要解决什么？
如何在冻结主 LLM 的条件下实现连续空间 CoT 推理
如何弥合辅助模型与主 LLM 之间的表示空间差异
如何通过参数高效训练获得优于 zero-shot CoT 的性能
切入角度：受 prompt tuning 和 speculative decoding 的启发——用一个小型冻结辅助模型生成与实例相关的软提示（连续思维 token），代替 CoT 中的离散推理前缀。主 LLM 完全冻结，只训练一个投影模块。
核心 idea 一句话：不修改 LLM，而是用辅助小模型的连续隐状态作为实例自适应的"软思维"前缀，通过投影层送入冻结的主 LLM 来增强推理。

方法详解¶

整体框架¶

给定问题 \(\mathcal{Q}\) → 辅助模型（冻结的 LLaMA-3.2-1B）处理 [指令, 问题, N个UNK token]，提取最后 N 个位置的最后一层隐状态作为软思维 → 投影模块（可训练线性层）将软思维从辅助模型维度映射到主 LLM 维度 → 主 LLM（冻结的 LLaMA-3.1-8B）接收 [指令, 问题, 软思维]，自回归生成推理步骤和答案

关键设计¶

软思维 token 生成:
做什么：用辅助小模型为每个问题生成实例特定的连续推理前缀
核心思路：
- 输入构造：\(\mathbf{x}_{\text{assist}} = \text{concat}[\mathcal{I}_{\text{assist}}, \mathcal{Q}, \text{[UNK]}_{1:N}]\)
- 辅助模型前向传播后，提取 N 个 [UNK] 位置的最后层隐状态作为 \(\mathbf{t}_{\text{assist}} \in \mathbb{R}^{N \times d_{\text{assist}}}\)
- 在连续空间操作，避免了自回归解码的信息损失和梯度截断
设计动机：[UNK] token 作为"占位符"，不携带特定语义，迫使模型将问题的理解压缩到这些位置的隐状态中。辅助模型冻结→不需要额外训练成本
投影模块:
做什么：弥合辅助模型和主 LLM 之间的表示空间&维度差距
核心思路：\(\mathcal{T}_{\text{soft}} = \text{Linear}_\theta(\mathbf{t}_{\text{assist}})\)，将 \(\mathbb{R}^{d_{\text{assist}}}\) 映射到 \(\mathbb{R}^{d_{\text{LLM}}}\)
这是唯一的可训练组件——一个线性层，参数量极小
设计动机：类似 LLaVA 中视觉编码器到 LLM 的投影，用最小的训练开销桥接两个模型空间
冻结主 LLM 的推理:
做什么：利用软思维增强主 LLM 的 CoT 推理
输入：\(\mathbf{x}_{\text{LLM}} = \text{concat}[\mathcal{I}_{\text{LLM}}, \mathcal{Q}, \mathcal{T}_{\text{soft}}]\)
主 LLM 完全冻结，根据指令+问题+软思维自回归生成推理链和答案
训练时：用 NLL 损失监督推理步骤 \(\mathcal{R}\) 和答案 \(\mathcal{A}\)，梯度仅回传到投影层

损失函数 / 训练策略¶

标准语言建模目标（NLL loss），mask 掉指令和问题部分，仅在推理链+答案上计算损失
梯度只更新投影模块的参数
参数效率：主 LLM 和辅助模型均冻结

实验关键数据¶

主实验（LLaMA-3.1-8B-Instruct 为主 LLM）¶

方法	GSM8K	ASDiv-Aug	AQuA	StrategyQA	Date Und.	Avg
Zero-Shot CoT	79.61	86.78	54.65	65.63	54.40	68.21
Zero-Shot CoT-UNK	79.95	86.90	55.28	66.16	54.16	68.49
Zero-Shot Assist-CoT	80.76	86.96	55.83	66.55	58.24	69.67
LoRA Fine-Tuning	75.66	86.67	52.36	-	-	-
Coconut (LoRA)	76.12	86.80	53.15	-	-	-
SoftCoT	81.03	87.19	56.30	69.04	59.04	70.52

关键对比：LoRA 微调和 Coconut 在 GSM8K 上都低于 Zero-Shot CoT（75.66/76.12 vs 79.61），证实了灾难性遗忘。SoftCoT 是唯一在所有任务上一致超越 Zero-Shot CoT 的方法。

消融实验¶

组件	GSM8K	ASDiv-Aug	说明
SoftCoT (完整)	81.03	87.19	完整模型
w/o 辅助模型（随机UNK）	79.95	86.90	退化为CoT-UNK，-1.08
w/o 连续空间（硬token）	80.76	86.96	退化为Assist-CoT，-0.27
w/o 投影模块	—	—	维度不匹配无法运行

关键发现¶

灾难性遗忘是真实问题：Coconut 在 GPT-2 上有效，但在 LLaMA-3.1-8B-Instruct 上使用 LoRA 微调反而比 zero-shot 差 3.5 个点
[UNK] token 本身就有微弱正面效果（"pause token" 效应），增加模型计算容量，减少方差
软思维优于硬思维：SoftCoT (70.52) > Assist-CoT (69.67)，连续表示比离散 token 编码更丰富
仅训练一个投影层（参数量极小）就能持续获得收益
在 Qwen2.5-7B-Instruct 上也验证了一致的改进效果

亮点与洞察¶

"不改模型，改输入"的思路很实用：与 prompt tuning 的理念一脉相承，但用辅助模型生成实例自适应的软提示比固定的可学习 prompt 更强。这种设计保证了主 LLM 知识的完整性
灾难性遗忘的系统验证是重要贡献：明确指出 Coconut 类方法不适用于已经很强的指令调优模型，为连续空间推理领域矫正了方向
类似 speculative decoding 的架构设计：小模型"推测"推理方向，大模型"执行"，是一种优雅的模型协作范式。可迁移到其他需要辅助推理的场景

局限性 / 可改进方向¶

软思维的长度 N 是固定的超参数，未根据问题难度自适应调整
投影模块仅用线性层，可能限制了表示映射的能力（MLP 或 cross-attention 可能更好）
辅助模型完全冻结，未探索联合微调辅助模型（可能进一步提升但增加开销）
实验仅在 7B-8B 规模验证，更大模型（70B+）的效果未知
软思维的可解释性较差——无法像离散 CoT 那样阅读推理过程

评分¶

新颖性: ⭐⭐⭐⭐ 辅助模型生成软思维的设计有创新性，解决了连续CoT在强模型上的灾难性遗忘
实验充分度: ⭐⭐⭐⭐ 5个基准、3类推理、2个LLM、多个baseline对比和消融
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法描述规范，图表简洁
价值: ⭐⭐⭐⭐ 提供了一种实用的轻量级推理增强方案，参数效率极高