Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation Engineering¶
会议: ACL 2025
arXiv: 2503.11314
代码: https://github.com/txy77/GLoRE
领域: LLM 推理
关键词: 长思维链, 表示工程, 跨领域推理, 无训练方法, 慢思考
一句话总结¶
从表示空间角度发现 LLM 将长 CoT 推理编码为一种与普通 CoT 明确区分的通用能力,提出 GLoRE(General Long CoT Reasoning via Representation Engineering)——通过对比推理模式注入和领域特定表示调整来解锁长 CoT 能力,无需训练即可在域内和跨域场景下超越 SFT 方法。
研究背景与动机¶
- 领域现状:慢思考推理模型(o1、DeepSeek-R1)通过长思维链(long CoT)——包含规划、验证、回溯策略的详细推理——大幅提升了 LLM 在复杂推理任务上的表现。研究发现 long CoT 能力可以用少量示例高效激发并跨任务迁移。
- 现有痛点:(a) 不清楚 long CoT 是否是 LLM 中一种"通用且独立"的能力,还是特定于训练任务;(b) 跨领域迁移在某些领域效果差——数学领域迁移好但物理等其他领域迁移差;(c) 不是所有领域都能容易构造高质量 long CoT 数据。
- 核心矛盾:long CoT 能力似乎是通用的(少量数据即可激发+可迁移),但领域迁移又不完全——说明有通用部分也有领域特定部分,需要分离理解。
- 本文要解决什么? 从表示工程角度理解和利用 long CoT 的通用性与领域特定性,无需训练即可跨领域解锁 long CoT 能力。
- 切入角度:用表示工程分析 LLM 内部的 long CoT 表示——发现 long CoT 和 vanilla CoT 在表示空间中占据不同区域,且这种区分跨领域一致。据此提出直接操纵表示来切换推理模式。
- 核心idea一句话:long CoT 是 LLM 表示空间中的一个独立"区域"——通过表示注入直接将模型推到该区域即可无训练激活。
方法详解¶
整体框架¶
GLoRE 通过两步表示注入:(1) 对比推理模式注入——计算 long CoT 与 vanilla CoT 的表示差值(对比向量),注入到 LLM 中间层的激活中,将模型从"vanilla CoT 区域"推到"long CoT 区域";(2) 领域特定表示注入——对目标领域的少量示例提取领域表示向量并注入,将模型从通用 long CoT 区域精确引导到目标领域的精确空间。
关键设计¶
- 表示空间分析(发现):
- 做什么:证明 long CoT 在表示空间中是一种独立的通用能力
- 核心发现:(a) long CoT 的表示在各层都聚集在特定区域,与 vanilla CoT 明确分离;(b) 不同领域的 long/vanilla CoT 对比方向相似——说明"切换到 long CoT"的方向是通用的
-
设计动机:这两个发现支撑了"通过表示注入切换推理模式"的可行性
-
对比推理模式注入(Contrastive Reasoning Pattern):
- 做什么:将模型从 vanilla CoT 推向 long CoT
- 核心思路:收集少量 long/vanilla CoT 配对示例,计算各中间层的表示差值(\(\Delta h = h_{long} - h_{vanilla}\)),在推理时将这个差值向量加到对应层的激活中
-
设计动机:类似 InstructionRepresentation 的做法——通用的推理模式切换不需要改参数,只需在表示空间中"推一把"
-
领域特定表示调整:
- 做什么:将通用 long CoT 精调到目标领域
- 核心思路:对目标领域的问题提取领域表示向量(不需要答案,只需问题),注入以引导模型关注领域特定的知识和推理模式
- 设计动机:通用 long CoT 在数学上表现好但物理上差——因为物理需要不同的领域知识。领域特定注入弥补了这个缺口
损失函数 / 训练策略¶
- 完全无需训练——纯推理时表示操纵
- 仅需少量标注的 long/vanilla CoT 配对用于计算对比向量
- 支持多种 LLM 骨干(Qwen2.5-7B、LLaMA3.1-8B)
实验关键数据¶
主实验(Qwen2.5-7B-Instruct)¶
| 方法 | 数学(域内) | 物理(跨域) | 化学(跨域) | 说明 |
|---|---|---|---|---|
| Vanilla CoT | 基线 | 基线 | 基线 | 短思维链 |
| 提示工程(模拟长CoT) | 轻微提升 | 轻微提升 | 轻微提升 | 不引导深度思考 |
| SFT (数学长CoT数据) | 高 | 中 | 中 | 训练方法 |
| GLoRE (无训练) | 最高 | 高 | 高 | 超越SFT |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| 仅对比推理注入 | 显著提升 | 通用long CoT切换有效 |
| + 领域特定注入 | 进一步提升 | 领域调整必要 |
| 不同注入层 | 中间层最佳 | 与表示工程文献一致 |
| 对比样本数量 | 10-50即可 | 数据高效 |
关键发现¶
- GLoRE 无训练即超越 SFT——只操纵表示就比在数千 long CoT 样本上微调还好
- long CoT 确实是 LLM 的通用能力——不同领域的对比方向相似度高达 0.8+
- 领域特定表示对跨域迁移至关重要——仅通用注入在物理等非数学领域提升有限
- 中间层(~50%深度)是注入的最佳位置——太浅影响不足,太深可能破坏已有信息
- 仅需 10-50 个对比样本——数据效率极高
亮点与洞察¶
- "long CoT 是表示空间中一个独立区域"的发现具有根本性意义——说明 LLM 已经有慢思考的潜力,只需要被"引导"到正确的表示区域。
- 无需训练即超越 SFT 说明表示工程在激活已有能力时比参数更新更高效——因为能力已经在参数中了,只需要正确的"激活信号"。
- 通用部分+领域特定部分的二元分解为理解 long CoT 提供了清晰框架——对比向量是"怎么思考"(通用),领域表示是"用什么知识思考"(特定)。
- 该方法可在推理时动态切换——需要深度思考时注入,不需要时不注入,灵活可控。
- 对 o1-like 模型的研究和开发有重要启发——不一定需要大规模 RL 训练,表示工程也是一条路。
局限性 / 可改进方向¶
- 对比向量的计算仍需少量 long CoT 配对样本——虽然很少但不是完全零样本
- 表示工程的可解释性仍有限——为什么中间层效果最好缺乏理论解释
- 在超大模型(70B+)上的效果未验证
- 注入强度需要超参调节——过强可能导致输出退化
相关工作与启发¶
- vs SFT on long CoT: SFT 修改参数来学习 long CoT;GLoRE 修改激活来激活已有能力——不同层次
- vs 提示工程("请详细思考"): 提示仅在输入层面引导,效果有限;GLoRE 在表示层面直接操纵——更深层
- vs Disentangling Memory & Reasoning: 那篇用 token 分离记忆和推理;本文用表示向量分离短/长思考——互补视角
- vs RepE/Activation Steering(Zou et al.): 用表示工程控制安全性/真实性;本文首次用于控制推理深度——新应用
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次从表示空间角度理解long CoT,发现+方法双重创新
- 实验充分度: ⭐⭐⭐⭐⭐ 域内+跨域+消融+表示分析+多模型
- 写作质量: ⭐⭐⭐⭐⭐ 发现→假设→方法→验证的逻辑链完美
- 价值: ⭐⭐⭐⭐⭐ 对理解和激活LLM推理能力有根本性贡献