跳转至

Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation Engineering

会议: ACL 2025
arXiv: 2503.11314
代码: https://github.com/txy77/GLoRE
领域: LLM 推理
关键词: 长思维链, 表示工程, 跨领域推理, 无训练方法, 慢思考

一句话总结

从表示空间角度发现 LLM 将长 CoT 推理编码为一种与普通 CoT 明确区分的通用能力,提出 GLoRE(General Long CoT Reasoning via Representation Engineering)——通过对比推理模式注入和领域特定表示调整来解锁长 CoT 能力,无需训练即可在域内和跨域场景下超越 SFT 方法。

研究背景与动机

  1. 领域现状:慢思考推理模型(o1、DeepSeek-R1)通过长思维链(long CoT)——包含规划、验证、回溯策略的详细推理——大幅提升了 LLM 在复杂推理任务上的表现。研究发现 long CoT 能力可以用少量示例高效激发并跨任务迁移。
  2. 现有痛点:(a) 不清楚 long CoT 是否是 LLM 中一种"通用且独立"的能力,还是特定于训练任务;(b) 跨领域迁移在某些领域效果差——数学领域迁移好但物理等其他领域迁移差;(c) 不是所有领域都能容易构造高质量 long CoT 数据。
  3. 核心矛盾:long CoT 能力似乎是通用的(少量数据即可激发+可迁移),但领域迁移又不完全——说明有通用部分也有领域特定部分,需要分离理解。
  4. 本文要解决什么? 从表示工程角度理解和利用 long CoT 的通用性与领域特定性,无需训练即可跨领域解锁 long CoT 能力。
  5. 切入角度:用表示工程分析 LLM 内部的 long CoT 表示——发现 long CoT 和 vanilla CoT 在表示空间中占据不同区域,且这种区分跨领域一致。据此提出直接操纵表示来切换推理模式。
  6. 核心idea一句话:long CoT 是 LLM 表示空间中的一个独立"区域"——通过表示注入直接将模型推到该区域即可无训练激活。

方法详解

整体框架

GLoRE 通过两步表示注入:(1) 对比推理模式注入——计算 long CoT 与 vanilla CoT 的表示差值(对比向量),注入到 LLM 中间层的激活中,将模型从"vanilla CoT 区域"推到"long CoT 区域";(2) 领域特定表示注入——对目标领域的少量示例提取领域表示向量并注入,将模型从通用 long CoT 区域精确引导到目标领域的精确空间。

关键设计

  1. 表示空间分析(发现):
  2. 做什么:证明 long CoT 在表示空间中是一种独立的通用能力
  3. 核心发现:(a) long CoT 的表示在各层都聚集在特定区域,与 vanilla CoT 明确分离;(b) 不同领域的 long/vanilla CoT 对比方向相似——说明"切换到 long CoT"的方向是通用的
  4. 设计动机:这两个发现支撑了"通过表示注入切换推理模式"的可行性

  5. 对比推理模式注入(Contrastive Reasoning Pattern):

  6. 做什么:将模型从 vanilla CoT 推向 long CoT
  7. 核心思路:收集少量 long/vanilla CoT 配对示例,计算各中间层的表示差值(\(\Delta h = h_{long} - h_{vanilla}\)),在推理时将这个差值向量加到对应层的激活中
  8. 设计动机:类似 InstructionRepresentation 的做法——通用的推理模式切换不需要改参数,只需在表示空间中"推一把"

  9. 领域特定表示调整:

  10. 做什么:将通用 long CoT 精调到目标领域
  11. 核心思路:对目标领域的问题提取领域表示向量(不需要答案,只需问题),注入以引导模型关注领域特定的知识和推理模式
  12. 设计动机:通用 long CoT 在数学上表现好但物理上差——因为物理需要不同的领域知识。领域特定注入弥补了这个缺口

损失函数 / 训练策略

  • 完全无需训练——纯推理时表示操纵
  • 仅需少量标注的 long/vanilla CoT 配对用于计算对比向量
  • 支持多种 LLM 骨干(Qwen2.5-7B、LLaMA3.1-8B)

实验关键数据

主实验(Qwen2.5-7B-Instruct)

方法 数学(域内) 物理(跨域) 化学(跨域) 说明
Vanilla CoT 基线 基线 基线 短思维链
提示工程(模拟长CoT) 轻微提升 轻微提升 轻微提升 不引导深度思考
SFT (数学长CoT数据) 训练方法
GLoRE (无训练) 最高 超越SFT

消融实验

配置 效果 说明
仅对比推理注入 显著提升 通用long CoT切换有效
+ 领域特定注入 进一步提升 领域调整必要
不同注入层 中间层最佳 与表示工程文献一致
对比样本数量 10-50即可 数据高效

关键发现

  • GLoRE 无训练即超越 SFT——只操纵表示就比在数千 long CoT 样本上微调还好
  • long CoT 确实是 LLM 的通用能力——不同领域的对比方向相似度高达 0.8+
  • 领域特定表示对跨域迁移至关重要——仅通用注入在物理等非数学领域提升有限
  • 中间层(~50%深度)是注入的最佳位置——太浅影响不足,太深可能破坏已有信息
  • 仅需 10-50 个对比样本——数据效率极高

亮点与洞察

  • "long CoT 是表示空间中一个独立区域"的发现具有根本性意义——说明 LLM 已经有慢思考的潜力,只需要被"引导"到正确的表示区域。
  • 无需训练即超越 SFT 说明表示工程在激活已有能力时比参数更新更高效——因为能力已经在参数中了,只需要正确的"激活信号"。
  • 通用部分+领域特定部分的二元分解为理解 long CoT 提供了清晰框架——对比向量是"怎么思考"(通用),领域表示是"用什么知识思考"(特定)。
  • 该方法可在推理时动态切换——需要深度思考时注入,不需要时不注入,灵活可控。
  • 对 o1-like 模型的研究和开发有重要启发——不一定需要大规模 RL 训练,表示工程也是一条路。

局限性 / 可改进方向

  • 对比向量的计算仍需少量 long CoT 配对样本——虽然很少但不是完全零样本
  • 表示工程的可解释性仍有限——为什么中间层效果最好缺乏理论解释
  • 在超大模型(70B+)上的效果未验证
  • 注入强度需要超参调节——过强可能导致输出退化

相关工作与启发

  • vs SFT on long CoT: SFT 修改参数来学习 long CoT;GLoRE 修改激活来激活已有能力——不同层次
  • vs 提示工程("请详细思考"): 提示仅在输入层面引导,效果有限;GLoRE 在表示层面直接操纵——更深层
  • vs Disentangling Memory & Reasoning: 那篇用 token 分离记忆和推理;本文用表示向量分离短/长思考——互补视角
  • vs RepE/Activation Steering(Zou et al.): 用表示工程控制安全性/真实性;本文首次用于控制推理深度——新应用

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次从表示空间角度理解long CoT,发现+方法双重创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 域内+跨域+消融+表示分析+多模型
  • 写作质量: ⭐⭐⭐⭐⭐ 发现→假设→方法→验证的逻辑链完美
  • 价值: ⭐⭐⭐⭐⭐ 对理解和激活LLM推理能力有根本性贡献