ActivationReasoning: Logical Reasoning in Latent Activation Spaces¶
会议: ICLR 2026
arXiv: 2510.18184
代码: https://github.com/ml-research/ActivationReasoning
领域: LLM可解释性 / 推理
关键词: 稀疏自编码器, 逻辑推理, 潜空间干预, 概念组合, 模型控制
一句话总结¶
提出 ActivationReasoning (AR) 框架,在 LLM 的潜在激活空间(通过 SAE 提取的特征)上嵌入显式逻辑推理,通过三阶段流程(发现概念表征→检测激活命题→逻辑规则推理)实现多跳推理、概念组合和安全控制,在 PrOntoQA 上 8B 模型达到 95%+ 准确率超越 GPT-4o。
研究背景与动机¶
- 领域现状:SAE 使 LLM 的隐含激活更可解释,暴露了与人类概念对齐的潜在特征。推理型 LLM (如 o1, R1) 通过扩展推理链提升性能但推理过程不透明。
- 现有痛点:SAE 特征是被动和脆弱的——可能多义 (polysemous)、上下文不稳定、或过于底层。关键缺陷是 SAE 没有组合和高阶推理的机制。无法从"桥"+"旧金山"+"美国"推导出"金门大桥"。
- 核心矛盾:逻辑推理需要离散命题单元和组合规则,但 LLM 依赖连续、纠缠的表征。SAE 虽提供了近似离散的特征,但缺乏推理的形式化框架。
- 本文要解决什么? 在 LLM 的潜在空间中嵌入显式逻辑推理能力,实现可解释且可控的结构化推理。
- 切入角度:将 SAE 特征视为逻辑命题,在其上定义和应用逻辑规则(合取、析取、蕴含、否定),通过前向链推理产生新的高阶命题。
- 核心 idea 一句话:把 SAE 特征当命题、把用户定义的逻辑规则当推理引擎、在激活空间做前向链推理,再通过激活引导来控制 LLM 生成。
方法详解¶
整体框架¶
三阶段流水线:(1) 在 SAE 空间中识别概念表征并建立概念字典 \(\mathcal{D}\);(2) 推理时检测 token 级激活,映射为逻辑命题形成激活矩阵 \(A\);(3) 对 \(A\) 应用逻辑规则推导新命题得到增强矩阵 \(A'\),用于下游分析和 LLM 引导。
关键设计¶
- 概念表征的三种形式:
- 做什么:将 SAE 特征组织为概念的潜表征
- 核心思路:单特征 \(\mathcal{R}_{single}\)(一个 SAE 特征=一个概念)、多特征 \(\mathcal{R}_{multi}\)(加权聚合多个 SAE 特征)、关系特征 \(\mathcal{R}_{relation}\)(决策树建模特征间的结构化交互)。自动提取通过 \(r_c = \arg\max(\mathbb{E}[l_t|y=1] - \mathbb{E}[l_t|y=0])\)
-
设计动机:单特征假设常不成立(多义性问题),多特征无法建模交互(如"仇恨"需要诽谤+刻板印象同时激活但排除教育用途),关系特征用决策树平衡表达力和可解释性
-
激活命题化和逻辑推理:
- 做什么:将 token 级激活转为逻辑命题,通过前向链推理
- 核心思路:激活矩阵 \(A_{local}[c,t] = \max(a_{c,t} - \tau_c, 0)\),\(A_{global}[c] = \max(\text{Agg}_{t} a_{c,t} - \tau_c, 0)\)。用户定义逻辑规则如 "Bridge ∧ SF ∧ USA → Golden Gate Bridge",前向链推理直到不动点
-
设计动机:SAE 特征空间可能没有"金门大桥"的直接特征,但有"桥"、"旧金山"和"美国"的特征——逻辑组合填补了 SAE 的表达力缺口
-
激活引导控制:
- 做什么:利用推理结果 \(A'\) 中激活的概念来引导 LLM 生成
- 核心思路:\(h' = h + \alpha \cdot \frac{(SAE_D[r_c] \times w) \times \|h\|_2}{\|SAE_D[r_c]\|_2}\),通过调整激活向量来促进或抑制特定概念
- 设计动机:纯分析已足够有价值,但控制能力使 AR 从可解释性工具升级为对齐工具——可在推理时强制安全约束
损失函数 / 训练策略¶
AR 本身不需要训练 LLM。概念提取使用简单的统计方法(均值差、决策树)。规则由用户定义。推理时零额外训练成本。
实验关键数据¶
主实验¶
PrOntoQA 多跳推理 (准确率%↑):
| 模型 | 1跳 | 3跳 | 5跳 |
|---|---|---|---|
| Llama-3.1-8B | 51.0 | 50.8 | 50.3 |
| + AR | 95.0 | 95.6 | 95.3 |
| Gemma-2-9B | 48.5 | 47.5 | 47.9 |
| + AR | 93.5 | 93.5 | 93.5 |
| GPT-4o | 95.5 | 88.0 | 79.5 |
| DeepSeek-R1-8B | 86.0 | 79.5 | 67.5 |
Rail2Country 元概念泛化:
| 模型 | 显式概念 | 元概念(比喻) |
|---|---|---|
| Llama-3.1-8B | 41.0 | 29.7 |
| + AR | 74.7 | 62.7 |
消融实验¶
| 概念表征类型 | BeaverTails 安全检测 F1 |
|---|---|
| \(\mathcal{R}_{single}\) | 较低 |
| \(\mathcal{R}_{multi}\) | 中等 |
| \(\mathcal{R}_{relation}\) | 最高 |
关键发现¶
- AR 使 8B 模型在多跳推理上超越 GPT-4o 和 DeepSeek-R1——8B+AR(95.3%) vs GPT-4o(79.5%) 在 5 跳推理上
- 关键:AR 的性能不随推理深度退化,而所有基线模型(包括 GPT-4o)在跳数增加时准确率显著下降
- 元概念泛化(如"像番茄一样的颜色"→"红色")验证了 AR 超越字面匹配的能力
- BeaverTails 安全任务中 \(\mathcal{R}_{relation}\) 优于 \(\mathcal{R}_{single}\) 和 \(\mathcal{R}_{multi}\)——说明安全概念需要结构化特征交互
亮点与洞察¶
- SAE 特征作为逻辑命题的桥梁:这是连接神经网络连续表征和符号推理离散命题的最自然方式——SAE 特征本身就设计为近似单义的,天然适合作为命题
- 8B 超越 GPT-4o 的推理:不是通过更好的训练而是通过在已有表征上加逻辑推理层——模型已经"知道"答案,只是缺乏组合推理的能力
- 模块化和可审计:整个推理链条是透明的——概念从哪来、规则如何应用、结论如何得出,每一步都可检查和修改
- 跨模型迁移:同样的框架在 Llama 和 Gemma 上都有效,说明 SAE 特征的命题化是模型无关的
局限性 / 可改进方向¶
- 逻辑规则需要用户手动定义,自动规则发现是重要的未来方向
- 概念提取依赖 token 级标签数据,跨领域泛化可能需要新的标注
- 目前仅支持命题逻辑,一阶逻辑(含量词和变量)的扩展有待探索
- SAE 特征质量直接影响 AR 性能——如果 SAE 特征不够单义,推理可能不可靠
- 规则应用的计算开销随概念数和规则数增长
相关工作与启发¶
- vs 推理 LLM (o1, R1): 推理 LLM 通过链式推理改善但过程不透明;AR 在激活空间做推理,每步可审计
- vs 神经符号方法 (DeepProbLog): 传统神经符号需要端到端可微训练;AR 不训练模型,直接在推理时应用规则
- vs SAE 分析 (Anthropic): SAE 通常用于被动分析和特征可视化;AR 将 SAE 特征主动用于推理和控制
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将逻辑推理嵌入 LLM 潜在空间的思路既自然又强大,是 SAE 应用的重大拓展
- 实验充分度: ⭐⭐⭐⭐⭐ 四个互补任务(多跳推理/元概念/自然语言推理/安全),双模型验证
- 写作质量: ⭐⭐⭐⭐⭐ 从动机到方法到实验叙述流畅,Golden Gate Bridge 的运行示例贯穿全文
- 价值: ⭐⭐⭐⭐⭐ 为 LLM 的可解释推理和可控对齐提供了全新范式