ActivationReasoning: Logical Reasoning in Latent Activation Spaces¶

会议: ICLR 2026
arXiv: 2510.18184
代码: https://github.com/ml-research/ActivationReasoning
领域: LLM可解释性 / 推理
关键词: 稀疏自编码器, 逻辑推理, 潜空间干预, 概念组合, 模型控制

一句话总结¶

提出 ActivationReasoning (AR) 框架，在 LLM 的潜在激活空间（通过 SAE 提取的特征）上嵌入显式逻辑推理，通过三阶段流程（发现概念表征→检测激活命题→逻辑规则推理）实现多跳推理、概念组合和安全控制，在 PrOntoQA 上 8B 模型达到 95%+ 准确率超越 GPT-4o。

研究背景与动机¶

领域现状：SAE 使 LLM 的隐含激活更可解释，暴露了与人类概念对齐的潜在特征。推理型 LLM (如 o1, R1) 通过扩展推理链提升性能但推理过程不透明。
现有痛点：SAE 特征是被动和脆弱的——可能多义 (polysemous)、上下文不稳定、或过于底层。关键缺陷是 SAE 没有组合和高阶推理的机制。无法从"桥"+"旧金山"+"美国"推导出"金门大桥"。
核心矛盾：逻辑推理需要离散命题单元和组合规则，但 LLM 依赖连续、纠缠的表征。SAE 虽提供了近似离散的特征，但缺乏推理的形式化框架。
本文要解决什么？ 在 LLM 的潜在空间中嵌入显式逻辑推理能力，实现可解释且可控的结构化推理。
切入角度：将 SAE 特征视为逻辑命题，在其上定义和应用逻辑规则（合取、析取、蕴含、否定），通过前向链推理产生新的高阶命题。
核心 idea 一句话：把 SAE 特征当命题、把用户定义的逻辑规则当推理引擎、在激活空间做前向链推理，再通过激活引导来控制 LLM 生成。

方法详解¶

整体框架¶

三阶段流水线：(1) 在 SAE 空间中识别概念表征并建立概念字典 \(\mathcal{D}\)；(2) 推理时检测 token 级激活，映射为逻辑命题形成激活矩阵 \(A\)；(3) 对 \(A\) 应用逻辑规则推导新命题得到增强矩阵 \(A'\)，用于下游分析和 LLM 引导。

关键设计¶

概念表征的三种形式:
做什么：将 SAE 特征组织为概念的潜表征
核心思路：单特征 \(\mathcal{R}_{single}\)（一个 SAE 特征=一个概念）、多特征 \(\mathcal{R}_{multi}\)（加权聚合多个 SAE 特征）、关系特征 \(\mathcal{R}_{relation}\)（决策树建模特征间的结构化交互）。自动提取通过 \(r_c = \arg\max(\mathbb{E}[l_t|y=1] - \mathbb{E}[l_t|y=0])\)
设计动机：单特征假设常不成立（多义性问题），多特征无法建模交互（如"仇恨"需要诽谤+刻板印象同时激活但排除教育用途），关系特征用决策树平衡表达力和可解释性
激活命题化和逻辑推理:
做什么：将 token 级激活转为逻辑命题，通过前向链推理
核心思路：激活矩阵 \(A_{local}[c,t] = \max(a_{c,t} - \tau_c, 0)\)，\(A_{global}[c] = \max(\text{Agg}_{t} a_{c,t} - \tau_c, 0)\)。用户定义逻辑规则如 "Bridge ∧ SF ∧ USA → Golden Gate Bridge"，前向链推理直到不动点
设计动机：SAE 特征空间可能没有"金门大桥"的直接特征，但有"桥"、"旧金山"和"美国"的特征——逻辑组合填补了 SAE 的表达力缺口
激活引导控制:
做什么：利用推理结果 \(A'\) 中激活的概念来引导 LLM 生成
核心思路：\(h' = h + \alpha \cdot \frac{(SAE_D[r_c] \times w) \times \|h\|_2}{\|SAE_D[r_c]\|_2}\)，通过调整激活向量来促进或抑制特定概念
设计动机：纯分析已足够有价值，但控制能力使 AR 从可解释性工具升级为对齐工具——可在推理时强制安全约束

损失函数 / 训练策略¶

AR 本身不需要训练 LLM。概念提取使用简单的统计方法（均值差、决策树）。规则由用户定义。推理时零额外训练成本。

实验关键数据¶

主实验¶

PrOntoQA 多跳推理 (准确率%↑):

模型	1跳	3跳	5跳
Llama-3.1-8B	51.0	50.8	50.3
+ AR	95.0	95.6	95.3
Gemma-2-9B	48.5	47.5	47.9
+ AR	93.5	93.5	93.5
GPT-4o	95.5	88.0	79.5
DeepSeek-R1-8B	86.0	79.5	67.5

Rail2Country 元概念泛化:

模型	显式概念	元概念(比喻)
Llama-3.1-8B	41.0	29.7
+ AR	74.7	62.7

消融实验¶

概念表征类型	BeaverTails 安全检测 F1
\(\mathcal{R}_{single}\)	较低
\(\mathcal{R}_{multi}\)	中等
\(\mathcal{R}_{relation}\)	最高

关键发现¶

AR 使 8B 模型在多跳推理上超越 GPT-4o 和 DeepSeek-R1——8B+AR(95.3%) vs GPT-4o(79.5%) 在 5 跳推理上
关键：AR 的性能不随推理深度退化，而所有基线模型（包括 GPT-4o）在跳数增加时准确率显著下降
元概念泛化（如"像番茄一样的颜色"→"红色"）验证了 AR 超越字面匹配的能力
BeaverTails 安全任务中 \(\mathcal{R}_{relation}\) 优于 \(\mathcal{R}_{single}\) 和 \(\mathcal{R}_{multi}\)——说明安全概念需要结构化特征交互

亮点与洞察¶

SAE 特征作为逻辑命题的桥梁：这是连接神经网络连续表征和符号推理离散命题的最自然方式——SAE 特征本身就设计为近似单义的，天然适合作为命题
8B 超越 GPT-4o 的推理：不是通过更好的训练而是通过在已有表征上加逻辑推理层——模型已经"知道"答案，只是缺乏组合推理的能力
模块化和可审计：整个推理链条是透明的——概念从哪来、规则如何应用、结论如何得出，每一步都可检查和修改
跨模型迁移：同样的框架在 Llama 和 Gemma 上都有效，说明 SAE 特征的命题化是模型无关的

局限性 / 可改进方向¶

逻辑规则需要用户手动定义，自动规则发现是重要的未来方向
概念提取依赖 token 级标签数据，跨领域泛化可能需要新的标注
目前仅支持命题逻辑，一阶逻辑（含量词和变量）的扩展有待探索
SAE 特征质量直接影响 AR 性能——如果 SAE 特征不够单义，推理可能不可靠
规则应用的计算开销随概念数和规则数增长

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将逻辑推理嵌入 LLM 潜在空间的思路既自然又强大，是 SAE 应用的重大拓展
实验充分度: ⭐⭐⭐⭐⭐ 四个互补任务（多跳推理/元概念/自然语言推理/安全），双模型验证
写作质量: ⭐⭐⭐⭐⭐ 从动机到方法到实验叙述流畅，Golden Gate Bridge 的运行示例贯穿全文
价值: ⭐⭐⭐⭐⭐ 为 LLM 的可解释推理和可控对齐提供了全新范式