CBMAS: Cognitive Behavioral Modeling via Activation Steering¶

会议: NeurIPS 2025
arXiv: 2601.06109
代码: 有
领域: 可解释性 / LLM行为分析
关键词: 激活引导, 认知偏差, 偏差响应曲线, logit lens, 层敏感性分析

一句话总结¶

CBMAS提出一个将激活引导作为连续诊断工具的框架，通过密集α扫描和注入-读取层解耦，将认知偏差分析从"有偏差/无偏差"的二元判断升级为可追踪翻转点、传播路径和衰减模式的连续轨迹分析，在GPT-2 Small上揭示了安抚行为在浅层强烈编码但向深层快速衰减的规律。

研究背景与动机¶

LLM在不同prompt和上下文中表现出各种认知行为（谄媚、安抚、满足化、顺从等），但这些行为在模型内部的编码方式不可预测且难以控制。现有的偏差评估方法存在两个根本问题：

第一，偏差被当作二元现象处理。传统方法通过成对prompt比较（如"He is a doctor" vs "She is a doctor"）来检测偏差的存在或程度，但这种"快照式"方法忽视了偏差在模型内部的连续潜在结构——偏差并非简单地"有"或"没有"，而是存在一个从萌生到翻转到饱和的连续动态过程。

第二，高层行为评估与低层表示分析之间存在鸿沟。机制可解释性已经揭示了注意力头、MLP层和残差流中的精细结构，但这些工具很少被应用于认知行为研究。结果是我们既无法解释模型为什么表现出特定认知偏差，也无法在不重新训练的情况下精准干预。

CBMAS的核心想法是将激活引导（activation steering）从一种控制手段转化为一种诊断工具。通过构建认知行为方向上的引导向量，并沿着引导强度α和模型层深度两个维度进行密集扫描，可以产生偏差响应曲线（Bias Response Curve），从而揭示离散快照方法无法捕捉到的翻转点、传播模式和层位敏感性。

方法详解¶

整体框架¶

CBMAS的分析流程分为四步：（1）从对比prompt对数据集中提取引导向量；（2）在指定的注入层添加引导向量，并在多个读取层观察效果；（3）沿α范围密集扫描，收集多维指标；（4）分析偏差响应曲线，识别翻转点和传播规律。整个框架的关键创新在于将注入层（injection layer）和读取层（readout layer）解耦，形成(注入层, 读取层, α)三维分析空间。

关键设计¶

对比prompt数据集与引导向量构建:
- 功能：为每种认知行为（谄媚、安抚、满足化、顺从）提取表示偏差方向的向量
- 核心思路：每个数据点包含一对结构相同但选择相反的prompt。选项A代表表现目标认知行为的回答，选项B代表中性回答。对于给定层L和注入位点S，引导向量定义为 \(\mathbf{v}_L^{(S)} = \mathbb{E}[\mathbf{h}_L^{(S)}(p^{(A)}) - \mathbf{h}_L^{(S)}(p^{(B)})]\)，即所有对比对在该层的隐状态差异的均值
- 设计动机：通过多样的prompt对覆盖目标行为的各种表现形式，使引导向量代表行为的一般方向而非某个特定语境。每种行为提供200个对比例子，涵盖建议咨询、技术问题、健康、金融等多个领域
偏差响应曲线（BRC）协议:
- 功能：将偏差分析从离散快照扩展为连续轨迹
- 核心思路：在用户定义的α范围（默认-10到10，步长0.5）内密集扫描。对每个α值，在注入层修改隐状态 \(\mathbf{h} \leftarrow \mathbf{h} + \alpha \mathbf{v}\)，然后在读取层记录六种指标：Logit差异 \(\Delta_{logit}(\alpha) = \text{logit}(y_A|x,\alpha) - \text{logit}(y_B|x,\alpha)\)、概率差异、几率比、KL散度（衡量对整体分布的扰动程度）、逐token困惑度（流畅性代理）和排名轨迹（目标token排名变化）
- 设计动机：强制二元输出——prompt以"I choose ("结尾，迫使模型在A/B之间选择。同时使用随机向量和垂直于偏差向量的正交向量作为控制组，以确认观察到的效果确实来自偏差方向
注入-读取层解耦分析:
- 功能：追踪偏差信号从注入点向后续层的传播和变化
- 核心思路：对所有满足 \(L_{read} > L_{inj}\) 的(注入层, 读取层)组合进行分析，形成"偏差传播图谱"。支持对不同注入位点（hook_resid_mid、hook_resid_post等）的对比分析
- 设计动机：如果只在注入层观察效果，无法知道干预是否真正改变了模型的最终行为，还是被后续层"洗掉"了。解耦设计允许追踪信号的放大、衰减和消散

损失函数 / 训练策略¶

CBMAS是纯分析框架，不涉及模型训练。所有分析在推理时完成，使用TransformerLens进行激活层面的干预和读取。实验固定seed=42，整套实验可在单块A40 GPU上约4-7分钟内完成复现。

实验关键数据¶

主实验¶

在GPT-2 Small（12层）上对reassurance（安抚行为）引导向量的分析结果：

注入层→读取层	α翻转区域	Logit差异斜率	KL散度	控制组表现
L0→L1	α≈0	陡峭正斜率	低且对称	平坦
L0→L6	α≈0	中等斜率	低	平坦
L0→L11	无明显翻转	近乎平坦	低且对称	平坦
L1→L6	α≈0	单调递增	低	平坦
L3→L4	α≈0	排名翻转	—	—
L3→L6	α≈0	连续logit轨迹	低	平坦

消融实验¶

对比配置	关键观察	说明
偏差向量 vs 随机向量	偏差向量产生单调轨迹，随机向量平坦	效果来自偏差方向而非噪声
偏差向量 vs 正交向量	正交向量同样平坦	双重控制增强结论可信度
L0注入 vs L1注入	L1产生更干净的单调信号	L0更嘈杂，表示结构在L1后更稳定
浅层读取 vs 深层读取	浅层(L1)信号强，深层(L11)衰减殆尽	安抚行为在浅层编码后被逐渐稀释

关键发现¶

翻转点客观存在：在α≈0附近，模型行为发生质变——从偏好选项A到偏好选项B的转变是突变而非渐变，这是离散评估方法根本无法捕捉到的现象
浅层编码、深层衰减：安抚行为方向在L1处效果极强，但随层深度增加迅速衰减，到L11几乎完全消散。这意味着该认知行为的表示在模型早期就已建立
注入位点决定信号质量：L1比L0更适合作为注入点，产生更干净的因果信号。这暗示token嵌入层（L0）还未建立稳定的行为表示
干预不破坏流畅性：KL散度在整个α扫描范围内保持低水平且对称分布，说明激活引导是可控手段

亮点与洞察¶

从二元到连续的范式转变：传统方法只问"有没有偏差"，CBMAS追问"偏差在哪里产生、如何传播、何时翻转、何时消散"，这是对偏差分析范式的本质性升级
注入-读取解耦是核心创新：这种设计把一维的α扫描扩展为三维的探测空间，使得"偏差传播图谱"的构建成为可能
控制组设计严谨：同时使用随机向量和正交向量作为对照，比单一控制组更有说服力地排除了噪声假说
实用工具和数据集：提供CLI工具和四种认知行为（谄媚、安抚、满足化、顺从）的200例数据集，有较好的可复现性
"L1定型"现象值得关注：暗示认知行为的表示分布可能存在层级组织结构

局限与展望¶

模型规模严重不足：仅在GPT-2 Small（117M参数，12层）上验证，结论是否适用于现代大模型（LLaMA-70B、GPT-4等80+层模型）完全不确定，偏差编码的层级分布可能完全不同
仅分析next-token预测：引导效果在长文本自回归生成中是否持续、累积还是衰减未做研究
缺乏因果分析：α扫描揭示的是相关性模式，但没有回答"哪些注意力头或MLP组件负责偏差编码"，需结合activation patching等因果方法
数据集规模和质量：每种行为仅200个例子，部分由LLM生成，手工构造的对比prompt对可能引入偏差
行为维度有限：仅测试4种认知行为，LLM可能表现出的认知偏差还有确认偏差、锚定效应、框架效应等

评分¶

新颖性: ⭐⭐⭐⭐ 从离散到连续的分析范式转变有创新性，注入-读取解耦设计巧妙
实验充分度: ⭐⭐⭐ 仅在GPT-2 Small上实验规模严重不足，但在该模型上的分析维度覆盖较全面
写作质量: ⭐⭐⭐⭐ 方法描述清晰，数学形式化严谨，图表信息量大
价值: ⭐⭐⭐ 框架设计合理但需在现代大模型上验证才能真正发挥影响力