CBMAS: Cognitive Behavioral Modeling via Activation Steering¶

arXiv: 2601.06109
会议: CogInterp @ NeurIPS 2025（Workshop）
作者: Ahmed H. Ismail, Anthony Kuang, Ayo Akinkugbe, Kevin Zhu, Sean O'Brien
机构: 多机构合作（以论文页为准）
代码: https://github.com/shimamooo/CBMAS

基本信息¶

CBMAS 提出一个连续激活干预诊断框架，将传统“前后对比式”认知偏差分析扩展为可解释的干预轨迹分析，通过 alpha 强度扫描、logit-lens 偏置曲线与层位敏感性分析，揭示 LLM 行为翻转临界点与跨层演化机制。

激活 steering 已被用于控制 LLM 行为，但很多分析停留在： - 干预前 vs 干预后的离散比较； - 缺乏对“干预强度连续变化”过程的刻画； - 难以回答偏差从哪一层开始、在哪个强度突然翻转。

CBMAS 关注的是诊断而非单点控制：把行为变化视为可测量轨迹。

如何建立一个连续、可解释、可复现的激活 steering 分析框架，把高层行为偏差评估与低层表征动力学连接起来？

对 steering 强度 α 进行密集扫描，而非固定几个点： - 观察行为指标随 α 的完整曲线； - 识别非线性区间与突变区间； - 定位“tipping point”（小幅强度变化引发行为翻转）。

在不同层读取 token logits 的偏置变化： - 显示干预信号如何沿层深传播； - 对比不同任务/偏差类型的层级响应模式； - 辅助判断 steering 向量是否作用于预期表征子空间。

系统评估“在哪一层、哪个注入位点”干预最有效： - 形成层位敏感性图谱； - 提供更可控的干预策略建议； - 避免盲目全层注入导致副作用。

论文提供 CLI 和配套数据集，支持多类认知行为的标准化诊断流程。