跳转至

PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra

会议: ICLR 2026
arXiv: 2602.15669
代码: GitHub (论文声明公开)
领域: 模型压缩 / LLM效率 / 可解释性控制
关键词: personality control, activation steering, vector algebra, inference-time, Big Five

一句话总结

提出 PERSONA 框架,通过在激活空间中提取近似正交的人格向量并进行向量代数运算(缩放、加法、减法),实现免训练的动态组合式人格控制,在 PersonalityBench 上达到 9.60 分,几乎匹配 SFT 上界 9.61。

研究背景与动机

  1. LLM 人格控制在医疗、教育和社会模拟中至关重要,但现有方法存在明显缺陷
  2. Prompting 方法(如简单提示词、P²归纳)不稳定且不一致,难以精确控制人格表达
  3. 微调方法(SFT / LoRA)需要大量计算资源,每种人格配置都要独立训练
  4. 更根本的问题:现有方法将人格视为静态和整体式的,无法捕捉人类行为特征的动态性和组合性
  5. 核心洞察:人格特征在模型的表示空间中表现为可提取的、近似正交的方向,支持代数运算
  6. 这将人格控制问题从文本工程或梯度优化转化为高维空间中的向量算术问题

方法详解

整体框架

PERSONA 包含四个紧密集成的组件: - Persona-Base:提取 Big Five (OCEAN) 十个人格极点的正交向量 - Persona-Algebra:通过向量算术实现组合式人格操控 - Persona-Flow:推理时动态自适应人格组合 - Persona-Evolve:包含 800 个多轮对话场景的评估基准

关键设计

设计1:Persona-Base — 人格向量提取 - 做什么:从模型激活空间中提取 OCEAN 五大维度十个极点的对比向量 - 核心思路:使用对比激活分析(Contrastive Activation Analysis):(1) 生成对比系统提示(激发/抑制特征);(2) 收集正负条件下的残差流激活;(3) 计算均值差得到方向向量 \(v_l\) - 设计动机:构建人格控制的基础"原子"操作单元。向量间的余弦相似度验证了其近似正交性,对立特征对呈强负相关

设计2:Persona-Algebra — 向量代数运算 - 做什么:验证并利用人格向量支持的数学运算 - 核心思路:三种运算——标量乘法(\(\alpha \cdot v\))控制特征强度、向量加法(\(v_{outgoing} + v_{compassionate}\))实现多特征组合、向量减法(\(v_{outgoing} - v_{solitary}\))实现特征抑制 - 设计动机:将 BFI-44 问卷改编为行为评估,证明向量运算能产生可预测的人格分数变化。Pearson 相关系数在大多数特征上超过 0.9

设计3:Persona-Flow — 动态推理控制 - 做什么:在推理时根据对话上下文动态调整人格表达 - 核心思路:预测-引导(predict-then-steer)两阶段机制。阶段1:分析对话上下文,预测每个维度的调整系数 \(\alpha_i \in [-2, +2]\);阶段2:计算组合向量 \(v_{composite} = \sum_{i \in OCEAN} \alpha_i \cdot v_i\),注入残差流 - 设计动机:实现无需预设脚本的实时人格调制,支持上下文感知的自适应控制

损失函数 / 训练策略

本方法是完全免训练的(training-free),不涉及梯度更新。核心操作为激活空间中的残差加法: $\(h_l \leftarrow h_l + \alpha \cdot v_l\)$ 其中 \(\alpha\) 为引导系数,\(v_l\) 为从最优层提取的人格向量。正/负 \(\alpha\) 分别放大/抑制相应特征极。

实验关键数据

主实验

方法 Mean Score↑ Variance↓ 训练需求
PERSONA-Base 9.60 0.74 免训练
NPTI 9.43 0.49 免训练
9.43 0.83 免训练
Simple Prompt 8.39 0.96 免训练
PAS 6.93 1.71 免训练
ActAdd 8.20 2.10 免训练
SFT (上界) 9.61 0.49 需微调

消融实验

模型 TA RC RA IF Overall
Qwen3-4B 92.2 90.6 92.4 49.1 90.8
Qwen2.5-14B 84.8 86.4 84.8 59.3 85.4
Llama-3.1-8B 84.9 81.4 85.6 57.2 83.5
Qwen2.5-7B 84.7 84.4 85.0 61.4 83.4
Ministral-8B 74.3 73.2 74.2 48.0 73.2

关键发现

  1. 免训练方法 PERSONA-Base(9.60)几乎匹配 SFT 上界(9.61),且方差更高但可接受
  2. 向量的标量乘法与 BFI-44 维度分数呈强线性关系,证实人格特征的线性可编辑性
  3. 部分特征存在不对称引导效应:与模型安全训练冲突的特征(如 self-interested)即使高系数也难以激活
  4. 在 MMLU/TruthfulQA 上 Persona-Flow 保持或略微提升模型通用能力,不产生副作用
  5. 更大模型容量增强人格控制能力:Qwen2.5 系列从 3B→14B 整体胜率从 78.4% 提升到 85.4%

亮点与洞察

  1. 极致简洁的方法:完全免训练,仅通过向量加减法实现 SFT 级人格控制,计算开销极低
  2. 几何视角的突破:将人格控制从"文本工程"转化为"向量算术",揭示了 LLM 表示空间的可解释结构
  3. 组合性 + 动态性:通过 Persona-Flow 的 predict-then-steer 机制,首次实现上下文感知的实时人格调制
  4. 正交性验证扎实:通过余弦相似度热力图和因果干预实验验证向量间的独立性
  5. Persona-Evolve 基准构建了 800 个多轮对话场景,填补了动态人格评估的空白

局限性 / 可改进方向

  1. 不对称引导效应:与安全对齐冲突的特征难以激活(如 self-interested 得分仅 20.8),限制了完全自由的人格控制
  2. Information Fidelity 指标偏低(48-61%),表明维持事实准确性同时调整人格仍是挑战
  3. 向量提取依赖特定模型:当前使用 Qwen2.5-7B 提取向量,跨模型迁移方案尚不完善
  4. Persona-Flow 的额外推理开销:predict-then-steer 需要额外的中间推理,增加延迟
  5. 目前仅在 Big Five 框架下验证,能否扩展到更细粒度的人格维度有待探索

相关工作与启发

  • Representation Engineering(Rimsky et al., 2024; Turner et al., 2023):为激活引导提供方法论基础
  • NPTI(Deng et al., 2025):基于神经元的人格控制方法,但不支持组合操作
  • ActAdd(Turner et al., 2023):残差流修改的先驱,但人格控制不够精确(方差 2.10)
  • 启发:这种向量代数视角可能推广到其他 LLM 行为控制(如风格、知识注入、安全对齐)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将人格控制问题转化为向量代数运算的视角非常新颖,Persona-Flow 动态控制机制也是首创
  • 实验充分度: ⭐⭐⭐⭐ 多模型、多基准评估充分,但部分指标(IF)表现一般
  • 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,从提取到代数到动态控制的递进逻辑非常流畅
  • 价值: ⭐⭐⭐⭐⭐ 免训练方法匹配 SFT 上界,在人格控制领域具有里程碑意义,实用价值极高