Big5-Chat: Shaping LLM Personalities Through Training on Human-Grounded Data¶

会议: ACL 2025
arXiv: 2410.16491
代码: github
领域: LLM/NLP
关键词: 人格特质, 大五人格, SFT, DPO, 心理语言学

一句话总结¶

提出了 Big5-Chat 数据集（10万条对话），通过 SFT 和 DPO 训练方法将真实人类大五人格特质嵌入 LLM，效果显著优于基于提示的方法，且发现高尽责性/宜人性、低外向性/神经质的人格配置能提升模型推理能力。

将逼真的人格特质嵌入 LLM 对提升对话代理、教育工具和心理健康平台的真实性至关重要。然而，现有方法主要依赖提示词来诱导人格（如"你是派对的灵魂"），存在三个核心问题：

缺乏心理语言学深度：提示诱导的人格仅反映表面特征，无法捕捉人类在语言中表达人格的微妙方式

评估效度问题：用心理问卷描述来诱导人格，再用同一套问卷来评估，存在严重的循环论证

推理模式偏差：基于角色的人格提示会过度约束 LLM 的行为，导致推理能力退化

根本原因在于缺乏大规模、基于真实人类行为的人格标注数据集，限制了训练方法的探索。

PsychSteer 方法包含两个阶段：(1) 训练专家生成器模型，(2) 利用 DExperts 框架生成 Big5-Chat 数据集，然后进行 SFT/DPO 对齐。

DExperts 框架：在解码时通过专家生成器引导基础模型输出。在每个时间步 t，将基础模型的 logits 与专家生成器的 logits 加权组合：\(z_t^{combined} = z_t^{base} + \gamma z_t^{expert}\)，其中 \(\gamma\) 控制人格特质的影响强度。
专家生成器模型：基于 PsychGenerator 数据集（84.6万条 Facebook 帖子，标注了大五人格分数），对 LLaMA-3-8B-Instruct 进行微调，训练 5 个独立的专家生成器，分别对应开放性、尽责性、外向性、宜人性和神经质。将浮点数标签转换为"高/低"二值标签。
Big5-Chat 数据集构建：从 SODA 社交对话数据集随机采样 1 万个场景，利用 PsychSteer 框架为每个场景生成配对对话（高/低人格水平），共产生 10 万条单轮对话（每个特质 2 万条，高低各半）。
SFT 与 DPO 训练：使用 LoRA 进行高效微调。DPO 训练时，负样本来自同一特质但相反水平的响应（如目标为高开放性，正样本为高开放性回复，负样本为低开放性回复）。

人格评估（BFI 测试，LLaMA-3-70B-Instruct）：

方法	高特质平均 ↑	低特质平均 ↓	特点
Direct	3.8	3.8	无人格诱导
Prompt-Inst	5.0	1.6	指令提示
SFT	5.0	1.2	训练方法
DPO	5.0	1.4	训练方法

推理评估（LLaMA-3-70B-Instruct，SFT 平均）：

推理领域	Direct	SFT 平均	最佳特质
社会推理	46.6	50.0	高开放性 50.3
数学推理	59.8	63.6	高宜人性 65.0
幻觉检测	58.6	54.4	高尽责性 55.6
常识推理	53.7	79.4	高开放性 79.5
通用推理	54.0	53.2	高尽责性 53.7

人格-认知桥梁：首次系统证明 LLM 中通过训练嵌入人格特质后，推理能力的变化模式与心理学研究中人类的表现模式一致，说明训练方法确实捕捉到了深层心理语言学特征
数据集构建方法创新：巧妙地将领域特定的人格标注数据（Facebook 帖子）与通用社交场景（SODA）通过 DExperts 框架结合，解决了人格数据稀缺问题
双重评估框架：不仅评估人格诱导效果（BFI、IPIP-NEO），还评估对推理能力的影响，提供了更全面的视角