跳转至

PERSIST: Persistent Instability in LLM's Personality Measurements

会议: AAAI 2026
arXiv: 2508.04826
代码: https://github.com/tosatot/PERSIST
领域: NLP生成 / LLM评估
关键词: LLM人格测量, 行为一致性, 推理模式, 对齐评估, 心理测量

一句话总结

PERSIST 框架系统评估 25 个开源 LLM(1B-685B)在 200 万+响应上的人格测量稳定性,发现即使 400B+模型在 5 分制量表上仍有 SD>0.3 的不稳定性,且 CoT 推理悖论性地增加变异性同时降低困惑度,LLM 适配问卷与传统人类问卷表现出相似的不稳定性。

研究背景与动机

  1. 领域现状:LLM 对齐和安全评估需要衡量模型的行为特征(大五人格、暗黑三元组等),通常使用心理学量表。

  2. 现有痛点:(1) 问题顺序、改写都可导致评分大幅变化;(2) 不清楚不稳定性是人类中心化问卷的伪影还是模型本身的问题;(3) 推理、会话历史等因素对稳定性的影响未被系统研究。

  3. 核心矛盾:无法可靠测量 LLM 行为特征→无法可靠评估对齐效果。

  4. 本文要解决什么? 全面量化 LLM 人格测量不稳定性的来源和程度。

  5. 切入角度:全因素设计——25模型×5人设×4问卷×250排列×100改写×推理/非推理×会话历史。

  6. 核心 idea 一句话:LLM 的人格测量不稳定性是持久的、结构性的,不能仅靠模型规模增长来解决。

方法详解

整体框架

PERSIST 三模块:生成引擎(vLLM)、响应处理(token 级 log 概率提取)、分析管道(层次聚合计算排列间 SD)。

关键设计

  1. 双版本问卷:BFI-44 + SD3(原版)+ BFI-LLM + SD3-LLM(替换人类特定概念),验证不稳定性是否为问卷设计的伪影
  2. 5种人设:Assistant(基线)、Buddhist、Teacher、Antisocial、Schizophrenia
  3. 稳定性指标:问题级 SD(跨250个排列)+ 困惑度 \(\exp(-\log p)\)
  4. 温度自适应推理:τ=0 确定性输出,τ=0.6 推理模式

损失函数 / 训练策略

纯评估研究,无训练。25 个模型通过 vLLM 和 HuggingFace Inference API 访问。

实验关键数据

主实验

发现 Spearman ρ p值 效应
模型规模↑ → 正面特质↑ 显著 0.001** 更"友善"
模型规模↑ → 负面特质↓ 显著 <0.001*** 更"温和"
模型规模↑ → 变异性↓ 显著 <0.001*** 更稳定
模型规模↑ → 困惑度 不显著 0.934 无关联

推理悖论

条件 变异性 困惑度
无推理
有推理(CoT) (p<0.001) (p<0.01)

会话历史的双刃剑效应

模型大小 有历史的效果 p值
<50B (n=19) 增加变异性 <0.001***
≥50B (n=4) 降低变异性 <0.001***

关键发现

  • 即使 400B+模型仍有 SD>0.3——规模不是解药
  • CoT 推理增加变异性但降低困惑度(更自信却更不一致——推理悖论)
  • LLM 适配问卷与原版表现出相同的不稳定性——非问卷设计的伪影
  • 错位人设(反社会、精神分裂)比基线人设变异性更高、困惑度更高
  • 困惑度与变异性仅中等相关(ρ=0.465)——不是完整的稳定性指标

亮点与洞察

  • "推理悖论"是核心发现:CoT 让模型更自信(困惑度↓)却更不一致(SD↑)——挑战"更多推理=更好"的直觉
  • 会话历史的规模依赖效应:帮助大模型但伤害小模型,提示工程需考虑模型规模
  • 对对齐评估的警示:测量工具本身不可靠时,对齐评估结论如何可信?

局限性 / 可改进方向

  • 人格测量的 construct validity 存疑——LLM 是否真有"人格"?
  • 仅使用心理学量表,未覆盖其他行为评估方式(如博弈论场景)
  • 未探索微调或 RLHF 对稳定性的影响

相关工作与启发

  • 对 LLM 安全评估方法论的直接冲击——所有基于问卷的对齐评估都需要重新审视其稳定性

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 全因素设计揭示多个反直觉发现
  • 实验充分度: ⭐⭐⭐⭐⭐ 25模型、200万+响应、系统统计检验
  • 写作质量: ⭐⭐⭐⭐⭐ 统计分析严谨,呈现清晰
  • 价值: ⭐⭐⭐⭐⭐ 对LLM安全和对齐评估社区有重要警示意义