PERSIST: Persistent Instability in LLM's Personality Measurements¶

会议: AAAI 2026
arXiv: 2508.04826
代码: https://github.com/tosatot/PERSIST
领域: NLP生成 / LLM评估
关键词: LLM人格测量, 行为一致性, 推理模式, 对齐评估, 心理测量

一句话总结¶

PERSIST 框架系统评估 25 个开源 LLM（1B-685B）在 200 万+响应上的人格测量稳定性，发现即使 400B+模型在 5 分制量表上仍有 SD>0.3 的不稳定性，且 CoT 推理悖论性地增加变异性同时降低困惑度，LLM 适配问卷与传统人类问卷表现出相似的不稳定性。

领域现状：LLM 对齐和安全评估需要衡量模型的行为特征（大五人格、暗黑三元组等），通常使用心理学量表。
现有痛点：(1) 问题顺序、改写都可导致评分大幅变化；(2) 不清楚不稳定性是人类中心化问卷的伪影还是模型本身的问题；(3) 推理、会话历史等因素对稳定性的影响未被系统研究。
核心矛盾：无法可靠测量 LLM 行为特征→无法可靠评估对齐效果。
本文要解决什么？ 全面量化 LLM 人格测量不稳定性的来源和程度。
切入角度：全因素设计——25模型×5人设×4问卷×250排列×100改写×推理/非推理×会话历史。
核心 idea 一句话：LLM 的人格测量不稳定性是持久的、结构性的，不能仅靠模型规模增长来解决。

PERSIST 三模块：生成引擎(vLLM)、响应处理(token 级 log 概率提取)、分析管道(层次聚合计算排列间 SD)。

纯评估研究，无训练。25 个模型通过 vLLM 和 HuggingFace Inference API 访问。

发现	Spearman ρ	p值	效应
模型规模↑ → 正面特质↑	显著	0.001**	更"友善"
模型规模↑ → 负面特质↓	显著	<0.001***	更"温和"
模型规模↑ → 变异性↓	显著	<0.001***	更稳定
模型规模↑ → 困惑度	不显著	0.934	无关联

条件	变异性	困惑度
无推理	低	高
有推理(CoT)	高 (p<0.001)	低 (p<0.01)

模型大小	有历史的效果	p值
<50B (n=19)	增加变异性	<0.001***
≥50B (n=4)	降低变异性	<0.001***