Spotting Out-of-Character Behavior: Atomic-Level Evaluation of Persona Fidelity in Open-Ended Generation¶

会议: ACL 2025
arXiv: 2506.19352
代码: 无
领域: 其他
关键词: persona fidelity, LLM evaluation, personality, out-of-character, atomic evaluation

一句话总结¶

提出原子级（句子级）评估框架，通过三个指标（ACC_atom、IC_atom、RC_atom）细粒度检测大语言模型在开放式文本生成中的角色偏离（Out-of-Character）行为，弥补了传统整体评分方法无法捕捉长文本中微妙人格不一致的问题。

研究背景与动机¶

问题背景¶

为 LLM 分配人格（persona）是角色扮演、社交模拟、对话系统等场景的核心需求
LLM 在长文本生成中经常出现 Out-of-Character (OOC) 行为：生成内容偏离分配的人格，导致不一致
例如：给模型分配"既不外向也不内向"的人格，模型可能在同一篇文章中时而表现外向、时而表现内向

现有方法的局限¶

已有评估方法通常对整个回复打一个单一分数（response-level），无法捕捉长文本内部的细微偏差
当整体平均分对齐但内部句子波动剧烈时，传统方法会误判为"人格对齐良好"
已有研究多集中在选择题或封闭式问答，对开放式生成场景关注不足

本文动机¶

需要一种原子级（atomic-level）评估方法，将文本拆分为最小语义单元（句子），逐句评估人格对齐度
借鉴 FActScore 的思想，将细粒度的事实验证方法迁移到人格忠诚度评估

方法详解¶

整体框架¶

原子单元划分：将生成的长文本 G 使用 NLTK 的 sent_tokenize 拆分为句子级原子单元
特征评分：利用 GPT-4o 作为评分模型，为每个原子句子打 [1,5] 的人格特征分数
无效句子过滤：过滤不含人格信息的句子（如纯事实性陈述）
指标计算：基于原子级评分计算三个互补指标

三大核心指标¶

指标	含义	计算方式	取值范围
ACC_atom	原子级准确率	各原子单元是否匹配目标人格分数的均值	[0, 1]
IC_atom	内部一致性	单次生成内特征分数分布的标准差取逆	[0, 1]
RC_atom	重测一致性	多次生成间分布的 Earth Mover's Distance 均值归一化	[-1, 1]

ACC_atom（原子级准确率）：将 [1,5] 分为三等分（低/中/高），判断每个原子句子的分数是否落入目标区间，取均值。检测"角色失准"的句子比例。

IC_atom（内部一致性）：衡量单次生成内部的人格表达一致性。标准差越小表示内部越一致，取逆后越高越好。能检测出"整体平均分正确但内部剧烈波动"的情况。

RC_atom（重测一致性）：用 Earth Mover's Distance（推土机距离）衡量多次生成的分数分布差异，比传统用标准差衡量更能捕捉分布级别的差异。

人格设定¶

基于 Big Five 人格模型（OCEAN）：开放性、尽责性、外向性、宜人性、情绪稳定性
每个维度设高/中/低三个水平，共 15 种人格设定
评估模型在三种开放式任务中的表现：问卷访谈、作文写作、社交媒体帖子

实验关键数据¶

实验设置¶

模型：12 个 LLM，含 3 个基础模型 + 9 个指令微调/RLHF 模型
任务：3 类开放式生成任务（问卷访谈、作文、社交媒体帖子）
评估规模：每个模型 x 每个人格 x 每个任务运行 30 次

人类验证结果¶

人格维度	Kendall's tau	Fleiss' kappa
O (开放性)	0.69***	0.90
C (尽责性)	0.76***	0.96
E (外向性)	0.67***	0.80
A (宜人性)	0.72***	0.84
N (情绪稳定性)	0.69***	0.74

GPT-4o 评分与人类判断高度一致（所有 p<.001），验证了自动评分的可靠性。

与传统指标的相关性¶

传统指标	ACC_atom	RC_atom	IC_atom
ACC	0.91	0.51	0.40
RC	0.48	0.98	0.37

ACC 与 ACC_atom 高相关但存在关键差异：部分低级人格模型 ACC 高但 ACC_atom 低，说明整体分数掩盖了内部不一致。IC_atom 与传统指标低相关（r=0.37-0.40），证明其捕捉了全新维度。

模型整体性能对比¶

模型	指令微调	RLHF	ACC_atom	IC_atom	RC_atom
Davinci-002	Yes		0.39	0.64	0.56
GPT-3.5-turbo	Yes	Yes	0.60	0.75	0.79
GPT-4o	Yes	Yes	0.61	0.74	0.78
LLaMA-3-8B			0.41	0.60	0.64
LLaMA-3-8B-Instruct	Yes	Yes	0.65	0.70	0.82
Mistral-7B			0.41	0.59	0.67
Mistral-7B-Instruct	Yes		0.58	0.69	0.80
Claude-3-haiku	Yes	Yes	0.59	0.71	0.69

关键发现¶

结构化任务更好：问卷任务的 ACC_atom (0.73) > 作文 (0.58) > 社交帖子 (0.52)
高水平人格最易忠诚：高水平人格 ACC_atom 平均 0.95，中水平仅 0.27，低水平 0.62
社会期望偏差：模型对不受社会偏好的人格（如"封闭心态""粗心大意"）忠诚度最低，推测与 RLHF 训练偏好有关
微调模型全面优于基础模型：指令微调 + RLHF 模型在三项指标上均显著提升

亮点¶

创新的原子级评估范式：首次将 FActScore 风格的细粒度验证迁移到人格忠诚度评估，用三个互补指标全面刻画对齐精度、内部一致性和跨次一致性
发现社会期望偏差现象：揭示 RLHF 训练导致模型隐式偏向社会偏好人格，对"不令人愉悦"的人格忠诚度系统性下降
Earth Mover's Distance 的巧妙应用：用分布距离替代传统标准差来衡量重测一致性，能捕捉传统指标遗漏的分布变化
严格的人类验证：250 对句子的人类评估确认自动评分的可靠性（Kendall's tau 0.67-0.76）

局限性¶

仅限人格领域：仅在 Big Five 人格维度上验证，未涉及社会价值观、政治立场等其他人格维度
评分依赖 GPT-4o：自动评分的准确性受限于评分模型自身的偏差
句子级粒度可能不够细：句内不一致（如一个句子前后矛盾）无法被当前框架捕捉
未提出改进方法：仅是评估框架，未给出缓解 OOC 行为的具体策略
生成长度有限：实验中每次生成仅 100-300 词，更长文本中的人格漂移是否更严重未知

评分¶

维度	分数 (1-5)	说明
新颖性	4	原子级人格评估是新颖的切入角度，社会期望偏差发现有启发性
技术深度	3	方法相对直接（分句+打分+统计），但指标设计合理
实验充分性	5	12个模型x15种人格x3类任务x30次运行，加上严格人类验证
写作质量	4	论文结构清晰，案例分析直观，量化分析详实
影响力	4	为 LLM 人格忠诚度评估建立了新标准，发现可指导后续对齐研究