Supernova Event Dataset: Interpreting Large Language Models' Personality through Critical Event Analysis¶

会议: ICML 2025
arXiv: 2506.12189
代码: 无
领域: LLM/NLP
关键词: LLM人格分析, 事件抽取与排序, 可解释性, LLM-as-Judge, 主观推理

一句话总结¶

提出 Supernova Event Dataset（包含传记、历史事件、新闻、科学发现的 Wikipedia 文章），通过让 LLM 从长文本中抽取并排序关键事件，再由另一个 LLM 作为评判者推断目标模型的"人格特质"，揭示不同 LLM 在主观决策中的一致性行为模式差异。

研究背景与动机¶

当前 LLM 基准测试主要聚焦于有客观正确答案的任务（如问答、推理），但随着 LLM 被部署到医疗、法律、金融等高风险领域，仅评估事实准确性已不够——理解模型的主观判断和价值倾向变得至关重要。

已有工作表明 LLM 在被显式 prompt 为特定角色时能模拟人格特质，但本文的核心发现是：即使没有角色扮演 prompt，LLM 在处理复杂主观任务时也会展现出一致的行为模式，这些模式可被解读为"人格"。

关键事件识别与排序是一个天然的主观任务： - 需要跨越长上下文进行推理 - 需要建模因果链和非线性事件交互 - 不同人（和模型）会因为价值观差异而做出不同选择

这使得该任务成为探测 LLM 内在决策倾向的理想工具。

方法详解¶

整体框架¶

框架分为三个阶段：

数据集构建：构建 Supernova Event Dataset，包含四类 Wikipedia 文章（传记、历史事件、新闻、科学发现）
事件抽取与排序：目标 LLM 通过 RAG 接收文章，提取并排序 5 个最关键事件
人格评判：另一个 LLM（Judge）分析目标模型的事件选择和排序，推断其人格类型

关键设计¶

数据集构建（Supernova Event Dataset）¶

类别	数据源	最低字数	最低浏览量	额外筛选	文章数
传记	英文 Wikipedia	3000	50000	Infobox 模板过滤	150
历史事件	英文 Wikipedia	500	5000	ORES ≥B + LLM 验证 + 年份<2000	150
新闻事件	英文 Wikipedia	500	5000	ORES ≥B + LLM 验证 + 年份>2000	150
科学发现	Gemini Deep Research	-	-	Nobel Prize API + Gemini 扩写	25

数据集设计亮点： - 传记：要求 ≥3000 词确保覆盖人物完整生涯，需有标准化 infobox 模板 - 历史/新闻事件：两阶段筛选——先用启发式规则过滤歧义页，再用本地 LLaMA-3-8B 做语义验证（置信度 >0.9） - 科学发现：从 Nobel Prize REST API 提取 384 条获奖记录（1901-2024），用 Gemini 2.5 Pro Deep Research 扩写为百科全书式文章

RAG 管道与事件抽取¶

文档处理流程： 1. 分块：将文档分为 1000 token 的语义块（100 token 重叠） 2. 嵌入：使用 nomic-embed-text-v1 模型生成高维向量 3. 索引：存入 FAISS 向量数据库 4. 检索：MultiQueryRetriever 将查询改写为多个搜索查询，提高召回率

两阶段 prompt 策略： - 第一阶段 prompt：引导检索器关注"转折点""级联效应"等关键事件特征，而非仅拉取主题相关内容 - 第二阶段 prompt：引导 LLM 进行结构化分析，要求其识别并排序 5 个最关键事件

对于科学发现类别，额外使用反事实测试（"如果没有这个事件，结果是否改变？"）作为选择标准。

人格评判框架¶

Judge 模型：使用 Qwen-2.5 14B 作为外部评判者
评估方式：Judge 接收目标 LLM 的完整事件选择和排序输出，分析其决策模式
人格编码：使用 sentence-transformers（all-MiniLM-L6-v2）对识别出的人格特质进行语义嵌入
可视化：对聚合嵌入进行 PCA 降维，在二维空间中展示模型人格位置
相似度度量：使用余弦相似度量化模型间人格相似性

损失函数 / 训练策略¶

本文不涉及模型训练，而是一个评估框架。核心要素包括：

推理时策略：结构化 prompt 引导 + RAG 检索增强
人格量化：通过频率加权的特质嵌入聚合
科学发现分析：结合关键词计数 + 开放编码（open coding），收敛出三类决策原则：
- 因果中心型（causality-centric）：关注机制和因果路径
- 赋能中心型（enablement-centric）：关注基础、障碍消除、验证
- 综合中心型（synthesis-centric）：强调概念整合和范式级连接

实验关键数据¶

主实验¶

被评估模型： - 小模型：Phi-4, Orca 2 (13B), Qwen 2.5 (14B) - 大模型（科学发现类）：Claude Sonnet 3.7, Gemini 2.5 Pro, OpenAI o3

人格类别分布结果（七类人格维度）：

模型	战略成就者	创意创新者	情感型	社区支持	意识形态	观察型	影响者
Phi-4	最高	高	中等	低	低	低	低
Orca 2	中等	低	最高	中等	低	低	低
Qwen 2.5	最高	高	中等	中等	中等	中等	中等

科学发现类模型决策原则分布：

模型	因果中心型	赋能中心型	综合中心型
o3	主导	中等	低
Gemini 2.5 Pro	中等	主导	低
Claude 3.7 Sonnet	低	明显	主导

消融实验¶

配置	关键指标	说明
电影剧本数据集（1172 部）	人格模式一致	验证人格在不同领域间的稳定性
Phi-4 在电影中的表现	战略/情节导向	优先选"Jafar 的阴谋""Zuckerberg 创建 Facebook 的决定"
Orca 2 在电影中的表现	情感/关系导向	优先选"Aladdin 遇见 Jasmine""Mark 与 Eduardo 的决裂"
Qwen 2.5 在电影中的表现	里程碑导向	优先选"Facemash 的创建""林肯中心最终演出"

关键发现¶

模型人格可重现：不同领域（传记、金融危机、电影剧本、科学发现）下，模型展现一致的行为偏好
小模型差异显著：Phi-4 偏"战略成就"、Orca 2 偏"情感推理"、Qwen 2.5 最均衡
大模型推理风格分化：o3 因果推理（step-by-step）、Gemini 实证验证、Claude 概念整合
语义空间分离清晰：PCA 可视化显示三个小模型占据截然不同的人格区域
无需角色扮演：人格特质在无显式 personality prompt 的情况下自然涌现

亮点与洞察¶

任务设计精巧：关键事件排序是一个天然主观的任务，不存在唯一正确答案，因此能直接反映模型的价值偏好，这比传统基准测试更深层地探测模型行为
Prompt-agnostic：本文的人格识别方法不依赖于特定 prompt 设计，模型的行为模式在不同 prompt 下保持一致
科学发现分析有启发性：三类推理原则（因果/赋能/综合）提供了选择 LLM 的实用参考——需要因果分析用 o3，需要方法论基础评估用 Gemini，需要跨领域概念整合用 Claude
反事实测试：用"如果没有这个事件，结果是否改变？"来筛选关键事件，方法论上很严谨
对 AI 辅助科研有意义：理解 LLM 的推理人格有助于设计更好的人机协作科研工作流

局限与展望¶

数据偏差：Wikipedia 天然存在编辑偏见和西方中心主义，可能影响人格标签推断
LLM-as-Judge 偏差：评判者模型自身存在风格偏好（stylistic bias），缺乏人类验证
人格框架非标准化：人格类别是经验性推导的，未基于 Big Five 等成熟心理学框架
科学发现样本量小：仅 25 篇文章，统计显著性有限
缺乏对抗性测试：未检验模型人格在对抗性 prompt 下是否仍然稳定
未考虑温度等推理参数的影响：不同采样策略可能改变事件选择
评判者单一：仅用 Qwen 2.5 作为 judge，未使用多 judge 委员会交叉验证

评分¶

维度	分数 (1-5)	说明
新颖性	4	事件排序→人格推断的任务设计新颖
技术深度	3	方法本身较直接（RAG+prompt+judge），无复杂模型设计
实验充分性	3	跨领域验证充分，但样本量有限且缺乏人类评估
实用价值	4	对模型选择和人机协作有实际指导意义
写作质量	4	结构清晰，案例丰富，可读性强
综合	3.5	理念有价值，但需更严格的验证框架