Synthia: Scalable Grounded Persona Generation from Social Media Data¶

会议: ACL 2026
arXiv: 2507.14922
代码: 无
领域: 计算社会科学 / 人格建模
关键词: 人格生成, 虚拟人口, 社交媒体, 社会调查模拟, 公平性分析

一句话总结¶

提出 Synthia 框架，基于真实社交媒体帖子（Bluesky）生成有根据的 LLM 人格叙事，在社会调查对齐度上比 SOTA 提升最高 11.6%，同时使用更小的模型，并保留社交网络拓扑结构支持网络感知分析。

领域现状：人格驱动的 LLM 模拟在计算社会科学中日益广泛应用，用于模拟人口级别的态度和行为。人格构建方法从简单人口统计描述到丰富的人生叙事不等。

现有痛点：构建既真实又可扩展的虚拟人口是核心挑战。基于访谈的方法（如 Park et al. 2024）真实性高但资源密集难以扩展；完全合成的方法（如 Anthology）可扩展但常引入系统性伪影降低真实性，且叙事内部常含自相矛盾的事实（63% 的人格有矛盾）。

核心矛盾：真实性与可扩展性之间的 trade-off。无约束的 LLM 生成虽然可扩展，但缺乏真实世界锚定会导致幻觉和叙事不一致。

本文目标：设计一个将真实社交媒体内容作为锚定、LLM 负责叙事构建的人格生成框架，兼顾真实性、可扩展性和公平性。

切入角度：利用 Bluesky 平台的公开帖子作为真实数据源，通过 LLM 将用户帖子综合为第一人称人生叙事，保留原始社交网络图结构。

核心 idea：人格叙事应锚定于真实用户生成内容而非凭空合成，真实数据的锚定能显著减少叙事内部矛盾，从而提升人口意见分布的对齐度。

三阶段流程：(1) 从 Bluesky 收集和过滤用户帖子池（约 1.7 亿帖子，65 万用户），采样 3K 用户；(2) 用 LLM（Gemma-3-27B）将每个用户的帖子综合为第一人称人格叙事；(3) 通过人口统计匹配将合成人口与真实调查受访者对齐，比较模拟意见分布与真实分布。

真实数据锚定的人格生成:
- 功能：生成有真实世界依据的丰富人格叙事
- 核心思路：收集用户 100-1000 条帖子（过少上下文不足，过多超出上下文窗口），去除@提及、URL、邮箱等社交标识符，排除回复/转发，用 LLM 生成综合第一人称生活背景故事。用 Gemma-3-27B（27B）甚至 Phi-4-mini（4B）均可生成高质量人格
- 设计动机：真实帖子提供了锚定点，约束 LLM 不会凭空编造，大幅减少内部矛盾（矛盾人格比例从 63% 降至 18%）
人口统计匹配与意见调查:
- 功能：将合成人口与真实调查人口在人口统计分布上对齐
- 核心思路：对每个人格通过 LLM 推断人口统计属性（年龄、性别、种族等），用贪心匹配算法将每个调查受访者与最匹配的人格配对。然后条件化 LLM 在人格叙事上回答调查问题，用 EMD、Frobenius 范数、Cronbach's α 比较模拟与真实意见分布
- 设计动机：评估锚定在人类调查数据而非 LLM 判断上，确保评估可靠性
社交网络图保留:
- 功能：支持网络感知的下游分析
- 核心思路：Synthia 人格直接继承原始用户在 Bluesky 上的关注关系有向图，将社交拓扑与人格内容关联，支持同质性分析等社会网络研究
- 设计动机：这是 Synthia 独有的特性——既有人格叙事又有网络结构，填补了现有方法只提供文本的空白

Synthia 无需训练，直接使用预训练 LLM 进行人格生成和调查回答。在意见调查阶段使用非指令微调模型（因先前研究表明其比指令微调模型在调查模拟中表现更好）。

方法	EMD↓	Frob.↓	Cron.α↑	说明
Synthia (Gemma-27B)	0.35	2.30	0.39	W34 最优
Anthology (LLaMA-70B)	0.35	2.46	0.34	使用 2.6 倍大的模型
Anthology (Gemma-27B)	0.34	2.65	0.32	同模型下 Synthia 全面领先
PChat (人工)	0.35	2.76	0.29	真人标注但波动大
Synthia (Phi-4B)	0.38	2.43	0.38	6 倍小的模型仍可比

分析维度	Synthia	Anthology	说明
矛盾人格比例	18%	63%	锚定大幅减少内部矛盾
平均每人格错误数	0.221	0.959	减少 77% 的叙事矛盾
跨波次 Frob. 波动	0.04	0.20	Synthia 更稳定

用真实社交媒体帖子锚定人格生成这一思路既简单又有效。核心洞察是：人格叙事的内部一致性比叙事的丰富度更重要。Anthology 用大模型高温采样生成丰富叙事，但因无锚定导致矛盾频发，反而降低了下游任务质量
保留社交网络拓扑结构是独特贡献，使得虚拟人口不再是孤立个体的集合，而是有社会关系的社区。这为社会网络模拟打开了新的可能性
用更小模型达到或超过更大模型的效果，说明数据质量（锚定于真实内容）比模型规模更重要