Synthia: Scalable Grounded Persona Generation from Social Media Data¶
会议: ACL 2026
arXiv: 2507.14922
代码: 无
领域: 计算社会科学 / 人格建模
关键词: 人格生成, 虚拟人口, 社交媒体, 社会调查模拟, 公平性分析
一句话总结¶
提出 Synthia 框架,基于真实社交媒体帖子(Bluesky)生成有根据的 LLM 人格叙事,在社会调查对齐度上比 SOTA 提升最高 11.6%,同时使用更小的模型,并保留社交网络拓扑结构支持网络感知分析。
研究背景与动机¶
领域现状:人格驱动的 LLM 模拟在计算社会科学中日益广泛应用,用于模拟人口级别的态度和行为。人格构建方法从简单人口统计描述到丰富的人生叙事不等。
现有痛点:构建既真实又可扩展的虚拟人口是核心挑战。基于访谈的方法(如 Park et al. 2024)真实性高但资源密集难以扩展;完全合成的方法(如 Anthology)可扩展但常引入系统性伪影降低真实性,且叙事内部常含自相矛盾的事实(63% 的人格有矛盾)。
核心矛盾:真实性与可扩展性之间的 trade-off。无约束的 LLM 生成虽然可扩展,但缺乏真实世界锚定会导致幻觉和叙事不一致。
本文目标:设计一个将真实社交媒体内容作为锚定、LLM 负责叙事构建的人格生成框架,兼顾真实性、可扩展性和公平性。
切入角度:利用 Bluesky 平台的公开帖子作为真实数据源,通过 LLM 将用户帖子综合为第一人称人生叙事,保留原始社交网络图结构。
核心 idea:人格叙事应锚定于真实用户生成内容而非凭空合成,真实数据的锚定能显著减少叙事内部矛盾,从而提升人口意见分布的对齐度。
方法详解¶
整体框架¶
三阶段流程:(1) 从 Bluesky 收集和过滤用户帖子池(约 1.7 亿帖子,65 万用户),采样 3K 用户;(2) 用 LLM(Gemma-3-27B)将每个用户的帖子综合为第一人称人格叙事;(3) 通过人口统计匹配将合成人口与真实调查受访者对齐,比较模拟意见分布与真实分布。
关键设计¶
-
真实数据锚定的人格生成:
- 功能:生成有真实世界依据的丰富人格叙事
- 核心思路:收集用户 100-1000 条帖子(过少上下文不足,过多超出上下文窗口),去除@提及、URL、邮箱等社交标识符,排除回复/转发,用 LLM 生成综合第一人称生活背景故事。用 Gemma-3-27B(27B)甚至 Phi-4-mini(4B)均可生成高质量人格
- 设计动机:真实帖子提供了锚定点,约束 LLM 不会凭空编造,大幅减少内部矛盾(矛盾人格比例从 63% 降至 18%)
-
人口统计匹配与意见调查:
- 功能:将合成人口与真实调查人口在人口统计分布上对齐
- 核心思路:对每个人格通过 LLM 推断人口统计属性(年龄、性别、种族等),用贪心匹配算法将每个调查受访者与最匹配的人格配对。然后条件化 LLM 在人格叙事上回答调查问题,用 EMD、Frobenius 范数、Cronbach's α 比较模拟与真实意见分布
- 设计动机:评估锚定在人类调查数据而非 LLM 判断上,确保评估可靠性
-
社交网络图保留:
- 功能:支持网络感知的下游分析
- 核心思路:Synthia 人格直接继承原始用户在 Bluesky 上的关注关系有向图,将社交拓扑与人格内容关联,支持同质性分析等社会网络研究
- 设计动机:这是 Synthia 独有的特性——既有人格叙事又有网络结构,填补了现有方法只提供文本的空白
损失函数 / 训练策略¶
Synthia 无需训练,直接使用预训练 LLM 进行人格生成和调查回答。在意见调查阶段使用非指令微调模型(因先前研究表明其比指令微调模型在调查模拟中表现更好)。
实验关键数据¶
主实验¶
| 方法 | EMD↓ | Frob.↓ | Cron.α↑ | 说明 |
|---|---|---|---|---|
| Synthia (Gemma-27B) | 0.35 | 2.30 | 0.39 | W34 最优 |
| Anthology (LLaMA-70B) | 0.35 | 2.46 | 0.34 | 使用 2.6 倍大的模型 |
| Anthology (Gemma-27B) | 0.34 | 2.65 | 0.32 | 同模型下 Synthia 全面领先 |
| PChat (人工) | 0.35 | 2.76 | 0.29 | 真人标注但波动大 |
| Synthia (Phi-4B) | 0.38 | 2.43 | 0.38 | 6 倍小的模型仍可比 |
消融实验¶
| 分析维度 | Synthia | Anthology | 说明 |
|---|---|---|---|
| 矛盾人格比例 | 18% | 63% | 锚定大幅减少内部矛盾 |
| 平均每人格错误数 | 0.221 | 0.959 | 减少 77% 的叙事矛盾 |
| 跨波次 Frob. 波动 | 0.04 | 0.20 | Synthia 更稳定 |
关键发现¶
- 叙事内部一致性是对齐人口意见的关键因素——Synthia 通过真实数据锚定将矛盾减少 77%
- 即使使用 4B 模型(Phi-4-mini),Synthia 仍可与 70B 模型生成的 Anthology 匹敌
- 公平性分析显示 Synthia 在最佳和最差人口统计子组之间的准确率差距减少高达 25%
- 链接预测准确率提升 8.3%,嵌入空间可分离性提升 46%,证明网络结构的有效性
亮点与洞察¶
- 用真实社交媒体帖子锚定人格生成这一思路既简单又有效。核心洞察是:人格叙事的内部一致性比叙事的丰富度更重要。Anthology 用大模型高温采样生成丰富叙事,但因无锚定导致矛盾频发,反而降低了下游任务质量
- 保留社交网络拓扑结构是独特贡献,使得虚拟人口不再是孤立个体的集合,而是有社会关系的社区。这为社会网络模拟打开了新的可能性
- 用更小模型达到或超过更大模型的效果,说明数据质量(锚定于真实内容)比模型规模更重要
局限与展望¶
- 仅使用英语 Bluesky 数据,其用户群体可能不代表一般人口
- 去除社交标识符可能丢失部分有用上下文
- 人口统计推断依赖 LLM 的准确性,可能引入偏差
- 仅在美国社会调查(ATP)上评估,跨文化泛化性待验证
- 未来可探索多语言多平台的人格生成
相关工作与启发¶
- vs Anthology (Moon et al. 2024): 无锚定高温采样,可扩展但矛盾多;Synthia 用真实帖子锚定,一致性更好
- vs Park et al. 2024: 基于访谈数据,真实但不可扩展;Synthia 用社交媒体帖子实现可扩展替代
- vs PChat (Zhang et al. 2018): 人工编写人格,质量参差不齐且不可扩展
评分¶
- 新颖性: ⭐⭐⭐⭐ 真实数据锚定+网络拓扑保留是有意义的创新
- 实验充分度: ⭐⭐⭐⭐⭐ 54 种实验配置,多维度评估,公平性分析,网络案例研究
- 写作质量: ⭐⭐⭐⭐ 结构清晰,分析深入
- 价值: ⭐⭐⭐⭐ 对计算社会科学的人口模拟有直接应用价值
相关论文¶
- [AAAI 2026] From Single to Societal: Analyzing Persona-Induced Bias in Multi-Agent Interactions
- [AAAI 2026] Revisiting (Un)Fairness in Recourse by Minimizing Worst-Case Social Burden
- [NeurIPS 2025] Improved Balanced Classification with Theoretically Grounded Loss Functions
- [ICLR 2026] Resource-Adaptive Federated Text Generation with Differential Privacy
- [AAAI 2026] Perturb Your Data: Paraphrase-Guided Training Data Watermarking