跳转至

Synthia: Scalable Grounded Persona Generation from Social Media Data

会议: ACL 2026
arXiv: 2507.14922
代码: 无
领域: 计算社会科学 / 人格建模
关键词: 人格生成, 虚拟人口, 社交媒体, 社会调查模拟, 公平性分析

一句话总结

提出 Synthia 框架,基于真实社交媒体帖子(Bluesky)生成有根据的 LLM 人格叙事,在社会调查对齐度上比 SOTA 提升最高 11.6%,同时使用更小的模型,并保留社交网络拓扑结构支持网络感知分析。

研究背景与动机

领域现状:人格驱动的 LLM 模拟在计算社会科学中日益广泛应用,用于模拟人口级别的态度和行为。人格构建方法从简单人口统计描述到丰富的人生叙事不等。

现有痛点:构建既真实又可扩展的虚拟人口是核心挑战。基于访谈的方法(如 Park et al. 2024)真实性高但资源密集难以扩展;完全合成的方法(如 Anthology)可扩展但常引入系统性伪影降低真实性,且叙事内部常含自相矛盾的事实(63% 的人格有矛盾)。

核心矛盾:真实性与可扩展性之间的 trade-off。无约束的 LLM 生成虽然可扩展,但缺乏真实世界锚定会导致幻觉和叙事不一致。

本文目标:设计一个将真实社交媒体内容作为锚定、LLM 负责叙事构建的人格生成框架,兼顾真实性、可扩展性和公平性。

切入角度:利用 Bluesky 平台的公开帖子作为真实数据源,通过 LLM 将用户帖子综合为第一人称人生叙事,保留原始社交网络图结构。

核心 idea:人格叙事应锚定于真实用户生成内容而非凭空合成,真实数据的锚定能显著减少叙事内部矛盾,从而提升人口意见分布的对齐度。

方法详解

整体框架

三阶段流程:(1) 从 Bluesky 收集和过滤用户帖子池(约 1.7 亿帖子,65 万用户),采样 3K 用户;(2) 用 LLM(Gemma-3-27B)将每个用户的帖子综合为第一人称人格叙事;(3) 通过人口统计匹配将合成人口与真实调查受访者对齐,比较模拟意见分布与真实分布。

关键设计

  1. 真实数据锚定的人格生成:

    • 功能:生成有真实世界依据的丰富人格叙事
    • 核心思路:收集用户 100-1000 条帖子(过少上下文不足,过多超出上下文窗口),去除@提及、URL、邮箱等社交标识符,排除回复/转发,用 LLM 生成综合第一人称生活背景故事。用 Gemma-3-27B(27B)甚至 Phi-4-mini(4B)均可生成高质量人格
    • 设计动机:真实帖子提供了锚定点,约束 LLM 不会凭空编造,大幅减少内部矛盾(矛盾人格比例从 63% 降至 18%)
  2. 人口统计匹配与意见调查:

    • 功能:将合成人口与真实调查人口在人口统计分布上对齐
    • 核心思路:对每个人格通过 LLM 推断人口统计属性(年龄、性别、种族等),用贪心匹配算法将每个调查受访者与最匹配的人格配对。然后条件化 LLM 在人格叙事上回答调查问题,用 EMD、Frobenius 范数、Cronbach's α 比较模拟与真实意见分布
    • 设计动机:评估锚定在人类调查数据而非 LLM 判断上,确保评估可靠性
  3. 社交网络图保留:

    • 功能:支持网络感知的下游分析
    • 核心思路:Synthia 人格直接继承原始用户在 Bluesky 上的关注关系有向图,将社交拓扑与人格内容关联,支持同质性分析等社会网络研究
    • 设计动机:这是 Synthia 独有的特性——既有人格叙事又有网络结构,填补了现有方法只提供文本的空白

损失函数 / 训练策略

Synthia 无需训练,直接使用预训练 LLM 进行人格生成和调查回答。在意见调查阶段使用非指令微调模型(因先前研究表明其比指令微调模型在调查模拟中表现更好)。

实验关键数据

主实验

方法 EMD↓ Frob.↓ Cron.α↑ 说明
Synthia (Gemma-27B) 0.35 2.30 0.39 W34 最优
Anthology (LLaMA-70B) 0.35 2.46 0.34 使用 2.6 倍大的模型
Anthology (Gemma-27B) 0.34 2.65 0.32 同模型下 Synthia 全面领先
PChat (人工) 0.35 2.76 0.29 真人标注但波动大
Synthia (Phi-4B) 0.38 2.43 0.38 6 倍小的模型仍可比

消融实验

分析维度 Synthia Anthology 说明
矛盾人格比例 18% 63% 锚定大幅减少内部矛盾
平均每人格错误数 0.221 0.959 减少 77% 的叙事矛盾
跨波次 Frob. 波动 0.04 0.20 Synthia 更稳定

关键发现

  • 叙事内部一致性是对齐人口意见的关键因素——Synthia 通过真实数据锚定将矛盾减少 77%
  • 即使使用 4B 模型(Phi-4-mini),Synthia 仍可与 70B 模型生成的 Anthology 匹敌
  • 公平性分析显示 Synthia 在最佳和最差人口统计子组之间的准确率差距减少高达 25%
  • 链接预测准确率提升 8.3%,嵌入空间可分离性提升 46%,证明网络结构的有效性

亮点与洞察

  • 用真实社交媒体帖子锚定人格生成这一思路既简单又有效。核心洞察是:人格叙事的内部一致性比叙事的丰富度更重要。Anthology 用大模型高温采样生成丰富叙事,但因无锚定导致矛盾频发,反而降低了下游任务质量
  • 保留社交网络拓扑结构是独特贡献,使得虚拟人口不再是孤立个体的集合,而是有社会关系的社区。这为社会网络模拟打开了新的可能性
  • 用更小模型达到或超过更大模型的效果,说明数据质量(锚定于真实内容)比模型规模更重要

局限与展望

  • 仅使用英语 Bluesky 数据,其用户群体可能不代表一般人口
  • 去除社交标识符可能丢失部分有用上下文
  • 人口统计推断依赖 LLM 的准确性,可能引入偏差
  • 仅在美国社会调查(ATP)上评估,跨文化泛化性待验证
  • 未来可探索多语言多平台的人格生成

相关工作与启发

  • vs Anthology (Moon et al. 2024): 无锚定高温采样,可扩展但矛盾多;Synthia 用真实帖子锚定,一致性更好
  • vs Park et al. 2024: 基于访谈数据,真实但不可扩展;Synthia 用社交媒体帖子实现可扩展替代
  • vs PChat (Zhang et al. 2018): 人工编写人格,质量参差不齐且不可扩展

评分

  • 新颖性: ⭐⭐⭐⭐ 真实数据锚定+网络拓扑保留是有意义的创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 54 种实验配置,多维度评估,公平性分析,网络案例研究
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,分析深入
  • 价值: ⭐⭐⭐⭐ 对计算社会科学的人口模拟有直接应用价值

相关论文