Algorithmic Fidelity of Large Language Models in Generating Synthetic German Public Opinions: A Case Study¶
会议: ACL 2025
arXiv: 2412.13169
代码: https://github.com/soda-lmu/llm-opinion-german
领域: 文本生成
关键词: 合成舆论, 算法保真度, 人设提示, 政治偏见, 德语
一句话总结¶
使用德国纵向选举研究(GLES)的开放式调查数据,评估 LLM 在生成反映德国亚群体公共舆论方面的"算法保真度",发现 Llama2 在建模群体意见方面优于其他 LLM,但对左翼政党支持者的表征好于右翼(如 AfD),且提示中包含更多人口统计变量可改善表现。
研究背景与动机¶
- 领域现状:LLM 在合成数据生成中越来越多使用,社科研究开始用 LLM 模拟调查受访者("硅样本")。Argyle et al. (2023) 提出"算法保真度"概念评估 LLM 对人类亚群体意见的复现能力。
- 现有痛点:(a) 现有研究主要聚焦英语和美国语境,非英语国家的开放式问题研究极少;(b) 大多数研究仅涉及封闭式(选择题)调查,对开放式回答的建模更具挑战;(c) LLM 在政治意见建模上存在系统性偏见——对某些政治群体的表征不均匀。
- 核心矛盾:LLM 的训练数据中不同政治光谱的声音分布不均,导致模型对某些群体(如右翼)的意见难以准确模拟。
- 本文要解决什么? 系统评估 LLM 在德语开放式政治调查中的算法保真度,揭示偏见模式。
- 切入角度:使用纵向面板调查数据(GLES 2019-2021,覆盖 COVID 期间政治议题变迁),将受访者人口统计特征作为人设提示,比较 LLM 输出与真实答案分布。
- 核心idea一句话:LLM 可部分模拟德国公共舆论,但存在系统性政治偏见和时变稳健性问题。
方法详解¶
整体框架¶
从 GLES 面板调查中选取开放式问题"当前德国最重要的问题是什么?",用受访者的人口统计特征(年龄、性别、教育、政党倾向等)构造人设提示。将提示输入三个 LLM(Gemma、Llama2、Mixtral),生成合成回答后与真实调查分布对比。
关键设计¶
- 人设提示构造:
- 做什么:将调查受访者的特征嵌入提示中模拟其身份
- 核心思路:包含年龄、性别、教育水平、政党倾向、东/西德等变量,构造如"你是一位 45 岁、来自西德、支持绿党的大学毕业女性"的人设
-
设计动机:人设质量直接决定生成意见的代表性
-
分布对齐评估:
- 做什么:比较 LLM 生成的答案类别分布与真实调查分布
- 核心思路:用余弦相似度和 Jensen-Shannon 散度衡量分布匹配度
-
在群体层面和总体层面分别评估
-
变量消融分析:
- 做什么:研究提示中不同变量对保真度的影响
- 核心思路:逐步添加/移除人口统计变量,观察对分布对齐的影响
- 关键发现:政党倾向是最关键的变量
损失函数 / 训练策略¶
- 无需训练——纯推理评估研究
- 三个开源 LLM:Gemma-7B、Llama2-13B、Mixtral-8x7B
- 答案分类使用人工标注的 GLES 编码体系
实验关键数据¶
主实验¶
| LLM | 总体分布对齐(余弦↑) | 亚群体表现 | 最佳/最差政党 |
|---|---|---|---|
| Gemma-7B | 较低 | 不均匀 | - |
| Llama2-13B | 最高 | 最好 | 绿党最佳 / AfD最差 |
| Mixtral-8x7B | 中等 | 中等 | - |
消融实验¶
| 人设变量组合 | 保真度变化 | 说明 |
|---|---|---|
| 仅政党倾向 | 显著高于无变量 | 政党是最关键变量 |
| 全部变量 | 最佳 | 更多信息帮助建模 |
| 去掉政党 | 大幅下降 | 确认政党的主导作用 |
| 去掉年龄 | 略微下降 | 年龄影响次要 |
| 去掉教育 | 略微下降 | 教育影响次要 |
关键发现¶
- Llama2 在 10 个调查波次中的大多数优于其他模型——但优势随群体意见多样性增加而减弱
- 对左翼政党(绿党、左翼党)支持者的表征好于右翼(AfD)——反映了训练数据中的政治偏见
- COVID 期间"健康政策"类别激增,LLM 能部分捕捉这种时变效应但延迟性明显
- 意见多样性低的亚群体更容易被 LLM 准确模拟——因为分布更集中、less ambiguous
- 开放式问题比封闭式更难建模——答案空间更大、表达方式更多样
亮点与洞察¶
- 首次在德语开放式政治调查上系统评估 LLM 算法保真度——跨语言、开放式是双重挑战。
- 政党倾向是最重要的人设变量——这对社科研究的提示工程有直接指导:模拟政治意见时必须包含政治立场。
- 对 AfD(右翼民粹)的弱表征是重要警示——如果用 LLM 合成舆论数据做政策分析,可能系统性低估右翼声音。
- 纵向分析(2019-2021)展示了 LLM 保真度的时变不稳定性——模型在不同时期的表现差异大。
- 该研究框架可迁移到其他国家/语言的公共舆论研究。
局限性 / 可改进方向¶
- 仅评估三个开源模型,未包含 GPT-4 等闭源模型——它们可能在多语言上更强
- 答案分类依赖 GLES 的编码体系,可能遗漏 LLM 生成的新颖类别
- 人设提示为简单模板,未探索更复杂的提示策略(如先给示例再激发)
- 未研究如何缓解发现的政治偏见——是数据问题还是模型架构问题?
- 仅关注"最重要问题"这一个调查问题,泛化到其他政治议题需验证
相关工作与启发¶
- vs Argyle et al. (2023) "Silicon Sampling": 原始工作聚焦美国英语封闭式问题;本文扩展到德语开放式问题,发现保真度更低
- vs von der Heyde et al. (2025): 之前仅评估 GPT-3.5 在德国投票行为上的表现(封闭式);本文使用开源模型+开放式问题
- vs Santurkar et al. (2023): 他们发现 LLM 意见分布偏向自由派;本文在德国语境中验证了类似的左翼偏见
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次德语开放式调查的系统评估,纵向分析增加深度
- 实验充分度: ⭐⭐⭐⭐ 三个模型×10个调查波次×多个亚群体,变量消融充分
- 写作质量: ⭐⭐⭐⭐ 社科研究规范,统计分析严谨
- 价值: ⭐⭐⭐⭐ 对 LLM 在社科研究中的应用有重要警示,揭示系统性偏见