跳转至

📚 AI Paper Notes

Algorithmic Fidelity of Large Language Models in Generating Synthetic German Public Opinions: A Case Study

Algorithmic Fidelity of Large Language Models in Generating Synthetic German Public Opinions: A Case Study¶

会议: ACL 2025
arXiv: 2412.13169
代码: https://github.com/soda-lmu/llm-opinion-german
领域: 文本生成
关键词: 合成舆论, 算法保真度, 人设提示, 政治偏见, 德语

一句话总结¶

使用德国纵向选举研究（GLES）的开放式调查数据，评估 LLM 在生成反映德国亚群体公共舆论方面的"算法保真度"，发现 Llama2 在建模群体意见方面优于其他 LLM，但对左翼政党支持者的表征好于右翼（如 AfD），且提示中包含更多人口统计变量可改善表现。

研究背景与动机¶

领域现状：LLM 在合成数据生成中越来越多使用，社科研究开始用 LLM 模拟调查受访者（"硅样本"）。Argyle et al. (2023) 提出"算法保真度"概念评估 LLM 对人类亚群体意见的复现能力。
现有痛点：(a) 现有研究主要聚焦英语和美国语境，非英语国家的开放式问题研究极少；(b) 大多数研究仅涉及封闭式（选择题）调查，对开放式回答的建模更具挑战；(c) LLM 在政治意见建模上存在系统性偏见——对某些政治群体的表征不均匀。
核心矛盾：LLM 的训练数据中不同政治光谱的声音分布不均，导致模型对某些群体（如右翼）的意见难以准确模拟。
本文要解决什么？ 系统评估 LLM 在德语开放式政治调查中的算法保真度，揭示偏见模式。
切入角度：使用纵向面板调查数据（GLES 2019-2021，覆盖 COVID 期间政治议题变迁），将受访者人口统计特征作为人设提示，比较 LLM 输出与真实答案分布。
核心idea一句话：LLM 可部分模拟德国公共舆论，但存在系统性政治偏见和时变稳健性问题。

方法详解¶

整体框架¶

从 GLES 面板调查中选取开放式问题"当前德国最重要的问题是什么？"，用受访者的人口统计特征（年龄、性别、教育、政党倾向等）构造人设提示。将提示输入三个 LLM（Gemma、Llama2、Mixtral），生成合成回答后与真实调查分布对比。

关键设计¶

人设提示构造:
做什么：将调查受访者的特征嵌入提示中模拟其身份
核心思路：包含年龄、性别、教育水平、政党倾向、东/西德等变量，构造如"你是一位 45 岁、来自西德、支持绿党的大学毕业女性"的人设
设计动机：人设质量直接决定生成意见的代表性
分布对齐评估:
做什么：比较 LLM 生成的答案类别分布与真实调查分布
核心思路：用余弦相似度和 Jensen-Shannon 散度衡量分布匹配度
在群体层面和总体层面分别评估
变量消融分析:
做什么：研究提示中不同变量对保真度的影响
核心思路：逐步添加/移除人口统计变量，观察对分布对齐的影响
关键发现：政党倾向是最关键的变量

损失函数 / 训练策略¶

无需训练——纯推理评估研究
三个开源 LLM：Gemma-7B、Llama2-13B、Mixtral-8x7B
答案分类使用人工标注的 GLES 编码体系

实验关键数据¶

主实验¶

LLM	总体分布对齐(余弦↑)	亚群体表现	最佳/最差政党
Gemma-7B	较低	不均匀	-
Llama2-13B	最高	最好	绿党最佳 / AfD最差
Mixtral-8x7B	中等	中等	-

消融实验¶

人设变量组合	保真度变化	说明
仅政党倾向	显著高于无变量	政党是最关键变量
全部变量	最佳	更多信息帮助建模
去掉政党	大幅下降	确认政党的主导作用
去掉年龄	略微下降	年龄影响次要
去掉教育	略微下降	教育影响次要

关键发现¶

Llama2 在 10 个调查波次中的大多数优于其他模型——但优势随群体意见多样性增加而减弱
对左翼政党（绿党、左翼党）支持者的表征好于右翼（AfD）——反映了训练数据中的政治偏见
COVID 期间"健康政策"类别激增，LLM 能部分捕捉这种时变效应但延迟性明显
意见多样性低的亚群体更容易被 LLM 准确模拟——因为分布更集中、less ambiguous
开放式问题比封闭式更难建模——答案空间更大、表达方式更多样

亮点与洞察¶

首次在德语开放式政治调查上系统评估 LLM 算法保真度——跨语言、开放式是双重挑战。
政党倾向是最重要的人设变量——这对社科研究的提示工程有直接指导：模拟政治意见时必须包含政治立场。
对 AfD（右翼民粹）的弱表征是重要警示——如果用 LLM 合成舆论数据做政策分析，可能系统性低估右翼声音。
纵向分析（2019-2021）展示了 LLM 保真度的时变不稳定性——模型在不同时期的表现差异大。
该研究框架可迁移到其他国家/语言的公共舆论研究。

局限性 / 可改进方向¶

仅评估三个开源模型，未包含 GPT-4 等闭源模型——它们可能在多语言上更强
答案分类依赖 GLES 的编码体系，可能遗漏 LLM 生成的新颖类别
人设提示为简单模板，未探索更复杂的提示策略（如先给示例再激发）
未研究如何缓解发现的政治偏见——是数据问题还是模型架构问题？
仅关注"最重要问题"这一个调查问题，泛化到其他政治议题需验证

相关工作与启发¶

vs Argyle et al. (2023) "Silicon Sampling": 原始工作聚焦美国英语封闭式问题；本文扩展到德语开放式问题，发现保真度更低
vs von der Heyde et al. (2025): 之前仅评估 GPT-3.5 在德国投票行为上的表现（封闭式）；本文使用开源模型+开放式问题
vs Santurkar et al. (2023): 他们发现 LLM 意见分布偏向自由派；本文在德国语境中验证了类似的左翼偏见

评分¶

新颖性: ⭐⭐⭐⭐ 首次德语开放式调查的系统评估，纵向分析增加深度
实验充分度: ⭐⭐⭐⭐ 三个模型×10个调查波次×多个亚群体，变量消融充分
写作质量: ⭐⭐⭐⭐ 社科研究规范，统计分析严谨
价值: ⭐⭐⭐⭐ 对 LLM 在社科研究中的应用有重要警示，揭示系统性偏见