Reasoning Boosts Opinion Alignment in LLMs¶
会议: ICLR2026
arXiv: 2603.01214
代码: GitHub
领域: llm_reasoning
关键词: opinion alignment, GRPO, political reasoning, survey data, digital democracy
一句话总结¶
用GRPO强化学习训练LLM从政治调查数据中学习推理式观点对齐,在美国/德国/瑞士三个数据集上证明推理能提升个体级政治观点建模的准确性。
背景与动机¶
- 政治观点建模对数字民主有重要价值,但LLM朴素提示产生带偏见的意见
- 现有方法主要依赖人口统计提示(年龄/党派等),存在代表性、可控性和一致性三大问题
- 面试式个体建模(如generative agents)数据收集成本过高,难以规模化
- 政治调查数据丰富(ANES、VAA),但仅有立场标签无推理链,需要模型自行学习推理
- GRPO等RL方法在数学推理中大获成功,能否迁移到政治推理?
方法¶
核心框架: SFT → GRPO两阶段训练。每个个体/政党单独训练一个模型。
输出格式: <reasoning>[推理文本]</reasoning><answer>[立场]</answer>
复合奖励函数: R = 0.25×R_format + 0.01×R_length + 1.0×R_correct。R_format奖励正确标签(最高4分); R_length惩罚偏离目标长度; R_correct为核心信号——匹配调查答案得1分。
SFT初始化: 用Llama-70B生成合成论证(支持/反对每个政策问题),训练模型掌握输出格式和基本推理能力。
无显式persona表示: 仅在系统提示中给国家标签,通过正确回答问题隐式对齐个体偏好。
实验¶
| 方法 | smartvote(CH) | WoM(DE) | ANES(US) |
|---|---|---|---|
| SFT+GRPO (Magistral-24B) | 70.73 | 53.21 | 45.43 |
| SFT (Magistral-24B) | 67.63 | 51.86 | 39.15 |
| GRPO only | 60.56 | 51.00 | 43.79 |
| ICL | 66.16 | 26.19 | 19.23 |
| ORPO | 23.31 | 24.73 | 24.25 |
| Random | 50.0 | 33.33 | 33.33 |
关键发现: (1) SFT+GRPO在所有数据集上一致最优,推理显著提升观点对齐; (2) 更大模型(Magistral-24B)效果更好; (3) 推理预训练骨干(Qwen3/Magistral)略优于非推理骨干(Llama); (4) 训练后的agents在PCA空间中偏向中右和保守派,与文献报告的左自由偏见相反; (5) ANES上F1仅~45%,说明推理不能完全消除偏见。
亮点¶
- 将政治观点对齐视为推理问题,首次用GRPO进行政治推理训练
- 跨三国三政治体系验证(美/德/瑞),发布公开benchmark
- 发现推理后模型的立场论证可以"翻转"——用类似论点支持相反立场(表1示例有趣)
- 意识形态分析揭示系统性偏差方向
局限¶
- 每个个体需单独训练一个模型,计算成本高,不可扩展
- 测试集较小(12-30题),统计置信度有限
- 三分类简化({Yes,Neutral,No})丢失原始细粒度信息
- F1最高仅70%左右,距"忠实数字双胞胎"仍有差距
- 未探索如何从少量调查数据泛化到全新政策议题
相关工作¶
- 人口统计提示: Santurkar et al. 2023 揭示LLM默认意见分布不代表真实人群; Argyle et al. 2023 "silicon sampling"
- 个体级建模: Park et al. 2024 用面试transcript构建个体persona
- 推理训练: DeepSeek-R1 (2025) GRPO在数学推理中成功; Yu et al. 2025 persona-based CoT提示但未用RL
评分¶
- 新颖性: ⭐⭐⭐⭐ (GRPO用于政治推理的新颖应用)
- 实验充分度: ⭐⭐⭐ (3模型3数据集,但测试集小)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,案例分析有趣)
- 价值: ⭐⭐⭐ (方向有趣但可扩展性存疑)