Reasoning Boosts Opinion Alignment in LLMs¶

会议: ICLR2026
arXiv: 2603.01214
代码: GitHub
领域: llm_reasoning
关键词: opinion alignment, GRPO, political reasoning, survey data, digital democracy

一句话总结¶

用GRPO强化学习训练LLM从政治调查数据中学习推理式观点对齐，在美国/德国/瑞士三个数据集上证明推理能提升个体级政治观点建模的准确性。

背景与动机¶

政治观点建模对数字民主有重要价值，但LLM朴素提示产生带偏见的意见
现有方法主要依赖人口统计提示（年龄/党派等），存在代表性、可控性和一致性三大问题
面试式个体建模（如generative agents）数据收集成本过高，难以规模化
政治调查数据丰富（ANES、VAA），但仅有立场标签无推理链，需要模型自行学习推理
GRPO等RL方法在数学推理中大获成功，能否迁移到政治推理？

方法¶

核心框架: SFT → GRPO两阶段训练。每个个体/政党单独训练一个模型。

输出格式: <reasoning>[推理文本]</reasoning><answer>[立场]</answer>

复合奖励函数: R = 0.25×R_format + 0.01×R_length + 1.0×R_correct。R_format奖励正确标签(最高4分); R_length惩罚偏离目标长度; R_correct为核心信号——匹配调查答案得1分。

SFT初始化: 用Llama-70B生成合成论证（支持/反对每个政策问题），训练模型掌握输出格式和基本推理能力。

无显式persona表示: 仅在系统提示中给国家标签，通过正确回答问题隐式对齐个体偏好。

实验¶

方法	smartvote(CH)	WoM(DE)	ANES(US)
SFT+GRPO (Magistral-24B)	70.73	53.21	45.43
SFT (Magistral-24B)	67.63	51.86	39.15
GRPO only	60.56	51.00	43.79
ICL	66.16	26.19	19.23
ORPO	23.31	24.73	24.25
Random	50.0	33.33	33.33

关键发现: (1) SFT+GRPO在所有数据集上一致最优，推理显著提升观点对齐; (2) 更大模型(Magistral-24B)效果更好; (3) 推理预训练骨干(Qwen3/Magistral)略优于非推理骨干(Llama); (4) 训练后的agents在PCA空间中偏向中右和保守派，与文献报告的左自由偏见相反; (5) ANES上F1仅~45%，说明推理不能完全消除偏见。

亮点¶

将政治观点对齐视为推理问题，首次用GRPO进行政治推理训练
跨三国三政治体系验证（美/德/瑞），发布公开benchmark
发现推理后模型的立场论证可以"翻转"——用类似论点支持相反立场（表1示例有趣）
意识形态分析揭示系统性偏差方向

局限¶

每个个体需单独训练一个模型，计算成本高，不可扩展
测试集较小（12-30题），统计置信度有限
三分类简化({Yes,Neutral,No})丢失原始细粒度信息
F1最高仅70%左右，距"忠实数字双胞胎"仍有差距
未探索如何从少量调查数据泛化到全新政策议题

评分¶

新颖性: ⭐⭐⭐⭐ (GRPO用于政治推理的新颖应用)
实验充分度: ⭐⭐⭐ (3模型3数据集，但测试集小)
写作质量: ⭐⭐⭐⭐ (结构清晰，案例分析有趣)
价值: ⭐⭐⭐ (方向有趣但可扩展性存疑)

Reasoning Boosts Opinion Alignment in LLMs¶

一句话总结¶

背景与动机¶

方法¶

实验¶

亮点¶

局限¶

相关工作¶

评分¶