Benchmarking Overton Pluralism in LLMs¶

会议: ICLR 2026
arXiv: 2512.01351
代码: https://github.com/elinorpd/overtonbench (有)
领域: 人类理解 / LLM对齐 / 多元化表征
关键词: Overton多元主义, LLM偏见, 基准测试, 观点覆盖, 自动化评估

一句话总结¶

提出 OvertonBench 框架，通过大规模人类研究（1208名美国代表性参与者、60个主观问题、8个LLM）将 Overton 多元主义形式化为集合覆盖度指标 OvertonScore，发现当前所有模型得分仅 0.35–0.41（理论上限为 1.0），并构建了与人类判断高度相关（ρ=0.88）的自动化评测工具。

研究背景与动机¶

领域现状：LLM 已广泛影响政治讨论、教育和日常交互。传统对齐策略通常聚合多样化偏好，将真正的分歧压缩为单一规范立场（价值一元论），导致少数群体的观点被抹除。
现有痛点：
现有的政治偏见评估（如 Model Slant）仅衡量模型是否倾向某一方，无法量化模型是否覆盖了多元观点
看似"中立"的回答可能通过省略少数派观点来实现中立，实际上加剧了表征伤害
追求政治中立被证明是不可能的，且并非总是可取的
核心矛盾：LLM 应该做的不是寻求共识，而是呈现公共话语中"Overton 窗口"内的多种合理观点；但目前缺乏系统化的度量方法来衡量模型在这方面的表现。
本文要解决什么？
如何定义和量化 Overton 多元主义？
当前 LLM 在多元观点表征方面做得如何？
如何在不反复进行昂贵人类研究的情况下进行可扩展评估？
切入角度：基于 Sorensen 等人对多元主义的三级分类（Overton、可引导、分布式），聚焦最实用的 Overton 多元主义——模型应在单次回复中同时呈现多个合理观点。
核心idea一句话：将多元对齐从规范性目标转化为可测量的集合覆盖基准，通过参与者聚类发现观点群体，再评估模型回复对各群体的覆盖率。

方法详解¶

整体框架¶

输入是一组主观性问题（60个），输出是每个 LLM 的 OvertonScore。中间经过三个阶段：（1）人类数据收集——参与者写下观点并评价LLM回复；（2）观点聚类——基于参与者间的同意/反对投票模式发现不同观点群体；（3）覆盖度计算——检查每个观点群体是否在模型回复中感到被代表。

关键设计¶

OvertonScore 指标:
做什么：量化模型回复覆盖 Overton 窗口中多少比例的观点
核心思路：对问题 \(x\)，Overton 窗口 \(W(x)\) 包含所有合理观点。若某观点 \(y\) 对应的群体中多数人对模型回复的代表性评分 ≥4（5分制），则视为被覆盖。Coverage\((\\mathcal{M}, x) = \\frac{1}{|W(x)|} \\sum_{y \\in W(x)} \\mathbb{1}\\{y \\in \\mathcal{M}(x)\\}\)，OvertonScore 是所有问题的平均 Coverage
设计动机：不同于 pairwise 比较只能说"A比B更多元"，集合覆盖度提供了绝对量化，明确了理论上限（1.0），让改进方向可衡量
加权变体 OvertonScore\(_W\)：按群体在人群中的占比加权，避免长尾稀有观点过度影响评分
基于投票的观点聚类:
做什么：从人类参与者的互相投票数据中自动发现不同观点群体
核心思路：参与者互相对对方的自由回答投 Agree/Disagree/Neutral，利用 k-means 变体在稀疏投票数据上聚类，通过 Silhouette 分数动态确定最佳 k 值
设计动机：比基于语义相似度或 NLI 的聚类更忠实——直接反映人们如何理解和分歧彼此的观点，而非外部算法强加的分类。避免了 NLP 方法引入模型偏见
自动化基准（LLM-as-Judge）:
做什么：用 LLM 替代人类评判，预测参与者对模型回复的代表性评分
核心思路：使用 Gemini 2.5 Pro 配合 few-shot + 用户自由回复(FS+FR)提示策略，预测每个参与者的 1-5 Likert 评分
设计动机：反复大规模人类研究成本高、速度慢。自动化评估可作为模型开发中的初步筛选工具，在全面人类评估前缩小候选模型范围

数据收集策略¶

问题来源：Model Slant（15个政治议题）+ PRISM 对齐数据集（45个价值观导向问题）
参与者：Prolific 招募 1208 名美国英语用户，政治/人口统计学上具有代表性
评估的 LLM：GPT-4.1、o4-mini、Gemma 3-27B、DeepSeek R1/V3、Llama 4 Maverick/3.3-70B、Claude 3.7 Sonnet
数据规模：28,992 个数据点

实验关键数据¶

主实验¶

模型	Adj. OvertonScore	Adj. OvertonScore\(_W\)	显著性
DeepSeek V3	0.41 (最高)	0.52 (最高, p=0.035)	加权显著高于均值
DeepSeek R1	0.40	0.49	不显著
Llama 3.3-70B	0.40	0.49	不显著
GPT-4.1	0.40	0.49	不显著
o4-mini	0.39	0.48	不显著
Claude 3.7 Sonnet	0.38	0.47	不显著
Llama 4 Maverick	0.38	0.47	不显著
Gemma 3-27B	0.35 (最低, p=0.016)	0.44 (最低, p=0.036)	两个指标均显著低于均值
跨模型最佳	0.687	0.768	八个模型最佳结果合并
单观点基线	0.169	0.524	每题仅覆盖一个群体

自动化评估验证¶

评估方法	MAE (Likert)	Spearman ρ	说明
Gemini 2.5 Pro (FS+FR)	0.66±0.01	0.66	最佳自动方法
Mean-of-others 基线	0.70±0.01	0.64	用其他回复均分
语义相似度基线	0.72±0.02	0.59	余弦相似度匹配
Leave-one-out OvertonScore	—	0.88 (rank)	模型级排名相关

关键发现¶

所有模型的 OvertonScore 均远低于理论上限 1.0（均值仅 0.39），即使合并所有模型的最佳结果也仅达 0.687
DeepSeek V3 在完整基准上表现最强，但在 Model Slant 子集上最弱——多元主义不是单一能力，依赖于具体领域
政治中立 ≠ 多元表征：o4-mini 被 Model Slant 评为第二大政治偏见模型，但在 OvertonScore 上表现优异 (r=-0.41 负相关)
Llama 3.3 在两个子集上均优于 Llama 4，质疑政治偏见缓解努力对多元表征的实际效果
自动化基准无显著的性别/种族公平性差异，但政治倾向和模型身份存在微小显著差异（效应量 η²<0.004）

亮点与洞察¶

OvertonScore 的集合覆盖形式化是本文最重要的贡献——将模糊的"多元性"转化为0-1之间可量化的指标，且有明确的理论上限。这比 pairwise 评比更有信息量，因为它衡量的是绝对覆盖而非相对优劣
基于参与者投票的聚类巧妙避开了 NLP pipeline 引入的偏见——让真实的人类分歧模式定义观点群体，而非让算法预设什么是"不同观点"
政治中立与多元主义的负相关发现具有深远影响——表明当前行业追求"中立"的方向可能适得其反，实际上减少了观点覆盖。这个insight可迁移到任何涉及主观价值的AI对齐研究中

局限性 / 可改进方向¶

仅覆盖美国英语用户，无法代表全球文化差异下的 Overton 窗口
60个问题的覆盖面有限，未涉及科技伦理、环境正义等新兴议题
观点聚类依赖 k-means，可能无法捕捉连续谱系上的细微差异
自动化评估中 Claude 3.7 Sonnet 被系统性高估（Δ=+0.103），说明某些模型的自动评分仍需校准
未探索如何实际提升 OvertonScore——仅提供了测量工具而非改进方法
改进思路：可设计基于 OvertonScore 的 RLHF 奖励信号，引导模型在回复中主动呈现多元观点

评分¶

新颖性: ⭐⭐⭐⭐ 将多元主义形式化为可量化基准是重要贡献，但核心技术（聚类+覆盖度）本身并不复杂
实验充分度: ⭐⭐⭐⭐⭐ 1208人大规模人类研究、8个LLM、自动化验证、子群公平性分析、两个数据集子集对比，非常全面
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰，定义严谨，图表信息丰富（特别是 Figure 1 直观展示了 OvertonScore 的计算过程）
价值: ⭐⭐⭐⭐ 为 LLM 多元对齐研究提供了首个可量化基准，发现的负相关关系具有政策影响力