Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following¶
会议: CVPR 2026
arXiv: 2511.21662
代码: https://multi-crit.github.io
领域: 多模态VLM
关键词: LMM-as-Judge, 多准则评估, 基准测试, 偏好冲突, 评估可靠性
一句话总结¶
构建首个评估多模态 Judge 模型多准则遵循能力的基准 Multi-Crit,包含准则级人类标注和偏好冲突样本,配合三个新指标揭示当前最强模型在多准则评判上的系统性不足——最强闭源模型在开放生成任务上仅 32.78% 的多准则一致性。
研究背景与动机¶
- 领域现状:LMM-as-a-Judge 范式(用大模型评估大模型)被广泛采用,既用于自动评测也用于 RLHF 反馈。现有 Judge 基准(VL-Rewardbench、MM-RLHF 等)仅提供单一总体偏好标签。
- 现有痛点:单一偏好标签无法捕捉多维度的评估本质——两个回答可能在不同准则下存在 trade-off(如一个简洁但有幻觉,另一个详细但冗余),但现有基准无法区分。Judge 模型是否真正遵循了给定的评估准则?面对准则间的偏好冲突时能否做出正确判断?这些问题未被系统研究。
- 核心矛盾:Judge 模型需要同时满足"与人类偏好一致"和"灵活遵循多样化准则"两个要求,但后者被严重忽视。
- 本文要解决什么:(1) 如何构建包含多准则人工标注和偏好冲突的评估数据?(2) 如何度量 Judge 模型的多准则遵循能力?
- 切入角度:多准则评估 + 冲突检测——人类标注者独立标注每个准则下的偏好,天然暴露准则间冲突。
- 核心 idea:构建带准则级人工标注的挑战性基准 + 设计 PAcc/TOS/CMR 三个新指标 + 全面评估 25 个模型。
方法详解¶
整体框架¶
Multi-Crit 基准构建流程:多来源提示词收集 → 多模型响应生成 → 三阶段过滤保留挑战性样本 → 准则级人工标注(9 名 CS PhD,289 小时,Cohen's κ = 0.718/0.805)→ 偏好聚合与质量验证。
关键设计¶
- 任务覆盖与准则设计:
- 做什么:覆盖开放生成和可验证推理两大场景
- 开放生成五准则:完整性与覆盖度、视觉基础与细节、事实性/无幻觉、创造性与表达力、清晰性与连贯性
- 可验证推理五准则:视觉基础、逻辑连贯性与一致性、事实性/无幻觉、反思与探索、简洁性与效率
-
设计原则:实用性(反映常见 Judge 使用场景)+ 特异性(准则间不重叠)+ 通用性(评估基本维度而非内容特定)
-
数据构建管线:
- 提示词来源:8 个数据集(ImageInWords、DOCCI、WildVision、MathVerse、MM-K12、EMMA-mini、VisualPuzzles)
- 响应生成:11 个 LMM 模型,含跨模型对和同模型温度采样对
- 三阶段过滤:长度归一化(排除长度悬殊对)→ 推理正确性过滤(保留双对/双错)→ 集成难度过滤(三强 Judge 一致的丢弃)
-
最终保留 425 个开放任务 + 126 个推理任务样本,标注 1425 个准则级判断
-
三个新评估指标:
- PAcc(Pluralistic Adherence Accuracy):所有准则都正确的比例,衡量多准则一致遵循
- TOS(Trade-Off Sensitivity):在存在准则冲突的样本上能否正确切换偏好方向
- CMR(Conflict Match Rate):能否正确识别准则间的偏好冲突
标注质量保证¶
- 9 名 CS PhD 标注者,先标种子集校准再正式标注
- 每样本 3 名标注者交叉验证,仅保留一致或多数+tie 的样本
- 文本理由人工审核,丢弃不一致或冗余解释的样本
实验关键数据¶
多准则遵循(PAcc,开放生成)¶
| 模型 | PAcc(%) | 说明 |
|---|---|---|
| o4-mini(最强) | 32.78 | 闭源最优 |
| Claude-3.7-Sonnet | ~30 | 闭源次优 |
| InternVL3-8B | 26.09 | 开源最优 |
| Qwen2.5-VL-7B | 9.41 | 开源入门级 |
| 人类标注者一致性 | 参考上限 | κ=0.718 |
准则级准确率(开放生成,开源模型)¶
| 模型 | 完整性 | 视觉基础 | 幻觉 | 表达力 | 清晰性 | 均值 |
|---|---|---|---|---|---|---|
| InternVL3-8B | 64.60 | 62.95 | 56.35 | 67.88 | 56.25 | 61.61 |
| Eagle2.5-8B | 64.16 | 54.91 | 52.49 | 59.59 | 54.55 | 57.14 |
| Qwen2.5-VL-72B | 69.47 | - | - | - | - | - |
关键发现¶
- 闭源模型在推理任务上 PAcc 53.17%,远高于开放任务的 32.78%
- Critic 微调(如 reward model 训练)提升了视觉基础能力,但无法泛化到多准则判断
- 推理微调不提升推理 judgment 反而削弱 trade-off 识别能力
- Test-time scaling 仅对 o4-mini 有效,对其他模型不一致
亮点¶
- 首个多准则多模态 Judge 基准,填补了准则级评估的空白
- 68.9%/86.5% 的样本存在准则冲突,挑战性极高
- 三个新指标(PAcc/TOS/CMR)从不同维度刻画 Judge 能力
- 289 小时高质量人工标注确保数据可靠性
- 揭示了当前最强模型的系统性不足,为改进方向提供指引
局限性 / 可改进方向¶
- 当前仅支持 pairwise comparison 模式,pointwise scoring 的多准则评估值得探索
- 开源模型在所有指标上落后闭源模型较多,需要针对性的多准则 Judge 训练数据
- 准则设计仍较通用,领域特定准则(如医疗、法律、代码)需进一步扩展
- 标注成本高(289 小时),可探索半自动标注管线降低扩展成本
- Tie 标注被限制在 10% 以下,可能会丢失真正难以区分的样本
- 当前仅评估了生成式 Judge,BT-style reward model 的多准则能力也值得研究