Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following¶

会议: CVPR 2026
arXiv: 2511.21662
代码: https://multi-crit.github.io
领域: 多模态VLM
关键词: LMM-as-Judge, 多准则评估, 基准测试, 偏好冲突, 评估可靠性

一句话总结¶

构建首个评估多模态 Judge 模型多准则遵循能力的基准 Multi-Crit，包含准则级人类标注和偏好冲突样本，配合三个新指标揭示当前最强模型在多准则评判上的系统性不足——最强闭源模型在开放生成任务上仅 32.78% 的多准则一致性。

领域现状：LMM-as-a-Judge 范式（用大模型评估大模型）被广泛采用，既用于自动评测也用于 RLHF 反馈。现有 Judge 基准（VL-Rewardbench、MM-RLHF 等）仅提供单一总体偏好标签。
现有痛点：单一偏好标签无法捕捉多维度的评估本质——两个回答可能在不同准则下存在 trade-off（如一个简洁但有幻觉，另一个详细但冗余），但现有基准无法区分。Judge 模型是否真正遵循了给定的评估准则？面对准则间的偏好冲突时能否做出正确判断？这些问题未被系统研究。
核心矛盾：Judge 模型需要同时满足"与人类偏好一致"和"灵活遵循多样化准则"两个要求，但后者被严重忽视。
本文要解决什么：(1) 如何构建包含多准则人工标注和偏好冲突的评估数据？(2) 如何度量 Judge 模型的多准则遵循能力？
切入角度：多准则评估 + 冲突检测——人类标注者独立标注每个准则下的偏好，天然暴露准则间冲突。
核心 idea：构建带准则级人工标注的挑战性基准 + 设计 PAcc/TOS/CMR 三个新指标 + 全面评估 25 个模型。

Multi-Crit 基准构建流程：多来源提示词收集 → 多模型响应生成 → 三阶段过滤保留挑战性样本 → 准则级人工标注（9 名 CS PhD，289 小时，Cohen's κ = 0.718/0.805）→ 偏好聚合与质量验证。

任务覆盖与准则设计：
做什么：覆盖开放生成和可验证推理两大场景
开放生成五准则：完整性与覆盖度、视觉基础与细节、事实性/无幻觉、创造性与表达力、清晰性与连贯性
可验证推理五准则：视觉基础、逻辑连贯性与一致性、事实性/无幻觉、反思与探索、简洁性与效率
设计原则：实用性（反映常见 Judge 使用场景）+ 特异性（准则间不重叠）+ 通用性（评估基本维度而非内容特定）
数据构建管线：
提示词来源：8 个数据集（ImageInWords、DOCCI、WildVision、MathVerse、MM-K12、EMMA-mini、VisualPuzzles）
响应生成：11 个 LMM 模型，含跨模型对和同模型温度采样对
三阶段过滤：长度归一化（排除长度悬殊对）→ 推理正确性过滤（保留双对/双错）→ 集成难度过滤（三强 Judge 一致的丢弃）
最终保留 425 个开放任务 + 126 个推理任务样本，标注 1425 个准则级判断
三个新评估指标：
PAcc（Pluralistic Adherence Accuracy）：所有准则都正确的比例，衡量多准则一致遵循
TOS（Trade-Off Sensitivity）：在存在准则冲突的样本上能否正确切换偏好方向
CMR（Conflict Match Rate）：能否正确识别准则间的偏好冲突