跳转至

LLaVA-Critic: Learning to Evaluate Multimodal Models

会议: CVPR 2025
arXiv: 2410.02712
代码: https://github.com/LLaVA-VL/LLaVA-NeXT (有)
领域: 多模态VLM
关键词: 多模态评估器, LMM-as-a-Judge, 偏好学习, 评估指令数据, 奖励信号

一句话总结

LLaVA-Critic 是首个开源的通用多模态评估模型,通过在精心构建的113k评估指令数据上训练,使开源LMM具备了接近GPT-4o水平的Pointwise评分和Pairwise排序能力,并可作为奖励模型为迭代DPO提供有效的偏好信号,超越基于人类反馈训练的LLaVA-RLHF奖励模型。

研究背景与动机

随着LMM进入后训练时代,"学习评估"的能力变得至关重要:(1) 大量评估Benchmark依赖GPT-4V/4o作为Judge,成本高且不可定制;(2) 偏好学习(DPO/RLHF)需要可靠的奖励信号,但收集人类反馈昂贵且难以规模化;(3) 推理时搜索(如Best-of-N)需要评估器来选择最优回复。

核心矛盾在于:现有开源LMM虽然在各种视觉任务上取得长足进步,但在"判断回复质量"这一判别性能力上几乎未被训练过。直接用LLaVA-OneVision做评估时,它倾向于给出固定分数(如WildVision上总说"Tie",MMHal上总打"6分"),无法提供有效的区分度。

LLaVA-Critic的切入角度:将"评估"视为一种可训练的指令遵循能力,通过构建高质量的评估指令数据来教模型"如何做好Judge"。核心idea:一个好的评估器不仅要给出分数,还需要提供有理有据的判断理由。

方法详解

整体框架

LLaVA-Critic的构建分为两步:(1) 数据收集——为Pointwise评分和Pairwise排序两种设置构建113k评估指令数据;(2) 模型训练——在LLaVA-OneVision预训练检查点上微调1个epoch。训练完成后的模型可应用于两个场景:作为评估器替代GPT-4o(Scenario 1),以及作为奖励模型提供偏好信号(Scenario 2)。

关键设计

  1. Pointwise评估数据构建:

    • 功能:训练模型根据特定评估标准对单个回复进行打分并给出理由
    • 核心思路:从8个多模态指令微调数据集中选取指令(覆盖通用对话、复杂推理、OCR、医学、机器人等领域),收集12个off-the-shelf LMM的回复(来自VLFeedback),并用GPT-4o生成高质量参考答案。关键创新是构建了一个来自7个主流评估Benchmark的评估提示池(evaluation prompt pool),包含LLaVA-Bench、LLaVA-Wilder、MMVet、MMHal-Bench等的评估标准。通过GPT-4o作为Judge对每个(指令, 回复, 评估标准)组合输出分数和理由
    • 设计动机:不同Benchmark的评估标准差异很大(视觉聊天vs详细描述vs幻觉检测),模型需要学习理解和遵循多样化的评估提示。最终产出18,915个图像-问题对和72,782个Pointwise样本
  2. Pairwise排序数据构建:

    • 功能:训练模型比较两个回复并判断偏好关系
    • 核心思路:从VLFeedback、LLaVA-RLHF、RLHF-V三个数据集收集已有偏好关系的回复对。VLFeedback中按GPT-4V三维度评分差距>0.6筛选20k对,另加5k个Tie样本确保多样性;RLHF和RLHF-V分别提供9.4k和5.7k人工标注偏好对。设计30个多样化评估提示模板,每对随机分配模板。用GPT-4o生成判断理由
    • 设计动机:Pairwise评估在实际中极为常见(Arena排名、A/B测试),且需要处理平局情况。30个模板确保模型不会过拟合特定评估格式。总计40.1k Pairwise样本
  3. 迭代DPO偏好学习 (Scenario 2):

    • 功能:利用LLaVA-Critic作为奖励模型为偏好学习提供信号
    • 核心思路:对每个问题-图像对,用策略模型随机生成 \(K=5\) 个候选回复。构造所有 \(K\times(K-1)\) 个有序对,LLaVA-Critic对每对产生相对评分 \(a_{ij}\)。汇总得到每个回复的奖励分 \(r_i = \sum_{k \neq i} a_{ki} - \sum_{l \neq i} a_{il}\),选取最高分作为 \(y^+\)、最低分作为 \(y^-\) 进行DPO训练。迭代 \(M=3\)
    • 设计动机:通过所有有序对打分并对称聚合,有效缓解LLaVA-Critic可能存在的位置偏差(先出现的回复可能被偏好)。这种"循环赛"式的评分比单次比较更稳健

损失函数 / 训练策略

  • LLaVA-Critic训练:标准交叉熵损失,同时在分数和理由上计算loss。学习率 \(2\times10^{-6}\),batch size 32,1个epoch
  • 偏好学习:标准DPO损失,温度0.7,top-p 0.9用于候选回复采样
  • 完整数据集113k(72.8k Pointwise + 40.1k Pairwise);精简版53k(42k + 11k)

实验关键数据

主实验:Pointwise评分(Pearson-r与GPT-4o的相关性)

评估器 ImageDC MMVet WildVision LLaVA-B LLaVA-W L-Wilder MMHal Avg
LLaVA-OV-7B 0.056 0.349 0.251 0.335 0.533 0.592 0.433 0.364
Qwen2-VL-7B 0.199 0.463 0.096 0.208 0.476 0.694 0.329 0.352
LLaVA-Critic-7B 0.735 0.733 0.616 0.510 0.843 0.940 0.748 0.732
LLaVA-OV-72B 0.718 0.680 0.446 0.436 0.716 0.824 0.620 0.634
LLaVA-Critic-72B 0.802 0.723 0.705 0.524 0.782 0.951 0.790 0.754

主实验:Pairwise排序(WildVision Arena对齐人类偏好)

评估器 Acc(含Tie)↑ Acc(不含Tie)↑ Kendall's τ↑
GPT-4o 0.617 0.734 0.819
GPT-4V 0.620 0.733 0.787
LLaVA-OV-7B 0.531 0.640 0.715
LLaVA-Critic-7B 0.596 0.722 0.763
LLaVA-Critic-72B 0.605 0.736 0.779

偏好学习效果

基础模型 奖励来源 LLaVA-W L-Wilder WV-B Live-B V-DC MMHal
OV-7B 无(基线) 90.7 67.8 54.0 77.1 3.75 3.19
OV-7B LLaVA-RLHF 97.5 70.3 64.1 83.1 3.84 4.01
OV-7B Critic-7B 100.3 71.6 67.3 84.5 3.87 3.91
OV-72B LLaVA-RLHF 103.2 75.2 65.2 86.2 3.85 3.67
OV-72B Critic-72B 104.4 75.9 70.0 88.5 3.86 3.77

消融实验

配置 平均Pearson-r 说明
LLaVA-Critic-7B (v0.5, 53k数据) 0.712 较少数据和领域
LLaVA-Critic-7B (113k数据) 0.732 数据scaling有效
LLaVA-Critic-72B 0.754 模型scaling有效

关键发现

  • 7B Critic接近72B水平:LLaVA-Critic-7B (0.732) 与 72B (0.754) 的Pointwise评分差距极小,而远超Qwen2-VL-7B (0.352) 和 LLaMA3.2-V-11B (0.359),说明评估能力可以通过少量高质量数据高效习得
  • LLaVA-OV原生评估能力极弱:未经Critic训练的LLaVA-OV-7B平均Pearson-r仅0.364,会给出千篇一律的固定分数,无法区分回复质量差异
  • Critic奖励优于人类反馈奖励:在偏好学习中,LLaVA-Critic-7B在5/6个Benchmark上超越LLaVA-RLHF(基于人类反馈训练的奖励模型),且仅用9.4k提示即可
  • Best-of-N推理搜索有效:在已DPO训练的模型上,用Critic-7B做Best-of-5选择可额外获得+1.7 (LLaVA-W) 和 +3.2 (L-Wilder) 的提升
  • 跨模态泛化:仅用图像数据训练偏好对齐,在视频详细描述(Video-DC)任务上也获得提升

亮点与洞察

  • 首个开源通用多模态Judge:填补了开源社区在LMM评估器上的空白,GPT-4o评估一次迭代DPO约$690,LLaVA-Critic完全免费
  • 评估提示池的设计哲学:不是训练一个"万能判断标准",而是让模型学习"理解和遵循不同的评估标准",这使得Critic可以适应任意用户定义的评估维度
  • 对称聚合消除位置偏差:通过所有有序对打分并取 \(r_i = \sum a_{ki} - \sum a_{il}\) 的设计,巧妙地消除了pairwise评估中常见的位置偏差问题
  • 分数+理由的双重训练:不仅训练模型给分数,还训练给理由,使评估过程透明且可验证

局限与展望

  • 训练数据依赖GPT-4o生成分数和理由,存在蒸馏天花板
  • Pointwise评估中不同Benchmark的分数标准不统一(1-10 vs 1-5),跨Benchmark泛化需要更统一的设计
  • 113k数据量相对较小,在涉及专业领域(科学、医学)的评估上可能不够充分
  • 未探索用LLaVA-Critic自身产生的评估数据来迭代训练更强的Critic(self-improving评估器)

相关工作与启发

  • vs Prometheus-Vision: 首个VLM评估器但仅支持用户定义的评分标准,不是通用评估器。LLaVA-Critic覆盖7种评估场景,通用性远强
  • vs RLAIF-V (2405.17220): RLAIF-V用分治策略计算原子声明级奖励,LLaVA-Critic训练专门的评估器提供回复级奖励。在LLaVA-v1.5-7B的偏好学习对比中,LLaVA-Critic以9.4k提示达到与RLAIF-V 33.8k提示相当的效果,效率更高
  • vs CriticGPT: CriticGPT专注于代码评估,LLaVA-Critic是多模态通用版本,可评估视觉聊天、详细描述、幻觉检测等多种任务

评分

  • 新颖性: ⭐⭐⭐⭐ 首个开源通用多模态评估器的定位有价值,但核心方法(用GPT-4o生成评估数据做微调)并非全新
  • 实验充分度: ⭐⭐⭐⭐⭐ In-domain/Out-of-domain评估、Pointwise/Pairwise设置、偏好学习对比、推理搜索、数据/模型scaling消融,极其全面
  • 写作质量: ⭐⭐⭐⭐⭐ 两大场景(Judge/Preference)的组织结构清晰,数据构建流程描述详尽
  • 价值: ⭐⭐⭐⭐⭐ 开源免费的GPT-4o替代评估器+偏好信号源,对LMM开发者有极高实用价值

相关论文