Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge¶
会议: ACL 2026
arXiv: 2603.11665
代码: 无
领域: 多模态VLM / 自动评估
关键词: MLLM-as-a-Judge, 多任务强化学习, GRPO, 统一评估, 分布外泛化
一句话总结¶
本文提出 MT-RL-Judge,一个多任务强化学习框架,通过 GRPO 联合优化多个评估任务训练统一的 MLLM-as-a-Judge 模型,在文本-图像对齐、安全合规和视觉质量评估等六个基准上一致超越 SFT 基线,并在未见过的 MJ-Bench 配对比较格式上展现出强大的分布外泛化能力(Safety 任务 82.23% vs SFT-Unified 的 49.40%)。
研究背景与动机¶
领域现状:MLLM-as-a-Judge 范式已成为大规模多模态内容评估的主流方案。现有方法分为两类:(1) 基于 prompt 的 Judge——直接使用现成 MLLM,通过 prompt 工程注入评估指南;(2) 微调 Judge——在特定评估数据集上 SFT 或 RL 训练,提升评估能力。
现有痛点:(1) 仅依赖 prompt 工程的 Judge 在复杂任务上表现不佳,需要任务特定训练;(2) 现有可训练 Judge 通常专注于单一任务(如安全合规或图像质量),无法泛化到多样化评估场景;(3) SFT 训练的 Judge 容易过拟合到特定指令格式——在 pointwise 评估上训练的模型无法处理 pairwise 比较任务,这在需求频繁变化的工业场景中极不实用;(4) 部署多个专用 Judge 模型维护成本高、推理开销大。
核心矛盾:SFT 的最大似然估计目标鼓励模型记忆输入-输出的表面统计关联,而非内化评估推理逻辑——导致模型在训练分布内表现良好,但对格式或任务的微小变化就会崩溃。
本文目标:构建一个统一的、RL 增强的 MLLM-as-a-Judge 框架,能够同时处理多样化评估任务,同时保持对未见任务格式的泛化能力。
切入角度:利用 RL(特别是 GRPO)鼓励模型在给出判断前先生成推理步骤,从而内化评估逻辑而非记忆表面模式。多任务训练让模型接触不同评估维度的共享标准,进一步增强泛化。
核心 idea:多任务 RL + 推理先行(reasoning-first)= 既准确又泛化的统一 Judge。
方法详解¶
整体框架¶
MT-RL-Judge 采用两阶段训练:(1) 可选的 SFT 预训练阶段;(2) 多任务 GRPO 强化学习阶段。训练数据来自六个评估基准的统一数据集 \(D_{unified} = \bigcup_{k=1}^{K} D_k\),覆盖文本-图像对齐(SeeTRUE, ImageReward)、安全合规(UnsafeBench)和视觉质量(AGIN 三子集)。模型基于 Qwen3-VL-30B-A3B-Instruct 骨干。
关键设计¶
-
复合奖励函数:
- 功能:同时优化输出格式合规性和判断准确性
- 核心思路:总奖励由准确率奖励和格式奖励的线性组合构成:\(R_{total} = (1-\alpha) \cdot R_{Acc} + \alpha \cdot R_{For}\)。\(R_{Acc}\) 在预测正确时为 1.0,否则为 0.0;\(R_{For}\) 在输出遵循"推理优先"结构时为 1.0,否则为 0.0。\(\alpha\) 控制两者的权重平衡
- 设计动机:格式奖励确保模型在给出判断前生成推理过程(类似 CoT),这不仅提升了判断质量,还增强了可解释性;准确率奖励直接优化判断正确性
-
GRPO 多任务训练目标:
- 功能:在多个评估任务上联合优化全局策略,无需单独的价值函数
- 核心思路:对统一数据集中的每个 prompt,从当前 Judge 模型采样 \(G=20\) 个输出,计算组内相对奖励进行策略优化。优化目标为最大化整个统一数据集上的期望奖励:\(\theta^* = \arg\max_\theta \mathbb{E}_{(x,p,y) \sim D_{unified}} [R_{total}(M_\theta(x))]\)。GRPO 通过组内平均奖励替代显式的价值函数,简化了训练
- 设计动机:与仅在单任务上训练 RL 不同,多任务 RL 让模型捕获不同评估域之间的共享标准和潜在关联,防止过拟合到特定 prompt 模板
-
推理先行的评估范式(Reasoning-First Paradigm):
- 功能:让 Judge 在给出最终判断前显式生成推理过程
- 核心思路:RL prompt 要求模型先输出推理痕迹(reasoning trace),再给出最终预测。格式奖励 \(R_{For}\) 强制执行这一结构。通过在推理中展开分析逻辑,模型更准确地逼近与人类偏好一致的评估逻辑
- 设计动机:SFT 倾向于模仿输入-输出的统计映射而非学习推理过程,导致泛化能力差。推理先行让模型必须"思考"后再"判断",这种能力在面对未见过的任务格式时尤为关键
损失函数 / 训练策略¶
SFT 阶段使用 AdamW 优化器,学习率 \(1.0 \times 10^{-5}\),batch size 256,全参数微调。RL 阶段使用 GRPO,rollout N=20,全局 batch size 256,rollout batch size 512。所有模型在验证集性能平台期后停止训练,选择最优 checkpoint。
实验关键数据¶
主实验¶
六个评估任务上的 Macro-F1 对比
| 方法 | AGIN-Nat | AGIN-Tech | AGIN-Rat | SeeTRUE | ImageReward | UnsafeBench |
|---|---|---|---|---|---|---|
| Off-the-shelf | 67.99 | 63.24 | 64.77 | 80.01 | 55.07 | 72.78 |
| SFT-Single | 78.64 | 77.04 | 78.08 | 80.41 | 64.95 | 90.28 |
| SFT-Unified | 81.75 | 81.22 | 81.31 | 82.32 | 63.34 | 89.49 |
| RL-Single | 80.50 | 80.77 | 82.71 | 83.41 | 65.07 | 86.92 |
| MT-RL-Judge | 81.63 | 81.37 | 81.58 | 83.67 | 64.97 | 85.22 |
消融实验¶
MJ-Bench 分布外泛化(未见过的 pairwise 格式)
| 方法 | Image-text Alignment | Safety Judge |
|---|---|---|
| Off-the-shelf | 59.41 | 73.07 |
| SFT-Unified | 55.82 | 49.40 |
| MT-RL-Judge | 60.59 | 82.23 |
关键发现¶
- RL 一致优于 SFT:RL-Single 在 6 个任务中 5 个超过 SFT-Single,尤其在推理密集型任务上(SeeTRUE +3.0, AGIN-Rat +4.63)
- 统一训练不降反升:SFT-Unified 在多数任务上优于 SFT-Single,说明多任务暴露能让模型学习跨域的共享评估标准
- SFT 严重过拟合格式:SFT-Unified 在 MJ-Bench Safety 上崩溃至 49.40%,远低于零样本基线的 73.07%——尽管训练时见过安全评估任务,但仅因输入从单图变为双图就完全失效
- MT-RL-Judge 泛化能力显著:在完全未见的 pairwise 格式上,Safety 达 82.23%(超 SFT-Unified 32.83 个百分点),验证了 RL 驱动的推理能力可以迁移到新格式
亮点与洞察¶
- SFT-Unified 在 MJ-Bench 上的灾难性退化是论文最有说服力的证据——清楚展示了 SFT 记忆格式而非学习逻辑的根本缺陷
- 多任务 RL 的"1+1>2"效应:联合训练不仅不牺牲单任务性能,反而通过跨任务知识共享提升了整体表现
- 推理先行的设计理念与近期 reasoning model(如 DeepSeek-R1、QwQ)的趋势一致,但应用在评估场景中是首次
- 实验设计精到:SFT-Single vs SFT-Unified vs RL-Single vs MT-RL-Judge 的四组对比清晰分离了统一训练和 RL 各自的贡献
局限与展望¶
- 实验主要在二分类评估任务上进行,未涉及多级评分或开放式评估
- 基座模型为 Qwen3-VL-30B-A3B(MoE),未验证在其他架构上的效果
- 六个训练任务的覆盖面仍然有限,更多评估维度的加入可能带来更强的泛化
- 未分析推理痕迹的质量和多样性,推理过程是否真正反映了评估逻辑仍需进一步验证
相关工作与启发¶
- vs SFT-based Judges(MLLM-as-a-Judge): SFT Judge 过拟合 prompt 模板,MT-RL-Judge 通过 RL 推理学习内化评估逻辑
- vs Mr. Judge / Flex-Judge: 现有工作多为单任务训练,MT-RL-Judge 首次实现统一多任务 RL Judge
- vs Self-Consistency 方法: 采样多个候选并投票的方法计算昂贵且可能包含相似错误,MT-RL-Judge 通过推理质量提升判断准确性
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个统一多任务 RL 的 MLLM-as-a-Judge 框架,SFT 过拟合格式的发现有深刻洞察
- 实验充分度: ⭐⭐⭐ 六个任务基准充分,但缺少更多 OOD 泛化测试和推理质量分析
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,实验对比设计精巧,但方法细节偏简洁
- 价值: ⭐⭐⭐⭐ 为工业级多模态评估提供了统一且泛化的解决方案,MJ-Bench 泛化结果令人信服
相关论文¶
- [NeurIPS 2025] SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning
- [AAAI 2026] ReCAD: Reinforcement Learning Enhanced Parametric CAD Model Generation with Vision-Language Models
- [ACL 2026] Targeted Exploration via Unified Entropy Control for Reinforcement Learning
- [CVPR 2026] Explore with Long-term Memory: A Benchmark and Multimodal LLM-based Reinforcement Learning Framework for Embodied Exploration
- [AAAI 2026] "Are We Done Yet?": A Vision-Based Judge for Autonomous Task Completion of Computer Use Agents