Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge¶

会议: ACL 2026
arXiv: 2603.11665
代码: 无
领域: 多模态VLM / 自动评估
关键词: MLLM-as-a-Judge, 多任务强化学习, GRPO, 统一评估, 分布外泛化

一句话总结¶

本文提出 MT-RL-Judge，一个多任务强化学习框架，通过 GRPO 联合优化多个评估任务训练统一的 MLLM-as-a-Judge 模型，在文本-图像对齐、安全合规和视觉质量评估等六个基准上一致超越 SFT 基线，并在未见过的 MJ-Bench 配对比较格式上展现出强大的分布外泛化能力（Safety 任务 82.23% vs SFT-Unified 的 49.40%）。

研究背景与动机¶

领域现状：MLLM-as-a-Judge 范式已成为大规模多模态内容评估的主流方案。现有方法分为两类：(1) 基于 prompt 的 Judge——直接使用现成 MLLM，通过 prompt 工程注入评估指南；(2) 微调 Judge——在特定评估数据集上 SFT 或 RL 训练，提升评估能力。

现有痛点：(1) 仅依赖 prompt 工程的 Judge 在复杂任务上表现不佳，需要任务特定训练；(2) 现有可训练 Judge 通常专注于单一任务（如安全合规或图像质量），无法泛化到多样化评估场景；(3) SFT 训练的 Judge 容易过拟合到特定指令格式——在 pointwise 评估上训练的模型无法处理 pairwise 比较任务，这在需求频繁变化的工业场景中极不实用；(4) 部署多个专用 Judge 模型维护成本高、推理开销大。

核心矛盾：SFT 的最大似然估计目标鼓励模型记忆输入-输出的表面统计关联，而非内化评估推理逻辑——导致模型在训练分布内表现良好，但对格式或任务的微小变化就会崩溃。

本文目标：构建一个统一的、RL 增强的 MLLM-as-a-Judge 框架，能够同时处理多样化评估任务，同时保持对未见任务格式的泛化能力。

切入角度：利用 RL（特别是 GRPO）鼓励模型在给出判断前先生成推理步骤，从而内化评估逻辑而非记忆表面模式。多任务训练让模型接触不同评估维度的共享标准，进一步增强泛化。

核心 idea：多任务 RL + 推理先行（reasoning-first）= 既准确又泛化的统一 Judge。

方法详解¶

整体框架¶

MT-RL-Judge 采用两阶段训练：(1) 可选的 SFT 预训练阶段；(2) 多任务 GRPO 强化学习阶段。训练数据来自六个评估基准的统一数据集 \(D_{unified} = \bigcup_{k=1}^{K} D_k\)，覆盖文本-图像对齐（SeeTRUE, ImageReward）、安全合规（UnsafeBench）和视觉质量（AGIN 三子集）。模型基于 Qwen3-VL-30B-A3B-Instruct 骨干。

关键设计¶

复合奖励函数:
- 功能：同时优化输出格式合规性和判断准确性
- 核心思路：总奖励由准确率奖励和格式奖励的线性组合构成：\(R_{total} = (1-\alpha) \cdot R_{Acc} + \alpha \cdot R_{For}\)。\(R_{Acc}\) 在预测正确时为 1.0，否则为 0.0；\(R_{For}\) 在输出遵循"推理优先"结构时为 1.0，否则为 0.0。\(\alpha\) 控制两者的权重平衡
- 设计动机：格式奖励确保模型在给出判断前生成推理过程（类似 CoT），这不仅提升了判断质量，还增强了可解释性；准确率奖励直接优化判断正确性
GRPO 多任务训练目标:
- 功能：在多个评估任务上联合优化全局策略，无需单独的价值函数
- 核心思路：对统一数据集中的每个 prompt，从当前 Judge 模型采样 \(G=20\) 个输出，计算组内相对奖励进行策略优化。优化目标为最大化整个统一数据集上的期望奖励：\(\theta^* = \arg\max_\theta \mathbb{E}_{(x,p,y) \sim D_{unified}} [R_{total}(M_\theta(x))]\)。GRPO 通过组内平均奖励替代显式的价值函数，简化了训练
- 设计动机：与仅在单任务上训练 RL 不同，多任务 RL 让模型捕获不同评估域之间的共享标准和潜在关联，防止过拟合到特定 prompt 模板
推理先行的评估范式（Reasoning-First Paradigm）:
- 功能：让 Judge 在给出最终判断前显式生成推理过程
- 核心思路：RL prompt 要求模型先输出推理痕迹（reasoning trace），再给出最终预测。格式奖励 \(R_{For}\) 强制执行这一结构。通过在推理中展开分析逻辑，模型更准确地逼近与人类偏好一致的评估逻辑
- 设计动机：SFT 倾向于模仿输入-输出的统计映射而非学习推理过程，导致泛化能力差。推理先行让模型必须"思考"后再"判断"，这种能力在面对未见过的任务格式时尤为关键

损失函数 / 训练策略¶

SFT 阶段使用 AdamW 优化器，学习率 \(1.0 \times 10^{-5}\)，batch size 256，全参数微调。RL 阶段使用 GRPO，rollout N=20，全局 batch size 256，rollout batch size 512。所有模型在验证集性能平台期后停止训练，选择最优 checkpoint。

实验关键数据¶

主实验¶

六个评估任务上的 Macro-F1 对比

方法	AGIN-Nat	AGIN-Tech	AGIN-Rat	SeeTRUE	ImageReward	UnsafeBench
Off-the-shelf	67.99	63.24	64.77	80.01	55.07	72.78
SFT-Single	78.64	77.04	78.08	80.41	64.95	90.28
SFT-Unified	81.75	81.22	81.31	82.32	63.34	89.49
RL-Single	80.50	80.77	82.71	83.41	65.07	86.92
MT-RL-Judge	81.63	81.37	81.58	83.67	64.97	85.22

消融实验¶

MJ-Bench 分布外泛化（未见过的 pairwise 格式）

方法	Image-text Alignment	Safety Judge
Off-the-shelf	59.41	73.07
SFT-Unified	55.82	49.40
MT-RL-Judge	60.59	82.23

关键发现¶

RL 一致优于 SFT：RL-Single 在 6 个任务中 5 个超过 SFT-Single，尤其在推理密集型任务上（SeeTRUE +3.0, AGIN-Rat +4.63）
统一训练不降反升：SFT-Unified 在多数任务上优于 SFT-Single，说明多任务暴露能让模型学习跨域的共享评估标准
SFT 严重过拟合格式：SFT-Unified 在 MJ-Bench Safety 上崩溃至 49.40%，远低于零样本基线的 73.07%——尽管训练时见过安全评估任务，但仅因输入从单图变为双图就完全失效
MT-RL-Judge 泛化能力显著：在完全未见的 pairwise 格式上，Safety 达 82.23%（超 SFT-Unified 32.83 个百分点），验证了 RL 驱动的推理能力可以迁移到新格式

亮点与洞察¶

SFT-Unified 在 MJ-Bench 上的灾难性退化是论文最有说服力的证据——清楚展示了 SFT 记忆格式而非学习逻辑的根本缺陷
多任务 RL 的"1+1>2"效应：联合训练不仅不牺牲单任务性能，反而通过跨任务知识共享提升了整体表现
推理先行的设计理念与近期 reasoning model（如 DeepSeek-R1、QwQ）的趋势一致，但应用在评估场景中是首次
实验设计精到：SFT-Single vs SFT-Unified vs RL-Single vs MT-RL-Judge 的四组对比清晰分离了统一训练和 RL 各自的贡献

局限与展望¶

实验主要在二分类评估任务上进行，未涉及多级评分或开放式评估
基座模型为 Qwen3-VL-30B-A3B（MoE），未验证在其他架构上的效果
六个训练任务的覆盖面仍然有限，更多评估维度的加入可能带来更强的泛化
未分析推理痕迹的质量和多样性，推理过程是否真正反映了评估逻辑仍需进一步验证

评分¶

新颖性: ⭐⭐⭐⭐ 首个统一多任务 RL 的 MLLM-as-a-Judge 框架，SFT 过拟合格式的发现有深刻洞察
实验充分度: ⭐⭐⭐ 六个任务基准充分，但缺少更多 OOD 泛化测试和推理质量分析
写作质量: ⭐⭐⭐⭐ 问题动机清晰，实验对比设计精巧，但方法细节偏简洁
价值: ⭐⭐⭐⭐ 为工业级多模态评估提供了统一且泛化的解决方案，MJ-Bench 泛化结果令人信服