NeurIPS 2025 图像生成 LLM-as-a-Judge 多模态评估推理引导跨模态迁移零样本泛化偏好优化

Flex-Judge: Text-Only Reasoning Unleashes Zero-Shot Multimodal Evaluators¶

会议: NeurIPS 2025
arXiv: 2505.18601
代码: https://flex-judge.github.io
领域: image_generation / multimodal evaluation
关键词: LLM-as-a-Judge, 多模态评估, 推理引导, 跨模态迁移, 零样本泛化, 偏好优化

一句话总结¶

提出 Flex-Judge，仅用 1K 条纯文本推理数据微调多模态大模型，即可零样本泛化到图像/视频/音频/分子等多模态评判任务，性能媲美甚至超越 GPT-4o 等商业 API 和大规模标注训练的专用评估器。

研究背景与动机¶

问题定义¶

随着生成模型从纯文本扩展到图像、视频、音频等多模态领域，如何高效评估生成质量成为关键问题。传统的人工评估成本高昂且难以规模化，LLM-as-a-Judge 范式虽能降低成本，但面临两大核心挑战：

商业 API 的不可控性：GPT-4V 等闭源模型存在透明性、可控性和经济性问题，模型更新可能悄无声息地降低评估质量（如 GPT-4V 在 MLLM-as-a-Judge 基准上的性能曾出现显著下降）

多模态覆盖不足：现有评判模型多限于文本或视觉-语言任务，对音频、分子结构、热力图、3D 点云等模态缺乏有效支持，且构建模态特定的标注数据极为困难

核心假设¶

作者从多语言 LLM 的跨语言迁移现象获得启发：在一种语言上微调下游任务可以提升其他语言的性能。类比地，如果模型学到了统一的跨模态表示，在单一模态（文本）上微调就可能实现向其他模态的泛化。关键直觉是：结构化的文本推理解释天然编码了可泛化的决策模式，使模型能将"为什么偏好 A 而非 B"的判断逻辑迁移到多模态场景。

方法详解¶

整体框架¶

Flex-Judge 的核心思路极其简洁：Think Once, Judge Anywhere（推理一次，处处评判）。

数据生成：利用 JudgeLRM-7B（一个专门训练的推理型评判 LM）生成带有 <think></think> 标签的结构化推理标注
质量筛选：从 JudgeLM-100K 数据集中筛选出仅 1K 条高质量纯文本推理样本作为训练集
微调 MLLM：用这 1K 条文本数据微调 Qwen2.5-VL-7B 或 Qwen2.5-Omni-7B，得到 Flex-VL-7B 和 Flex-Omni-7B
零样本推理：推理时直接输入多模态内容，模型无需额外微调即可执行评判

关键设计：数据策展策略¶

训练数据的策展是 Flex-Judge 成功的核心，作者从四个维度精心设计：

质量与难度筛选：保留 JudgeLRM-7B 预测评分与 GPT-4o 标注一致的样本；优先选择推理链更长的样本（更长推理暗示更高难度），这与文献中"高质量+高难度样本提升样本效率"的发现一致
样本数量控制：过多训练样本反而导致灾难性遗忘——语言端评判能力提升但多模态理解力下降。实验表明 1K 是一个甜蜜点
On-policy 采样：使用低温度解码生成训练数据，因为 JudgeLRM-7B 与 Flex-Judge 共享 LLM 骨干，低损失的 on-policy 样本有助于防止灾难性遗忘
格式多样性：将 JudgeLRM-7B 原本仅支持的 1-10 分成对评分，后处理为支持单分评分、成对比较、1-5/1-10 分制等多种格式，提升对多样评估指令的泛化能力

损失函数¶

标准的监督微调（SFT）损失，在纯文本推理标注数据上优化 MLLM 的语言建模目标。训练时仅更新语言模型部分，保持模态编码器不变。

推理时扩展¶

Flex-Judge 支持两种推理时扩展策略以进一步提升评判质量：

多数投票（Majority Voting）：多次采样取多数判断，在 VL-RewardBench 推理子集上持续提升性能
预算强制（Budget Forcing）：注入 "Wait" 关键词触发更深层推理，在分数评估上带来稳定收益

实验关键数据¶

主实验：图像理解评估（MLLM-as-a-Judge）¶

模型	训练免？	Score ↑	Pair w. Tie ↑	Pair w.o. Tie ↑	Batch ↓
GPT-4V	✗	0.424	0.538	0.717	0.361
Gemini-2.5-Pro	✗	0.390	0.556	0.668	0.512
LLaVA-Critic-7B (113K数据)	✗	0.314	0.556	0.689	0.565
Qwen2.5-VL-7B (基线)	✓	0.165	0.423	0.425	0.585
Flex-VL-7B (1K数据)	✓	0.332	0.538	0.655	0.426
Flex-Omni-7B (1K数据)	✓	0.306	0.532	0.650	0.425

VL-RewardBench 与 MJ-Bench¶

模型	VL-RewardBench Overall ↑	MJ-Bench Safety w. Tie ↑
GPT-4o	65.8	35.3
LLaVA-Critic-7B	43.7	—
Flex-VL-7B	48.60	57.51
Flex-Omni-7B	48.02	47.69

Flex-VL-7B 在 VL-RewardBench 上超越了所有 72B 级别的开源模型（如 Qwen2-VL-72B 的 39.5），且在 MJ-Bench 安全检测上大幅领先 GPT-4o。

视频生成评估（GenAI-Bench）¶

模型	图像生成	图像编辑	视频生成	总体
GPT-4o	45.59	53.54	48.46	49.20
Flex-VL-7B + 多数投票	46.34	54.19	47.34	49.29

Flex-VL-7B 配合多数投票，总体性能超过 GPT-4o。

消融实验¶

消融维度	结果
推理顺序（先推理 vs 先回答）	先推理一致优于先回答，Score 从 0.290→0.332
数据质量 vs 模态对齐	高质量文本数据 > 低质量图文数据（VL-Reward: 48.60 vs 43.84）
推理时扩展	多数投票在成对比较上持续提升；预算强制在分数评估上有稳定小幅收益
训练样本数	1K 最优；更多样本导致多模态性能下降

分子领域扩展（Flex-Mol-LLaMA）¶

方法	Default	CoT	w/ Task Info
Mol-LLaMA 基线	63.55	64.37	72.48
+ Best-of-16 采样	68.85	69.83	77.49
+ DPO 偏好优化	76.41	75.92	80.10

在 PAMPA 渗透性预测任务上，DPO 训练后的 Mol-LLaMA 达到 80.10%，大幅超越此前 SOTA。

关键发现¶

数据效率惊人：1K 文本推理数据 vs LLaVA-Critic 的 113K 图文对 vs Prometheus-Vision 的 150K 图文对，Flex-Judge 以 1/100 的数据量实现了可比或更优的性能
推理长度与任务难度相关：更难的任务激发更长的推理链，推理能力对准确评判至关重要
跨模态迁移有效：纯文本推理训练可以有效迁移到图像、视频、音频甚至分子模态

亮点与洞察¶

极简而高效的范式：核心发现是"不需要大规模多模态标注来训练有效的多模态评判器——少量高质量推理数据就够了"，这对整个 LLM-as-a-Judge 领域具有范式转换意义
跨模态推理迁移的实证验证：首次系统性地证明文本推理能力可以迁移到视觉、音频、分子等不同模态的评判任务
推理时扩展的独特优势：与prior工作相反，Flex-Judge 从多数投票等推理时扩展中获益，因为推理训练产生了更多样化的推理路径
分子领域的开创性应用：提出了首个分子模态的评判模型 Flex-Mol-LLaMA，展示了在缺乏专用奖励模型的领域的实用价值
数据质量 > 模态对齐：实验明确表明高质量文本数据优于低质量模态对齐数据，挑战了"模态匹配必须"的常规认知

局限性¶

仅验证了 7B 规模模型：未探索更大或更小规模模型上的表现，泛化性有待验证
音频评估仍有差距：与任务特定微调的专用模型（Single-task SOTA）相比，Flex-Omni-7B 在音频质量评估上仍有较大差距
分子领域任务单一：仅在 PAMPA 渗透性预测任务上验证，未覆盖更广泛的分子性质预测任务
数据生成依赖 JudgeLRM：种子数据的质量强依赖于 JudgeLRM-7B，如果 JudgeLRM 本身存在偏差，可能传播到 Flex-Judge
未探索更困难的生成评估场景：如长视频理解、多轮对话评估等更复杂的场景未涉及