Calibrating MLLM-as-a-Judge via Multimodal Bayesian Prompt Ensembles¶

会议: ICCV 2025
arXiv: 2509.08777
代码: 无
领域: 多模态评估 / 图像生成
关键词: MLLM-as-a-Judge, 提示集成, 贝叶斯推理, 校准, 文本到图像生成

一句话总结¶

提出Multimodal Mixture-of-Bayesian Prompt Ensembles (MMB)，通过基于图像聚类的多模态感知提示权重学习，显著改善MLLM作为评判者时的校准性和判断准确性，解决了标准提示集成方法在多模态场景下失效的问题。

MLLM被越来越多地用作自动化评判者来评估文本到图像（TTI）生成系统，但面临多重困境：

偏差问题：评判模型倾向于偏好与自身训练谱系相似的输出，奖励冗长回答，对微小提示修改敏感

过度自信：模型的预测概率无法准确反映实际正确频率，导致高置信度错误判断

跨域不一致：不同图像类型（照片 vs 抽象艺术）需要不同的评判策略

黑盒限制：最强的MLLM通常是闭源API，无法微调或内部检查

现有的贝叶斯提示集成（BPE）方法在纯文本任务上有效，但假设所有提示对所有样本同等重要，这在多模态场景中不成立——用于评估光照质量的提示可能对照片有效但对数字艺术无效。

MMB的核心思想是：不同视觉内容需要不同的评判提示组合。通过图像嵌入聚类，将样本分组，每组学习独立的提示权重，最终通过软组分配机制在推理时自适应地组合提示。

软图像分组（Soft Image Grouping）：
- 使用预训练CLIP-ViT-B16提取图像嵌入 \(\phi_I(x)\)
- 对无标签支持集 \(\mathcal{D}_{sup}\) 的图像嵌入执行球面k-means聚类，得到 \(K\) 个组
- 定义基于余弦相似度的软分配概率： \(p(z|x) \propto \exp(\text{sim}(\phi_I(x), g_z) / \tau)\)
- 温度参数 \(\tau\) 控制分配的软硬程度：\(\tau \to 0\) 为硬分配（独立BPE per组），\(\tau \to \infty\) 为均匀分配（退化为全局BPE）
分组后验提示权重学习：
- 对每个组 \(z\) 引入独立的变分分布 \(q(a|z)\)，参数化为可学习权重 \(w_{za}\)
- 通过最大化带图像条件的ELBO来优化： \(\sum_{j=1}^{M} \sum_z p(z|x_j) \left[ \sum_a w_{za} \log p(y_j^*|x_j, a) - \sum_a w_{za} \log w_{za} \right]\)
- 第一项（分组对数似然）奖励在该组上表现好的提示
- 第二项（分组熵正则化）防止权重坍缩到单一提示
推理时的自适应提示融合：
- 给定新样本 \(x\)，首先计算其对 \(K\) 个组的软分配概率 \(p(z|x)\)
- 然后通过加权求和组合各组的提示预测： \(p(y|x) \approx \sum_z p(z|x) \sum_a w_{za}^* p(y|x, a_i)\)
- 关键洞察：同一提示在不同图像组中可以有不同的重要性

方法	ECE↓	MCE↓	AUC-PR↑
Std. (随机单提示)	0.263	0.422	0.716
Best (最佳单提示)	0.153	0.342	0.812
Avg. (均匀集成)	0.133	0.210	0.849
BPE (现有SOTA)	0.111	0.274	0.841
MMB (本文)	0.080	0.172	0.847

5样本/20提示配置下：MMB相比Avg.基线ECE降低39.8%，相比BPE降低27.9%

提示数	样本数	Avg. ECE	BPE ECE	MMB ECE	MMB相对Avg.改善
5	5	0.155	0.127	0.113	-27.1%
10	20	0.142	0.114	0.091	-35.9%
20	50	0.133	0.113	0.076	-42.9%
5	50	0.155	0.121	0.107	-31.0%

标准BPE在多模态场景的局限：BPE在降低ECE的同时往往损害F1（判别力），MMB则同时改善两者（+1.8% F1 vs Avg.，-36% ECE vs Avg.）
提示数和样本数的交互效应：增加提示数和样本数都能提升MMB效果，且两者存在正交收益
MJBench偏差实验：MMB使社会偏差场景下的预测置信度更接近理想的50%，说明校准改善有助于偏差缓解
所有统计差异均通过95%置信度排列检验，并使用Benjamini-Yekutieli FDR校正控制I类错误膨胀