EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations¶
会议: ACL 2025
arXiv: 2506.24016
代码: 有
领域: 多模态VLM
关键词: 图像描述评估, 可解释评估指标, 结构化解释, VLM微调, 参考无关评估
一句话总结¶
本文提出 EXPERT,一种基于 VLM 微调的无参考图像描述评估指标,通过构建大规模结构化解释数据集并设计两阶段评估模板,在多个基准数据集上达到 SOTA 的同时,提供基于流畅度、相关性、描述性三个维度的高质量结构化解释。
研究背景与动机¶
图像描述(Image Captioning)的自动评估对于衡量和改进模型至关重要。近年来,可解释评估指标受到关注——它们不仅给出数值分数,还提供文本解释。然而现有可解释指标存在两个关键不足:
- 解释缺乏标准化准则:现有指标(如 FLEUR)生成的解释没有统一的评估维度和格式,导致内容和结构不一致
- 解释质量未经验证:此前的研究缺乏对生成解释质量的系统评估——即使分数准确,解释可能包含错误或不相关信息
核心问题:如何构建一个既准确评分又能提供高质量、可解释反馈的图像描述评估指标?
方法详解¶
整体框架¶
EXPERT 的构建分为三个阶段:
- 数据集构建:扩展现有人工评判数据集(Polaris、Nebula),为每个图像-描述对添加结构化解释
- 模板设计:设计两阶段评估模板(先评分后解释)
- 监督微调:在 LLaVA-1.5 (13B) 上进行 SFT
关键设计¶
1. 结构化解释数据集构建¶
扩展两个数据集获得大规模训练数据:
| 数据集 | 原数据集 | 解释数量 |
|---|---|---|
| Polaris-exp | Polaris (Wada et al., 2024) | 16,014 |
| Nebula-exp | Nebula (Matsuda et al., 2024) | 26,152 |
| 总计 | 42,166 |
每条解释基于三个标准化维度: - 流畅度(Fluency):描述是否流畅、自然、语法正确 - 相关性(Relevance):描述是否正确表述了视觉内容、与图像紧密相关 - 描述性(Descriptiveness):描述是否精准、信息丰富,涵盖图像重要细节
解释使用 GPT-4o 生成,并通过人工评估验证质量。
数据集质量验证(表1):
| 评估维度 | 平均分(4分制) | 标准差 |
|---|---|---|
| 一致性(Consistency) | 3.72 | 0.52 |
| 事实性(Factuality) | 3.84 | 0.39 |
| 信息量(Informativeness) | 3.72 | 0.45 |
4 名英语母语标注者对 100 个均匀采样的解释进行评估,确认质量很高。
2. 两阶段评估模板¶
模板采用先评分后解释的顺序(scoring-explanation order),已被先前研究证明有效:
第一阶段 - 评分: - 查询:要求对图像-描述对打分 - 回应:来自数据集的人工评分 - 分数分箱(Score Binning):将分数四舍五入到最近的 0.10 倍数,简化数值表示
第二阶段 - 解释: - 查询:要求基于三个维度提供简要解释 + 每个维度的描述 + 预定义输出格式 - 回应:数据集中对应的结构化解释
模板的关键设计点: - 两阶段使用相同的维度描述,保持一致性 - 预定义输出格式确保解释结构统一 - 评分阶段使用数据集中的人工分数,解释阶段使用 GPT-4o 生成的解释
3. 监督微调(SFT)¶
Base model: LLaVA-1.5 (13B)
数据处理: - 合并 Polaris-exp 和 Nebula-exp 的训练集 - Polaris 中同一图像-描述对有多名标注者分数 → 取均值 - 跨数据集重复对 → 合并取均值 - 转换为两阶段评估模板格式进行训练
4. 推理时的分数平滑¶
使用 Score Smoothing 获取更精细的分数:
其中 \(p(i,j)\) 是第 \(j\) 位小数处生成数字 \(i\) 的概率。相比贪心解码(直接取概率最高的数字),分数平滑利用了概率分布信息,产生更连续的分数。
损失函数 / 训练策略¶
- 标准 SFT 损失(交叉熵)
- 基于 LLaVA-1.5 (13B) 的全参数微调
- 采用贪心解码确保确定性和可复现性
- 分数平滑在推理阶段应用,不影响训练
实验关键数据¶
主实验¶
在多个人工评判基准上的性能(表2摘要):
| 指标 | Flickr8k-EX (τc) | Flickr8k-CF (τb) | COMPOSITE (τc) | Polaris (τc) | Nebula (τc) |
|---|---|---|---|---|---|
| CLIPScore | 51.2 | 34.4 | 53.8 | 52.3 | 46.9 |
| PAC-S | 54.3 | 36.0 | 55.7 | 52.5 | 47.2 |
| FLEUR | 53.0 | 38.6 | 63.5 | 58.3 | 51.7 |
| HICE-S | 56.4 | 37.2 | 57.9 | - | - |
| EXPERT | 56.7 | 39.3 | 65.0 | 61.1 | 54.9 |
| GPT-4o | 54.3 | 39.3 | 65.9 | 58.2 | 54.3 |
EXPERT 在所有无参考指标中取得 SOTA(除 Pascal-50S)。甚至超越了许多需要参考描述的指标(如 CLIPScore、PAC-S、FLEUR 等)。
与 GPT-4o 的对比:EXPERT 在大多数数据集上持平或优于 GPT-4o,展示了 13B 模型经过精心微调可以匹敌超大规模模型。
消融实验¶
解释质量人工评估(图4):
| 指标 | 一致性 | 事实性 | 信息量 |
|---|---|---|---|
| FLEUR | ~2.5 | ~2.8 | ~2.3 |
| EXPERT_{w/o SFT} | ~2.3 | ~2.5 | ~2.1 |
| EXPERT | ~3.4 | ~3.5 | ~3.2 |
关键发现: - EXPERT 在所有维度上大幅领先,差异在 0.01 显著性水平下统计显著 - 仅有标准化维度不够(EXPERT_{w/o SFT} 不优于 FLEUR),必须结合高质量解释的监督训练
定性分析(图3): - 示例1:描述提到「三只狗」但图中只有一只。FLEUR 忽略了描述遗漏飞盘的细节,EXPERT 准确指出缺乏对狗追飞盘动作的描述 - 示例2:描述有语法不完整。FLEUR 错误地将描述解读为提到「蓝色床」,EXPERT 正确识别语法不完整性
关键发现¶
- 小模型可超越 GPT-4o:13B 的 EXPERT 在评估任务上匹敌或超越 GPT-4o,原因在于 SFT 对齐了人工偏好 + 有完整的 token 概率用于分数平滑
- 跨数据集泛化性好:在 Polaris/Nebula(训练集来源)之外的数据集上也表现优异,表明人工评估偏好跨数据集有一定一致性
- 结构化解释 + 监督训练缺一不可:没有训练的结构化提示不比 FLEUR 好,但训练后提升巨大
- 最常见错误类型:对缺乏细节的描述过度惩罚
亮点与洞察¶
- 首次系统评估可解释指标的解释质量:之前的工作仅关注评分准确性,本文首次将解释质量本身作为评估对象
- 数据构建策略高效:利用 GPT-4o 生成解释 + 人工验证质量,以较低成本获得 42K+ 高质量训练数据
- 分数分箱 + 分数平滑的组合:训练时简化数值表示,推理时利用概率分布恢复精度,是一个巧妙的工程设计
- 实用的三维度评估框架:流畅度、相关性、描述性覆盖了图像描述评估的核心方面,具有良好的可解释性
局限性 / 可改进方向¶
- 推理速度慢:生成结构化解释需要大量输出 token,显著增加推理时间
- 过度惩罚倾向:最常见错误是对缺乏细节的描述给予过低分数
- 仅支持英语:基于 LLaVA-1.5 的微调限制了多语言能力
- 解释数据依赖 GPT-4o:如果 GPT-4o 的评判存在系统性偏差,会传递到 EXPERT
- 可探索方向:更大的基础模型(如 LLaVA-Next)、更多评估维度(如创意性、幽默性)、多语言扩展
相关工作与启发¶
- FLEUR (Lee et al., 2024):唯一的可解释无参考指标前序工作,使用 scoring-explanation 顺序但缺乏标准化维度
- Polaris (Wada et al., 2024) / Nebula (Matsuda et al., 2024):本文扩展的人工评判数据集
- CLIPScore (Hessel et al., 2021):基于 CLIP 的无参考指标基线
- HICE-S (Zeng et al., 2024):层次化图像描述评估,在 Pascal-50S 上优于 EXPERT
- 启发:「评分 + 结构化解释」的监督微调范式可推广到其他生成任务的评估(如摘要评估、对话评估、代码评估)
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 创新性 | 4 |
| 实用性 | 4.5 |
| 实验完整度 | 5 |
| 写作清晰度 | 4.5 |
| 总评 | 4.5 |
实验异常扎实——6 个基准数据集、20+ 个基线对比、人工评估验证解释质量。数据构建和模板设计都很精巧。作为评估指标论文,兼顾了准确性和可解释性两个维度,具有很高的实用价值。