跳转至

📚 AI Paper Notes

CAPability: A Comprehensive Visual Caption Benchmark for Evaluation

CAPability: A Comprehensive Visual Caption Benchmark for Evaluation¶

会议: NeurIPS 2025 arXiv: 2502.14914 代码: 有领域: 多模态VLM / 评估 关键词: visual captioning, benchmark, multi-dimensional evaluation, VLM, KT gap

一句话总结¶

构建 CAPability——11K 标注的图片/视频描述评估基准，从 6 个视角 12 个维度评估 VLM 的描述能力，引入 KT（know-but-cannot-tell）指标衡量 VLM 在 QA 中已知但描述中遗漏的信息差距。

研究背景与动机¶

领域现状：视觉描述评估多用 CIDEr/METEOR 等自动指标，但这些指标与人类判断相关性低且只评估整体质量。
现有痛点：(1) 缺乏细粒度多维度评估；(2) 不区分"模型不知道"和"模型知道但没说"两种失败模式；(3) 静态和动态描述缺乏统一评估框架。
本文要解决什么？ 提供多维度、支持 KT gap 分析的全面描述评估基准。

方法详解¶

关键设计¶

6个视角12个维度：Object（物体识别/属性/关系/数量）、Global（场景/情感）、Text（OCR）、Camera（角度/运动）、Temporal（时序）、Knowledge（常识）
Precision + Hit 指标：Precision 衡量描述准确性，Hit 衡量覆盖全面性
KT 指标：对比 QA 和 Caption 性能差异——如果模型在 QA 中能回答但在 Caption 中遗漏，说明存在"知道但不说"的能力差距

实验关键数据¶

模型	Precision 最佳	Hit 最佳	KT Gap
GPT-4o	✓		显著
Gemini-1.5-pro		✓	显著
开源 VLM	中等	中等	更大

关键发现¶

GPT-4o 在 Precision 上最好（描述准确），Gemini-1.5-pro 在 Hit 上最好（描述全面）
所有模型都存在显著的 KT gap，说明描述能力弱于 QA 能力

评分¶

新颖性: ⭐⭐⭐⭐ KT 指标是新颖贡献
实验充分度: ⭐⭐⭐⭐⭐ 11K数据+多模型+多维度
写作质量: ⭐⭐⭐⭐ 评估框架描述清晰
价值: ⭐⭐⭐⭐ 对VLM描述能力评估有重要推动