CArtBench: Evaluating Vision-Language Models on Chinese Art Understanding, Interpretation, and Authenticity¶

会议: ACL 2026
arXiv: 2604.11632
代码: https://github.com/Big-Sid/CARTBENCH-Chinese-Artwork-Benchmark
领域: 多模态VLM/文化理解
关键词: 中国艺术, 博物馆基准, 视觉语言模型, 鉴赏能力, 真伪辨别

一句话总结¶

本文构建了 CArtBench——一个基于故宫博物院藏品的多任务基准，评估 VLM 在中国艺术理解中的四种能力（证据问答、结构化鉴赏、可辩护重解读、真伪辨别），发现即使最强模型在证据关联和风格-年代推理上也存在显著性能下降，而真伪辨别接近随机水平。

领域现状：VLM 越来越多地被用作通用多模态助手，但其评估主要由网络图像和西方中心概念主导。中文和文化聚焦的基准虽有扩展，但主要集中在短文本识别和问答上。

现有痛点：(1) 现有基准缺乏面向专家的解释能力评估——需要文化锚定和明确视觉证据支持的深度理解；(2) 中国艺术的许多视觉惯例是时代敏感的，策展级理解需要将可观察线索与历史背景联系；(3) 真伪判断是文化遗产的核心工作流程，但当前 VLM 在此方面的能力从未被评测。

核心矛盾：VLM 可能在短文本问答上表现良好，但其高准确率可能掩盖在证据关联、结构化鉴赏和鉴真等深层能力上的严重不足。

本文目标：构建一个统一的基准来全面评估 VLM 在中国艺术理解中的策展级能力。

切入角度：将故宫博物院藏品的 Wikidata 实体与权威图录页面对齐，构建跨多朝代、五大艺术类别的博物馆基准。

核心 idea：从短文本 QA 扩展到证据锚定问答、结构化鉴赏、可辩护解读和真伪辨别四个递进任务层次，揭示 VLM 在文化理解中的系统性失败模式。

CArtBench 通过三阶段管道构建：(1) 从 Wikidata 检索故宫博物院的图像藏品；(2) 将藏品与官方图录描述对齐；(3) 专家指导下的筛选和分类。基于构建的数据，实例化四个互补任务。

CuratorQA（策展级问答）:
- 功能：评估 VLM 的证据锚定识别和推理能力
- 核心思路：14,421 个问题覆盖 1,589 件艺术品，分为 P1（仅需视觉证据）和 P2（需结合艺术知识）两种难度，6 种题型包括主题识别、场景分类、构图格式、技法风格、图像学检测和风格-年代推理。使用 GPT-5.2 生成问答对，专家审核 1000 条错误率仅 0.47%
- 设计动机：P1/P2 难度分层和 6 种题型分类使评估可以精确定位模型的能力短板
CatalogCaption（结构化鉴赏）:
- 功能：评估 VLM 生成四段式专家级鉴赏文本的能力
- 核心思路：86 件艺术品，要求模型生成包含基本信息、技法分析、历史背景和美学评价的结构化鉴赏文本，与权威图录描述比较
- 设计动机：长文本生成是比 QA 更具挑战性的任务，要求模型综合视觉理解和文化知识
ConnoisseurPairs（真伪辨别）:
- 功能：评估 VLM 在视觉相似的真伪对中进行鉴别的能力
- 核心思路：10 对视觉相似的真品-仿品对，要求模型基于整体一致性和细微线索判断哪件为真品。这是诊断性压力测试
- 设计动机：真伪辨别是鉴赏家的核心技能，测试 VLM 是否能超越表面识别进行深层推理

不涉及模型训练。评估使用统一协议结合自动指标、格式合规检查和专家评分。

CuratorQA 总体准确率（9 种 VLM）