PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension¶
会议: ACL 2025 (Long Paper)
arXiv: 2412.11906
代码: https://github.com/OuyangKun10/PunchBench
领域: 多模态VLM
关键词: 梗图理解, 多模态幽默, 讽刺理解, MLLM评测, Chain-of-Question
一句话总结¶
提出PunchBench(6,000图文对、54,000 QA对),通过同义/反义标题替换消除文本捷径、多种问题格式与两层任务(感知+推理)全面评测MLLM的多模态梗图理解能力,并设计SC-CoQ由简到繁的提问策略显著提升表现,但GPT-4o仍远低于人类98%+水平。
背景与动机¶
多模态梗图(幽默或讽刺的图文对)在社交媒体上广泛传播,但现有MLLM梗图理解评测存在三大缺陷:(1) 文本捷径——模型可仅凭标题中的偏差词(如"enjoy"vs"disgusting")或文本内部语义冲突就判断是否是梗,无需真正理解图文关系;(2) 问题格式单一——仅用Yes/No评测,无法揭示不同格式下的表现差异;(3) 领域狭窄——仅关注漫画或仅关注讽刺,无法覆盖真实世界多样化的梗图类型。
核心问题¶
如何设计一个既能消除文本捷径、又能通过多种问题格式和领域覆盖全面评测MLLM梗图理解能力的基准?以及如何通过推理策略提升MLLM在该任务上的表现?
方法详解¶
整体框架¶
PunchBench构建流程:(1) 从先有数据集(MTSD、MORE、HUB)和社交平台(X、Instagram、YouTube、CartoonMovement、CartoonStock)收集图文对并人工标注;(2) 用GPT-3.5生成同义和反义标题消除捷径;(3) 构建两层任务的多格式指令;(4) 100条/格式的人工质检。最终6,000对图文(3,000含梗+3,000不含梗),54,000 QA对。
关键设计¶
-
同义/反义标题消除捷径:用GPT-3.5对原始标题做词替换(同义词→同义标题,反义词→反义标题)。对含内部语义冲突的标题(如"我很开心!今天真恶心的雨天"),分离两部分分别做替换和反转。同义标题应与原始标题共享同一label(是否含梗),反义标题则相反。这迫使模型真正理解图文关系而非利用文本bias。
-
两层任务×多格式评测:浅层Task——Punchline Perception(判断图文对是否含梗),含Yes/No QA、Matching QA(选正确标题)、Multi-option QA(四选一描述)三种格式;深层Task——Punchline Reasoning(解释为什么含梗),含Yes/No QA(判断解释是否正确)、Matching QA(选正确解释)、Generation QA(自由生成解释)。难度递增:Yes/No < Matching < Multi-option/Generation。
-
SC-CoQ (Simple-to-Complex Chain-of-Question):受由简到繁解题启发,在推理时先让模型回答简单问题再回答复杂问题。Intra-task SC-CoQ:同任务内按
顺序链式提问;Inter-task SC-CoQ:跨任务用同格式问题串联(先感知再推理或反之)。前一个问题的回答被concatenate到下一个问题的prompt中。
损失函数 / 训练策略¶
纯推理评测,无训练。对比了zero-shot、3-shot ICL、CoT和SC-CoQ四种策略。Generation QA用GPT-3.5自动评分。
实验关键数据¶
Punchline Perception (Accuracy %): | 模型 | Yes/No (zero) | Yes/No (SC-CoQ) | Matching (zero) | Multi-option (zero) | |------|------|------|------|------| | GPT-4o | 77.5 | 80.7 | 64.2 | 50.8 | | GPT-4V | 75.0 | 78.1 | 62.1 | 48.1 | | Aria (3.5B×8 MoE) | 72.1 | - | 61.8 | 47.9 | | Qwen2-VL-72B | 73.7 | - | 60.2 | 48.8 | | LLaVA-7B | 62.7 | - | 54.2 | 36.4 | | Human | 98.3 | - | 97.7 | 90.7 |
Punchline Reasoning (Accuracy %): | 模型 | Yes/No (SC-CoQ) | Generation (SC-CoQ) | |------|------|------| | GPT-4o | 77.4 | 50.1 | | Qwen2-VL-72B | 74.9 | 48.0 | | Human | 96.0 | 100.0 |
消融实验要点¶
- SC-CoQ一致优于3-shot和CoT:在所有模型和所有问题格式上,SC-CoQ都是最优策略(P<0.01)。CoT在Yes/No QA上有时掉点。
- 同义/反义标题导致显著掉点:即使GPT-4o替换标题后也掉3-5个点,说明模型依赖文本捷径。但SC-CoQ在三种标题下都能提升,跨标题提升更均匀。
- 模型规模效应明显:Qwen2-VL-2B全面落后(仅33-57%),72B版接近GPT-4o水平。
- 感知 vs 推理:所有模型在Reasoning上都比Perception低5-10个点,说明"为什么好笑"比"是否好笑"难得多。
亮点¶
- 同义/反义标题替换是消除evaluation shortcut的优雅方案,可迁移到其他multimodal benchmark
- SC-CoQ策略简单有效,利用了问题格式间的内在难度梯度,是一种新颖的prompt engineering方法
- 覆盖幽默+讽刺、4种领域、6种问题格式,评测维度远超先前工作
- 54,000 QA对的规模在punchline领域最大
局限性 / 可改进方向¶
- 仅关注静态图文对,未覆盖视频中的动态梗(如短视频的节奏感、反转)
- SC-CoQ依赖预定义的问题难度排序,不同模型对不同格式的真实难度可能不同
- 人类baseline样本偏小(每格式100条),可能高估人类在大规模数据上的表现
- 未探索用训练数据fine-tune提升MLLM梗图理解
与相关工作的对比¶
- vs MORE (Desai et al. 2022):MORE仅做讽刺解释,单一问题格式(3,510对);PunchBench覆盖幽默+讽刺,6种格式,54,000 QA对。
- vs HUB (Hessel et al. 2023):HUB仅做漫画幽默理解(704对);PunchBench跨4种领域,规模大8.5倍。
- vs MTSD (Castro et al. 2019):MTSD仅做讽刺分类;PunchBench增加了推理层级和shortcut消除。
启发与关联¶
- 同义/反义替换消除shortcut的方法可应用于VQA、视觉推理等其他multimodal benchmark的robustness评测
- SC-CoQ的"先简后难"链式提问可以应用到数学推理、代码生成等领域
- 梗图理解需要文化背景知识+图文关系推理+隐含语义理解,是评测"真正理解"的好任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 同义/反义标题消除shortcut和SC-CoQ策略新颖,但benchmark本身是增量贡献
- 实验充分度: ⭐⭐⭐⭐⭐ 10个模型、4种推理策略、6种格式、3种标题条件,维度非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图表丰富,不过部分公式符号可以简化
- 价值: ⭐⭐⭐⭐ 揭示了MLLM在高级语义理解上的短板,SC-CoQ实用性强