FunQA: Towards Surprising Video Comprehension¶

会议: ECCV 2024
arXiv: 2306.14899
代码: https://github.com/Jingkang50/FunQA (有)
领域: LLM/NLP
关键词: video question answering, counter-intuitive reasoning, surprising videos, VLM, benchmark

一句话总结¶

构建了大规模反直觉视频问答基准 FunQA（4.3K 视频、312K QA 对），覆盖幽默/创意/魔术三类令人惊讶的视频，并提出 FunMentor 智能体通过多轮对话增强 VLM 的反常识推理能力。

研究背景与动机¶

现有 VideoQA 基准主要关注常见场景（烹饪、教学等），缺乏对"令人惊讶"视频的理解评估
理解趣味视频不仅是视觉感知，更需要理解常识违反——为什么某个场景有趣/创意/不可思议
GPT-4V 在 NExT-QA 上已达 80% 准确率，需要更具挑战性的基准
现有幽默/创意理解数据集多依赖音频和叙事线索，视觉理解的作用不突出
FunQA 的平均回答长度 34.2 词，远超 NExT-QA 的 2.6 词，要求更深入的视频理解

方法详解¶

整体框架¶

FunQA 数据集包含三个子集： 1. HumorQA：搞笑视频，核心是意外对比和反转 2. CreativeQA：创意表演视频，核心是巧妙的伪装与创意技巧 3. MagicQA：魔术视频，核心是看似不可能的表演

四类任务设计： 1. 反直觉时间戳定位：定位视频中意外事件发生的时间段 2. 详细视频描述：生成连贯客观的视频内容描述 3. 反直觉推理：解释视频为何令人惊讶/有趣 4. 高级任务：标题生成、创意评分、魔术原理解释

关键设计¶

FunMentor 智能体： - 类似综艺节目中的导师角色 - 通过多轮对话引导 VLM： 1. 基础描述 → 引导模型关注关键细节 2. 对比分析 → 引导模型发现反常元素 3. 推理整合 → 引导模型给出完整解释 - 使用精确提示策略引导流畅、逻辑清晰的回答

数据构建流水线（~900 小时，50+ 标注员）： 1. 预处理：YouTube 爬取 → 二阶段手动清洗和裁剪 2. 手动标注：中文标注 → 10% 二次验证 → 共识评估 3. 后处理：GPT-3.5 翻译和扩展 → 312K QA 对 4. 同时提供 FunQA-MC（多选）和 FunQA-DIA（对话）版本

损失函数 / 训练策略¶

FunMentor 不涉及模型训练，是推理时的提示策略
评估使用多种指标：GPT-4 辅助评分、BLEU、ROUGE、BERTScore 等

实验关键数据¶

主实验¶

模型	H1（定位）	H2（描述）	H3（推理）	C3（推理）	M3（推理）
Video-ChatGPT	1.23	2.05	1.89	1.67	1.54
VideoChat2	1.31	2.14	2.03	1.83	1.72
GPT-4V	1.98	2.89	2.67	2.45	2.19
GPT-4V + FunMentor	2.34	3.12	3.01	2.78	2.51

消融实验¶

FunMentor 组件	推理任务提升
无 FunMentor	baseline
+ 单轮引导	+0.15
+ 多轮对话	+0.34
+ 完整 FunMentor	+0.34

关键发现¶

所有现有 VLM 在 FunQA 上表现显著低于常规 VideoQA 基准
时间戳定位是最具挑战性的任务，模型普遍难以精确定位反直觉时刻
FunMentor 在所有任务上均带来显著提升，验证了多轮对话引导的有效性
标注共识率超过 90% 为"高共识"，仅 1% 为"低共识"，证明数据质量可靠
MagicQA 最具挑战性，需要模型理解物理常识并推理魔术原理

亮点与洞察¶

填补空白：首个系统性针对反直觉/趣味视频理解的大规模基准
任务设计有层次：从感知（定位）到理解（描述）到推理（解释），逐步升级
FunMentor 简洁有效：无需训练的多轮对话策略即可显著提升 VLM 推理能力
揭示了当前 VLM 在反常识推理方面的严重不足
数据质量控制严格：900+ 小时标注、多轮共识验证

局限性 / 可改进方向¶

视频来源多为 YouTube，可能存在文化偏见（以西方幽默为主）
312K QA 对中大量由 GPT-3.5 扩展生成，质量控制难度大
FunMentor 依赖特定的提示工程，对不同 VLM 的泛化性有待验证
评估指标仍以自动指标为主，人类评估规模较小

评分¶

维度	分数 (1-10)
新颖性	9
技术深度	6
实验充分性	8
实用价值	8
写作质量	8
总体评分	7.8