FunQA: Towards Surprising Video Comprehension¶
会议: ECCV 2024
arXiv: 2306.14899
代码: https://github.com/Jingkang50/FunQA (有)
领域: LLM/NLP
关键词: video question answering, counter-intuitive reasoning, surprising videos, VLM, benchmark
一句话总结¶
构建了大规模反直觉视频问答基准 FunQA(4.3K 视频、312K QA 对),覆盖幽默/创意/魔术三类令人惊讶的视频,并提出 FunMentor 智能体通过多轮对话增强 VLM 的反常识推理能力。
研究背景与动机¶
- 现有 VideoQA 基准主要关注常见场景(烹饪、教学等),缺乏对"令人惊讶"视频的理解评估
- 理解趣味视频不仅是视觉感知,更需要理解常识违反——为什么某个场景有趣/创意/不可思议
- GPT-4V 在 NExT-QA 上已达 80% 准确率,需要更具挑战性的基准
- 现有幽默/创意理解数据集多依赖音频和叙事线索,视觉理解的作用不突出
- FunQA 的平均回答长度 34.2 词,远超 NExT-QA 的 2.6 词,要求更深入的视频理解
方法详解¶
整体框架¶
FunQA 数据集包含三个子集: 1. HumorQA:搞笑视频,核心是意外对比和反转 2. CreativeQA:创意表演视频,核心是巧妙的伪装与创意技巧 3. MagicQA:魔术视频,核心是看似不可能的表演
四类任务设计: 1. 反直觉时间戳定位:定位视频中意外事件发生的时间段 2. 详细视频描述:生成连贯客观的视频内容描述 3. 反直觉推理:解释视频为何令人惊讶/有趣 4. 高级任务:标题生成、创意评分、魔术原理解释
关键设计¶
FunMentor 智能体: - 类似综艺节目中的导师角色 - 通过多轮对话引导 VLM: 1. 基础描述 → 引导模型关注关键细节 2. 对比分析 → 引导模型发现反常元素 3. 推理整合 → 引导模型给出完整解释 - 使用精确提示策略引导流畅、逻辑清晰的回答
数据构建流水线(~900 小时,50+ 标注员): 1. 预处理:YouTube 爬取 → 二阶段手动清洗和裁剪 2. 手动标注:中文标注 → 10% 二次验证 → 共识评估 3. 后处理:GPT-3.5 翻译和扩展 → 312K QA 对 4. 同时提供 FunQA-MC(多选)和 FunQA-DIA(对话)版本
损失函数 / 训练策略¶
- FunMentor 不涉及模型训练,是推理时的提示策略
- 评估使用多种指标:GPT-4 辅助评分、BLEU、ROUGE、BERTScore 等
实验关键数据¶
主实验¶
| 模型 | H1(定位) | H2(描述) | H3(推理) | C3(推理) | M3(推理) |
|---|---|---|---|---|---|
| Video-ChatGPT | 1.23 | 2.05 | 1.89 | 1.67 | 1.54 |
| VideoChat2 | 1.31 | 2.14 | 2.03 | 1.83 | 1.72 |
| GPT-4V | 1.98 | 2.89 | 2.67 | 2.45 | 2.19 |
| GPT-4V + FunMentor | 2.34 | 3.12 | 3.01 | 2.78 | 2.51 |
消融实验¶
| FunMentor 组件 | 推理任务提升 |
|---|---|
| 无 FunMentor | baseline |
| + 单轮引导 | +0.15 |
| + 多轮对话 | +0.34 |
| + 完整 FunMentor | +0.34 |
关键发现¶
- 所有现有 VLM 在 FunQA 上表现显著低于常规 VideoQA 基准
- 时间戳定位是最具挑战性的任务,模型普遍难以精确定位反直觉时刻
- FunMentor 在所有任务上均带来显著提升,验证了多轮对话引导的有效性
- 标注共识率超过 90% 为"高共识",仅 1% 为"低共识",证明数据质量可靠
- MagicQA 最具挑战性,需要模型理解物理常识并推理魔术原理
亮点与洞察¶
- 填补空白:首个系统性针对反直觉/趣味视频理解的大规模基准
- 任务设计有层次:从感知(定位)到理解(描述)到推理(解释),逐步升级
- FunMentor 简洁有效:无需训练的多轮对话策略即可显著提升 VLM 推理能力
- 揭示了当前 VLM 在反常识推理方面的严重不足
- 数据质量控制严格:900+ 小时标注、多轮共识验证
局限性 / 可改进方向¶
- 视频来源多为 YouTube,可能存在文化偏见(以西方幽默为主)
- 312K QA 对中大量由 GPT-3.5 扩展生成,质量控制难度大
- FunMentor 依赖特定的提示工程,对不同 VLM 的泛化性有待验证
- 评估指标仍以自动指标为主,人类评估规模较小
相关工作与启发¶
- NExT-QA: 开放式 VideoQA 的先驱,但挑战性不足
- CLEVRER: 合成视频推理基准
- Whoops: 反直觉图像理解
- 启发:模型的"理解"能力不应仅在常见场景上评估,反常识推理是更深层次的认知能力测试
评分¶
| 维度 | 分数 (1-10) |
|---|---|
| 新颖性 | 9 |
| 技术深度 | 6 |
| 实验充分性 | 8 |
| 实用价值 | 8 |
| 写作质量 | 8 |
| 总体评分 | 7.8 |