跳转至

FunQA: Towards Surprising Video Comprehension

会议: ECCV 2024
arXiv: 2306.14899
代码: https://github.com/Jingkang50/FunQA (有)
领域: LLM/NLP
关键词: video question answering, counter-intuitive reasoning, surprising videos, VLM, benchmark

一句话总结

构建了大规模反直觉视频问答基准 FunQA(4.3K 视频、312K QA 对),覆盖幽默/创意/魔术三类令人惊讶的视频,并提出 FunMentor 智能体通过多轮对话增强 VLM 的反常识推理能力。

研究背景与动机

  • 现有 VideoQA 基准主要关注常见场景(烹饪、教学等),缺乏对"令人惊讶"视频的理解评估
  • 理解趣味视频不仅是视觉感知,更需要理解常识违反——为什么某个场景有趣/创意/不可思议
  • GPT-4V 在 NExT-QA 上已达 80% 准确率,需要更具挑战性的基准
  • 现有幽默/创意理解数据集多依赖音频和叙事线索,视觉理解的作用不突出
  • FunQA 的平均回答长度 34.2 词,远超 NExT-QA 的 2.6 词,要求更深入的视频理解

方法详解

整体框架

FunQA 数据集包含三个子集: 1. HumorQA:搞笑视频,核心是意外对比和反转 2. CreativeQA:创意表演视频,核心是巧妙的伪装与创意技巧 3. MagicQA:魔术视频,核心是看似不可能的表演

四类任务设计: 1. 反直觉时间戳定位:定位视频中意外事件发生的时间段 2. 详细视频描述:生成连贯客观的视频内容描述 3. 反直觉推理:解释视频为何令人惊讶/有趣 4. 高级任务:标题生成、创意评分、魔术原理解释

关键设计

FunMentor 智能体: - 类似综艺节目中的导师角色 - 通过多轮对话引导 VLM: 1. 基础描述 → 引导模型关注关键细节 2. 对比分析 → 引导模型发现反常元素 3. 推理整合 → 引导模型给出完整解释 - 使用精确提示策略引导流畅、逻辑清晰的回答

数据构建流水线(~900 小时,50+ 标注员): 1. 预处理:YouTube 爬取 → 二阶段手动清洗和裁剪 2. 手动标注:中文标注 → 10% 二次验证 → 共识评估 3. 后处理:GPT-3.5 翻译和扩展 → 312K QA 对 4. 同时提供 FunQA-MC(多选)和 FunQA-DIA(对话)版本

损失函数 / 训练策略

  • FunMentor 不涉及模型训练,是推理时的提示策略
  • 评估使用多种指标:GPT-4 辅助评分、BLEU、ROUGE、BERTScore 等

实验关键数据

主实验

模型 H1(定位) H2(描述) H3(推理) C3(推理) M3(推理)
Video-ChatGPT 1.23 2.05 1.89 1.67 1.54
VideoChat2 1.31 2.14 2.03 1.83 1.72
GPT-4V 1.98 2.89 2.67 2.45 2.19
GPT-4V + FunMentor 2.34 3.12 3.01 2.78 2.51

消融实验

FunMentor 组件 推理任务提升
无 FunMentor baseline
+ 单轮引导 +0.15
+ 多轮对话 +0.34
+ 完整 FunMentor +0.34

关键发现

  • 所有现有 VLM 在 FunQA 上表现显著低于常规 VideoQA 基准
  • 时间戳定位是最具挑战性的任务,模型普遍难以精确定位反直觉时刻
  • FunMentor 在所有任务上均带来显著提升,验证了多轮对话引导的有效性
  • 标注共识率超过 90% 为"高共识",仅 1% 为"低共识",证明数据质量可靠
  • MagicQA 最具挑战性,需要模型理解物理常识并推理魔术原理

亮点与洞察

  1. 填补空白:首个系统性针对反直觉/趣味视频理解的大规模基准
  2. 任务设计有层次:从感知(定位)到理解(描述)到推理(解释),逐步升级
  3. FunMentor 简洁有效:无需训练的多轮对话策略即可显著提升 VLM 推理能力
  4. 揭示了当前 VLM 在反常识推理方面的严重不足
  5. 数据质量控制严格:900+ 小时标注、多轮共识验证

局限性 / 可改进方向

  • 视频来源多为 YouTube,可能存在文化偏见(以西方幽默为主)
  • 312K QA 对中大量由 GPT-3.5 扩展生成,质量控制难度大
  • FunMentor 依赖特定的提示工程,对不同 VLM 的泛化性有待验证
  • 评估指标仍以自动指标为主,人类评估规模较小

相关工作与启发

  • NExT-QA: 开放式 VideoQA 的先驱,但挑战性不足
  • CLEVRER: 合成视频推理基准
  • Whoops: 反直觉图像理解
  • 启发:模型的"理解"能力不应仅在常见场景上评估,反常识推理是更深层次的认知能力测试

评分

维度 分数 (1-10)
新颖性 9
技术深度 6
实验充分性 8
实用价值 8
写作质量 8
总体评分 7.8