跳转至

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

会议: ACL 2025
arXiv: 2505.23693
代码: https://github.com/SighingSnow/VF-Eval
领域: 多模态VLM
关键词: AIGC视频评估, 视频生成反馈, 错误检测, 推理评估, 基准测试

一句话总结

提出VF-Eval基准,通过一致性验证、错误感知、错误类型检测、推理评估四大任务系统评估13个MLLM为AIGC视频提供反馈的能力,发现即使GPT-4.1也难以在所有任务上表现一致,揭示了AIGC视频理解的挑战性。

研究背景与动机

  1. 领域现状:MLLM越来越多地被用于视频生成质量评估(如提供质量分数或自然语言反馈),但现有研究集中在自然视频理解(MVBench、Video-MME等),对AIGC合成视频的理解能力评估不足。
  2. 现有痛点:(a) AIGC视频有独特特征(合成纹理、动态光效、算法生成角色等),与自然视频显著不同,MLLM在此类视频上的能力未被系统评估;(b) 现有AIGC视频评估方法通常只提供隐式质量分数,不够精确,无法诊断具体错误类型;(c) 缺乏覆盖多维度的AIGC视频理解基准。
  3. 核心矛盾:视频生成领域越来越依赖MLLM做质量反馈,但没有系统的基准来衡量MLLM在AIGC视频上的反馈能力是否可靠。
  4. 本文要解决什么? (a) MLLM能否准确检测AIGC视频中的错误?(b) MLLM能否区分不同类型的错误(质量问题、常识违反、道德问题)?(c) MLLM的反馈能否实际帮助改善视频生成?
  5. 切入角度:设计四大评估任务覆盖从一致性检查到细粒度推理的全链路能力,结合Yes/No、多选、开放式三种问题类型全面测试。
  6. 核心idea一句话:构建首个系统评估MLLM对AIGC视频反馈能力的基准,揭示当前MLLM在合成视频理解上的显著不足。

方法详解

整体框架

输入:AIGC视频(来自Pika、Kling、Gen-3等商业模型+T2V-turbo、OpenSora等开源模型)+ 对应问题。输出:MLLM的回答。四大任务涵盖不同层次的反馈能力,9,740个QA对,视频时长4-12秒。

关键设计

  1. 四大评估任务设计:
  2. 做什么:从浅层到深层系统评估MLLM的AIGC视频反馈能力
  3. 核心思路:
    • 一致性验证(CV):检测AIGC视频与生成prompt的不对齐,并生成改进prompt(开放式问题,LLM评分)
    • 错误感知(EA):判断视频是否包含错误(Yes/No问题,全部正确答案设为"Yes",检测模型是否偏向认为视频正常)
    • 错误类型检测(ED):识别AIGC视频中的具体错误类型——视频质量(时空一致性/视觉吸引力/镜头)、常识/物理违反(逻辑/力学/光照)、道德问题(四选一多选题)
    • 推理评估(RE):细粒度推理——空间推理、时间推理、动作推理、物体推理、计数问题、信息概要(开放式问题)
  4. 设计动机:单一的质量分数不足以评估反馈能力,需要从错误发现→错误分类→深层推理的全链路评估

  5. 多源AIGC视频收集:

  6. 做什么:构建覆盖多种场景和视频生成模型的AIGC视频数据集
  7. 核心思路:使用1000个GPT-4o生成的prompt(经人工验证),通过商业模型(Pika、Kling、Pixeldance、Gen-3)和开源模型(T2V-turbo-v2)生成视频,额外从Lavie和OpenSora收集视频
  8. 设计动机:覆盖不同生成模型的视频特征,确保评估的广泛性和代表性

  9. RePrompt实验设计:

  10. 做什么:验证MLLM反馈能否帮助改善视频生成
  11. 核心思路:比较MLLM和人类提供的改进prompt,用这些prompt重新生成视频,让人类评委比较改进前后的视频质量。发现与人类偏好对齐的MLLM反馈可以提升AIGC视频的质量和一致性
  12. 设计动机:评估不是最终目的,要验证反馈闭环的实用价值

损失函数 / 训练策略

VF-Eval是评估基准,不涉及模型训练。评估指标:CV和RE用LLM(GPT-4.1-mini)评分,EA和ED用准确率。

实验关键数据

主实验

13个MLLM在VF-Eval上的表现(Overall分数):

模型 一致性验证 错误感知(质量) 错误感知(常识) 错误类型(质量) 推理评估 Overall
Human 81.9 84.3 84.2 86.9 70.1 84.4
GPT-4.1 66.3 39.7 24.0 56.0 42.1 51.6
InternVL3-38B 52.9 34.7 5.0 49.4 36.2 43.6
Qwen2.5-VL-72B 59.8 22.9 8.6 31.0 35.6 35.8
Qwen2.5-VL-7B 51.5 23.4 6.1 23.8 35.3 30.4

消融实验

人类 vs MLLM在不同任务上的差距:

任务 Human GPT-4.1 差距
一致性验证 81.9 66.3 -15.6
错误感知(常识) 84.2 24.0 -60.2
错误类型检测(质量) 86.9 56.0 -30.9
推理评估 70.1 42.1 -28.0

关键发现

  • MLLM在AIGC视频上表现远逊于人类:最好的GPT-4.1 Overall仅51.6,而人类84.4,差距高达32.8pp
  • 常识/物理违反检测是最大瓶颈:GPT-4.1在错误感知(常识维度)仅24.0,甚至不如随机猜测(50.0),说明MLLM几乎无法识别AIGC视频中的物理常识错误
  • 模型存在"正常偏差":错误感知任务中所有正确答案都是"Yes"(视频有错误),但GPT-4.1在常识维度仅回答对24.0%——严重倾向于认为视频是正常的
  • 开源模型有竞争力:InternVL3-38B(43.6)接近GPT-4.1-mini(44.3),开源模型在AIGC视频理解上的差距在缩小
  • 模型在不同任务间表现不一致:GPT-4.1在错误类型检测(75.2 Object维度)很好但在错误感知(24.0)极差,说明能力分布极不均匀
  • RePrompt实验验证了反馈的实际价值:将MLLM反馈与人类偏好对齐可以改善视频生成质量

亮点与洞察

  • 首个系统评估MLLM对AIGC视频反馈能力的基准:填补了合成视频评估领域的空白,4个任务+3种问题类型的设计具有很好的覆盖性
  • "正常偏差"的发现很有价值:MLLM倾向于将AIGC视频中的物理违反判断为正常,这对AIGC视频质量评估的实际应用是一个重要警告
  • 错误类型层次化设计:将错误分为视频质量、常识/物理违反、道德问题三个维度,比单一质量分数更有诊断价值

局限性 / 可改进方向

  • 视频较短:平均8.98秒,未覆盖长视频生成场景(如Sora级的60秒+视频)
  • 错误感知任务设计偏差:所有正确答案均为"Yes",虽然设计意图是检测模型偏差,但可能导致评分标准不够公平
  • 数据集规模有限:9,740个QA对对于全面评估仍略显不足
  • 时效性问题:视频生成模型快速迭代,当前的错误类型分布可能随模型进步而变化
  • 可改进方向:加入AIGC视频与自然视频的对比评估;扩展到更长视频和更多生成模型

相关工作与启发

  • vs EditVid-QA: EditVid-QA也评估合成视频但仅限编辑视频且只有开放式问题;VF-Eval覆盖更多AIGC类型和问题类型
  • vs QBench: QBench做AI生成内容质量评估但偏向评分,VF-Eval更强调错误诊断和推理
  • vs Video-MME: Video-MME是最全面的自然视频理解基准,VF-Eval是其在AIGC视频领域的对应物

评分

  • 新颖性: ⭐⭐⭐⭐ 首个系统的AIGC视频反馈评估基准,任务设计有层次
  • 实验充分度: ⭐⭐⭐⭐ 13个模型+人类基准+RePrompt验证
  • 写作质量: ⭐⭐⭐ 结构清晰但细节可以更简洁
  • 价值: ⭐⭐⭐⭐ 对AIGC视频质量评估和视频生成改进有实际指导意义