VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos¶
会议: ACL 2025
arXiv: 2505.23693
代码: https://github.com/SighingSnow/VF-Eval
领域: 多模态VLM
关键词: AIGC视频评估, 视频生成反馈, 错误检测, 推理评估, 基准测试
一句话总结¶
提出VF-Eval基准,通过一致性验证、错误感知、错误类型检测、推理评估四大任务系统评估13个MLLM为AIGC视频提供反馈的能力,发现即使GPT-4.1也难以在所有任务上表现一致,揭示了AIGC视频理解的挑战性。
研究背景与动机¶
- 领域现状:MLLM越来越多地被用于视频生成质量评估(如提供质量分数或自然语言反馈),但现有研究集中在自然视频理解(MVBench、Video-MME等),对AIGC合成视频的理解能力评估不足。
- 现有痛点:(a) AIGC视频有独特特征(合成纹理、动态光效、算法生成角色等),与自然视频显著不同,MLLM在此类视频上的能力未被系统评估;(b) 现有AIGC视频评估方法通常只提供隐式质量分数,不够精确,无法诊断具体错误类型;(c) 缺乏覆盖多维度的AIGC视频理解基准。
- 核心矛盾:视频生成领域越来越依赖MLLM做质量反馈,但没有系统的基准来衡量MLLM在AIGC视频上的反馈能力是否可靠。
- 本文要解决什么? (a) MLLM能否准确检测AIGC视频中的错误?(b) MLLM能否区分不同类型的错误(质量问题、常识违反、道德问题)?(c) MLLM的反馈能否实际帮助改善视频生成?
- 切入角度:设计四大评估任务覆盖从一致性检查到细粒度推理的全链路能力,结合Yes/No、多选、开放式三种问题类型全面测试。
- 核心idea一句话:构建首个系统评估MLLM对AIGC视频反馈能力的基准,揭示当前MLLM在合成视频理解上的显著不足。
方法详解¶
整体框架¶
输入:AIGC视频(来自Pika、Kling、Gen-3等商业模型+T2V-turbo、OpenSora等开源模型)+ 对应问题。输出:MLLM的回答。四大任务涵盖不同层次的反馈能力,9,740个QA对,视频时长4-12秒。
关键设计¶
- 四大评估任务设计:
- 做什么:从浅层到深层系统评估MLLM的AIGC视频反馈能力
- 核心思路:
- 一致性验证(CV):检测AIGC视频与生成prompt的不对齐,并生成改进prompt(开放式问题,LLM评分)
- 错误感知(EA):判断视频是否包含错误(Yes/No问题,全部正确答案设为"Yes",检测模型是否偏向认为视频正常)
- 错误类型检测(ED):识别AIGC视频中的具体错误类型——视频质量(时空一致性/视觉吸引力/镜头)、常识/物理违反(逻辑/力学/光照)、道德问题(四选一多选题)
- 推理评估(RE):细粒度推理——空间推理、时间推理、动作推理、物体推理、计数问题、信息概要(开放式问题)
-
设计动机:单一的质量分数不足以评估反馈能力,需要从错误发现→错误分类→深层推理的全链路评估
-
多源AIGC视频收集:
- 做什么:构建覆盖多种场景和视频生成模型的AIGC视频数据集
- 核心思路:使用1000个GPT-4o生成的prompt(经人工验证),通过商业模型(Pika、Kling、Pixeldance、Gen-3)和开源模型(T2V-turbo-v2)生成视频,额外从Lavie和OpenSora收集视频
-
设计动机:覆盖不同生成模型的视频特征,确保评估的广泛性和代表性
-
RePrompt实验设计:
- 做什么:验证MLLM反馈能否帮助改善视频生成
- 核心思路:比较MLLM和人类提供的改进prompt,用这些prompt重新生成视频,让人类评委比较改进前后的视频质量。发现与人类偏好对齐的MLLM反馈可以提升AIGC视频的质量和一致性
- 设计动机:评估不是最终目的,要验证反馈闭环的实用价值
损失函数 / 训练策略¶
VF-Eval是评估基准,不涉及模型训练。评估指标:CV和RE用LLM(GPT-4.1-mini)评分,EA和ED用准确率。
实验关键数据¶
主实验¶
13个MLLM在VF-Eval上的表现(Overall分数):
| 模型 | 一致性验证 | 错误感知(质量) | 错误感知(常识) | 错误类型(质量) | 推理评估 | Overall |
|---|---|---|---|---|---|---|
| Human | 81.9 | 84.3 | 84.2 | 86.9 | 70.1 | 84.4 |
| GPT-4.1 | 66.3 | 39.7 | 24.0 | 56.0 | 42.1 | 51.6 |
| InternVL3-38B | 52.9 | 34.7 | 5.0 | 49.4 | 36.2 | 43.6 |
| Qwen2.5-VL-72B | 59.8 | 22.9 | 8.6 | 31.0 | 35.6 | 35.8 |
| Qwen2.5-VL-7B | 51.5 | 23.4 | 6.1 | 23.8 | 35.3 | 30.4 |
消融实验¶
人类 vs MLLM在不同任务上的差距:
| 任务 | Human | GPT-4.1 | 差距 |
|---|---|---|---|
| 一致性验证 | 81.9 | 66.3 | -15.6 |
| 错误感知(常识) | 84.2 | 24.0 | -60.2 |
| 错误类型检测(质量) | 86.9 | 56.0 | -30.9 |
| 推理评估 | 70.1 | 42.1 | -28.0 |
关键发现¶
- MLLM在AIGC视频上表现远逊于人类:最好的GPT-4.1 Overall仅51.6,而人类84.4,差距高达32.8pp
- 常识/物理违反检测是最大瓶颈:GPT-4.1在错误感知(常识维度)仅24.0,甚至不如随机猜测(50.0),说明MLLM几乎无法识别AIGC视频中的物理常识错误
- 模型存在"正常偏差":错误感知任务中所有正确答案都是"Yes"(视频有错误),但GPT-4.1在常识维度仅回答对24.0%——严重倾向于认为视频是正常的
- 开源模型有竞争力:InternVL3-38B(43.6)接近GPT-4.1-mini(44.3),开源模型在AIGC视频理解上的差距在缩小
- 模型在不同任务间表现不一致:GPT-4.1在错误类型检测(75.2 Object维度)很好但在错误感知(24.0)极差,说明能力分布极不均匀
- RePrompt实验验证了反馈的实际价值:将MLLM反馈与人类偏好对齐可以改善视频生成质量
亮点与洞察¶
- 首个系统评估MLLM对AIGC视频反馈能力的基准:填补了合成视频评估领域的空白,4个任务+3种问题类型的设计具有很好的覆盖性
- "正常偏差"的发现很有价值:MLLM倾向于将AIGC视频中的物理违反判断为正常,这对AIGC视频质量评估的实际应用是一个重要警告
- 错误类型层次化设计:将错误分为视频质量、常识/物理违反、道德问题三个维度,比单一质量分数更有诊断价值
局限性 / 可改进方向¶
- 视频较短:平均8.98秒,未覆盖长视频生成场景(如Sora级的60秒+视频)
- 错误感知任务设计偏差:所有正确答案均为"Yes",虽然设计意图是检测模型偏差,但可能导致评分标准不够公平
- 数据集规模有限:9,740个QA对对于全面评估仍略显不足
- 时效性问题:视频生成模型快速迭代,当前的错误类型分布可能随模型进步而变化
- 可改进方向:加入AIGC视频与自然视频的对比评估;扩展到更长视频和更多生成模型
相关工作与启发¶
- vs EditVid-QA: EditVid-QA也评估合成视频但仅限编辑视频且只有开放式问题;VF-Eval覆盖更多AIGC类型和问题类型
- vs QBench: QBench做AI生成内容质量评估但偏向评分,VF-Eval更强调错误诊断和推理
- vs Video-MME: Video-MME是最全面的自然视频理解基准,VF-Eval是其在AIGC视频领域的对应物
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统的AIGC视频反馈评估基准,任务设计有层次
- 实验充分度: ⭐⭐⭐⭐ 13个模型+人类基准+RePrompt验证
- 写作质量: ⭐⭐⭐ 结构清晰但细节可以更简洁
- 价值: ⭐⭐⭐⭐ 对AIGC视频质量评估和视频生成改进有实际指导意义