VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos¶

会议: ACL 2025
arXiv: 2505.23693
代码: https://github.com/SighingSnow/VF-Eval
领域: 多模态VLM
关键词: AIGC视频评估, 视频生成反馈, 错误检测, 推理评估, 基准测试

一句话总结¶

提出VF-Eval基准，通过一致性验证、错误感知、错误类型检测、推理评估四大任务系统评估13个MLLM为AIGC视频提供反馈的能力，发现即使GPT-4.1也难以在所有任务上表现一致，揭示了AIGC视频理解的挑战性。

研究背景与动机¶

领域现状：MLLM越来越多地被用于视频生成质量评估（如提供质量分数或自然语言反馈），但现有研究集中在自然视频理解（MVBench、Video-MME等），对AIGC合成视频的理解能力评估不足。
现有痛点：(a) AIGC视频有独特特征（合成纹理、动态光效、算法生成角色等），与自然视频显著不同，MLLM在此类视频上的能力未被系统评估；(b) 现有AIGC视频评估方法通常只提供隐式质量分数，不够精确，无法诊断具体错误类型；(c) 缺乏覆盖多维度的AIGC视频理解基准。
核心矛盾：视频生成领域越来越依赖MLLM做质量反馈，但没有系统的基准来衡量MLLM在AIGC视频上的反馈能力是否可靠。
本文要解决什么？ (a) MLLM能否准确检测AIGC视频中的错误？(b) MLLM能否区分不同类型的错误（质量问题、常识违反、道德问题）？(c) MLLM的反馈能否实际帮助改善视频生成？
切入角度：设计四大评估任务覆盖从一致性检查到细粒度推理的全链路能力，结合Yes/No、多选、开放式三种问题类型全面测试。
核心idea一句话：构建首个系统评估MLLM对AIGC视频反馈能力的基准，揭示当前MLLM在合成视频理解上的显著不足。

方法详解¶

整体框架¶

输入：AIGC视频（来自Pika、Kling、Gen-3等商业模型+T2V-turbo、OpenSora等开源模型）+ 对应问题。输出：MLLM的回答。四大任务涵盖不同层次的反馈能力，9,740个QA对，视频时长4-12秒。

关键设计¶

四大评估任务设计:
做什么：从浅层到深层系统评估MLLM的AIGC视频反馈能力
核心思路：
- 一致性验证(CV)：检测AIGC视频与生成prompt的不对齐，并生成改进prompt（开放式问题，LLM评分）
- 错误感知(EA)：判断视频是否包含错误（Yes/No问题，全部正确答案设为"Yes"，检测模型是否偏向认为视频正常）
- 错误类型检测(ED)：识别AIGC视频中的具体错误类型——视频质量(时空一致性/视觉吸引力/镜头)、常识/物理违反（逻辑/力学/光照）、道德问题（四选一多选题）
- 推理评估(RE)：细粒度推理——空间推理、时间推理、动作推理、物体推理、计数问题、信息概要（开放式问题）
设计动机：单一的质量分数不足以评估反馈能力，需要从错误发现→错误分类→深层推理的全链路评估
多源AIGC视频收集:
做什么：构建覆盖多种场景和视频生成模型的AIGC视频数据集
核心思路：使用1000个GPT-4o生成的prompt（经人工验证），通过商业模型（Pika、Kling、Pixeldance、Gen-3）和开源模型（T2V-turbo-v2）生成视频，额外从Lavie和OpenSora收集视频
设计动机：覆盖不同生成模型的视频特征，确保评估的广泛性和代表性
RePrompt实验设计:
做什么：验证MLLM反馈能否帮助改善视频生成
核心思路：比较MLLM和人类提供的改进prompt，用这些prompt重新生成视频，让人类评委比较改进前后的视频质量。发现与人类偏好对齐的MLLM反馈可以提升AIGC视频的质量和一致性
设计动机：评估不是最终目的，要验证反馈闭环的实用价值

损失函数 / 训练策略¶

VF-Eval是评估基准，不涉及模型训练。评估指标：CV和RE用LLM（GPT-4.1-mini）评分，EA和ED用准确率。

实验关键数据¶

主实验¶

13个MLLM在VF-Eval上的表现（Overall分数）：

模型	一致性验证	错误感知(质量)	错误感知(常识)	错误类型(质量)	推理评估	Overall
Human	81.9	84.3	84.2	86.9	70.1	84.4
GPT-4.1	66.3	39.7	24.0	56.0	42.1	51.6
InternVL3-38B	52.9	34.7	5.0	49.4	36.2	43.6
Qwen2.5-VL-72B	59.8	22.9	8.6	31.0	35.6	35.8
Qwen2.5-VL-7B	51.5	23.4	6.1	23.8	35.3	30.4

消融实验¶

人类 vs MLLM在不同任务上的差距：

任务	Human	GPT-4.1	差距
一致性验证	81.9	66.3	-15.6
错误感知(常识)	84.2	24.0	-60.2
错误类型检测(质量)	86.9	56.0	-30.9
推理评估	70.1	42.1	-28.0

关键发现¶

MLLM在AIGC视频上表现远逊于人类：最好的GPT-4.1 Overall仅51.6，而人类84.4，差距高达32.8pp
常识/物理违反检测是最大瓶颈：GPT-4.1在错误感知(常识维度)仅24.0，甚至不如随机猜测(50.0)，说明MLLM几乎无法识别AIGC视频中的物理常识错误
模型存在"正常偏差"：错误感知任务中所有正确答案都是"Yes"（视频有错误），但GPT-4.1在常识维度仅回答对24.0%——严重倾向于认为视频是正常的
开源模型有竞争力：InternVL3-38B（43.6）接近GPT-4.1-mini（44.3），开源模型在AIGC视频理解上的差距在缩小
模型在不同任务间表现不一致：GPT-4.1在错误类型检测(75.2 Object维度)很好但在错误感知(24.0)极差，说明能力分布极不均匀
RePrompt实验验证了反馈的实际价值：将MLLM反馈与人类偏好对齐可以改善视频生成质量

亮点与洞察¶

首个系统评估MLLM对AIGC视频反馈能力的基准：填补了合成视频评估领域的空白，4个任务+3种问题类型的设计具有很好的覆盖性
"正常偏差"的发现很有价值：MLLM倾向于将AIGC视频中的物理违反判断为正常，这对AIGC视频质量评估的实际应用是一个重要警告
错误类型层次化设计：将错误分为视频质量、常识/物理违反、道德问题三个维度，比单一质量分数更有诊断价值

局限性 / 可改进方向¶

视频较短：平均8.98秒，未覆盖长视频生成场景（如Sora级的60秒+视频）
错误感知任务设计偏差：所有正确答案均为"Yes"，虽然设计意图是检测模型偏差，但可能导致评分标准不够公平
数据集规模有限：9,740个QA对对于全面评估仍略显不足
时效性问题：视频生成模型快速迭代，当前的错误类型分布可能随模型进步而变化
可改进方向：加入AIGC视频与自然视频的对比评估；扩展到更长视频和更多生成模型

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统的AIGC视频反馈评估基准，任务设计有层次
实验充分度: ⭐⭐⭐⭐ 13个模型+人类基准+RePrompt验证
写作质量: ⭐⭐⭐ 结构清晰但细节可以更简洁
价值: ⭐⭐⭐⭐ 对AIGC视频质量评估和视频生成改进有实际指导意义