VQQA: An Agentic Approach for Video Evaluation and Quality Improvement¶

日期: 2026-03-12
arXiv: 2603.12310
代码: 无
领域: 视频理解 / 视频生成评估
关键词: video evaluation, agentic, prompt refinement, VLM, closed-loop

一句话总结¶

提出 VQQA，一个多 Agent 视频评估与质量改进框架——通过三个 Agent（问题生成→视频问答→提示优化）构建闭环，将 VLM 的评估反馈作为"语义梯度"驱动 prompt 迭代优化，无需模型微调，在 T2V-CompBench 上对 CogVideoX-5B 提升 +11.57%（41.89%→53.46%），VBench2 上 +8.43%（41.98%→50.41%）。

研究背景与动机¶

评估与生成脱节: 现有视频生成评估（FVD、VQAScore 等）都是被动打分，评估结果无法回馈到生成过程中改进质量。
测试时优化受限: 已有方法要么计算开销巨大（VISTA 的 pairwise tournament），要么需要白盒模型内部访问（Video-TTT 的梯度更新）。
核心思路: 将评估从被动 benchmark 转化为主动闭环反馈——评估→定位缺陷→优化 prompt→重新生成，全程通过黑盒自然语言接口完成。

方法详解¶

三 Agent 协作架构¶

整个框架将视频评估形式化为离散文本优化问题：将 prompt 视为优化变量，VLM 反馈视为语义梯度。

Question Generation (QG) Agent: 分析视频 v、prompt p 和条件 C，沿三个维度动态生成视觉问题集 Q：
- Video-Prompt Alignment：视频是否忠实表达了 prompt 的语义？
- Visual Quality：是否存在视觉伪影、时序不一致？
- Condition Fidelity：是否保持参考图像的身份和语义细节？（I2V 时激活）
Question Answering (QA) Agent: 用 VLM 对每个问题评分，低分问题精确指向具体缺陷（如物体数量错误、空间关系混乱、动作不连贯等）。
Prompt Refinement Agent: 将低分 QA 对中的批评信息作为"语义梯度"（借鉴 TextGrad 思想），针对性修改 prompt 措辞以修复已识别的缺陷，而非重写整个 prompt。

关键机制¶

Global Selection: 用 VLM 将每轮候选视频与初始 prompt（非优化后的 prompt）做整体对齐评分，防止局部优化导致语义漂移。消融实验证实去掉 Global Selection 后平均分下降 1.02%；用 QA 平均分替代则下降 1.86%。
Dynamic Stopping: 当全局最高分在耐心窗口 k 步内改进低于阈值 ε 时自动停止。k=3 时平均 3.80–4.22 步收敛，4 步即捕获绝大部分收益。
任务无关: 同一架构无需修改即可处理 T2V 和 I2V 任务，Agent 根据输入条件集自动适配。

实验关键数据¶

T2V-CompBench（CogVideoX-5B，7 个类别，1400 prompts）¶

方法	Consist-attr	Spatial	Numeracy	AVG
Vanilla CogVideoX-5B	61.64	51.72	37.06	41.89
VPO (prompt optimizer)	76.43	54.18	45.72	48.55
BoN + VQAScore	80.83	56.62	44.48	48.70
VQQA (Gemini-3-Pro)	84.58	66.03	50.91	53.46

最大提升类别：consistent-attribute +22.94%，spatial +14.31%，numeracy +13.85%。

VBench2（CogVideoX-5B，5 维度）¶

方法	Creativity	Physics	Total
Vanilla CogVideoX-5B	42.99	38.57	41.98
BoN + VQAScore	51.51	42.49	46.95
VQQA (Gemini-3-Pro)	54.85	54.26	50.41

Physics 维度提升最显著：38.57%→54.26%（+15.69%），说明闭环反馈对物理真实感修复效果突出。

VBench-I2V（CogVideoX-5B-I2V）¶

VQQA (Gemini-3-Pro) 平均 97.86%，比 vanilla 97.62% 提升 +1.24%。
平均仅需 1.6 步迭代即满足停止条件，效率极高。

问题生成质量验证¶

在 VideoFeedback2 测试集上：VQQA 的 End-to-End Recall 为 82.08%，比 VLM 直接分析的 70.18% 高出 11.9%，Precision 均 >99%。

Veo 3.1（商用模型泛化）¶

在已有内部 prompt 优化的 Veo 3.1 上，VQQA 仍能从 55.93% 提升到 61.81%（+5.88%），验证了模型无关性。

亮点与局限¶

"评估反馈作为语义梯度"将评估和改进统一到闭环中，概念新颖且实用
完全不需要模型权重访问，只通过自然语言接口优化 prompt——对商用 API 友好
4 步迭代已能捕获大部分收益，计算效率可控
多 Agent 分工清晰：QG 聚焦覆盖面、QA 聚焦定位精度、PR 聚焦修复
局限: I2V 任务上提升有限（+1.24%），可能因该任务已接近饱和或 prompt 空间优化余地较小
局限: 每轮迭代需调用 VLM + 视频生成模型，绝对计算量仍取决于底层模型推理成本

评分¶

新颖性: ⭐⭐⭐⭐ 闭环评估-改进范式新颖，语义梯度概念精巧
实验充分度: ⭐⭐⭐⭐⭐ 三大 benchmark + 消融 + 商用模型验证
价值: ⭐⭐⭐⭐ 实用的黑盒视频生成质量改进方案