EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education¶

日期: 2026-03-03
arXiv: 2603.03066
代码: 即将公开
领域: LLM/NLP
关键词: 视频质量评估, AI生成视频, 教育视频, Mixture-of-Experts, 细粒度标注

一句话总结¶

EduVQA 构建了首个面向数学教育的 AI 生成视频质量基准 EduAIGV-1k（1130 个视频 ×5 维细粒度标注），并提出基于结构化 2D MoE 的双路径评估框架，在感知质量和提示对齐两个维度上全面超越现有 VQA 基线。

领域现状：T2V（文本到视频）模型快速发展，在生成逼真视频方面取得显著进展，但在教育领域的应用基本空白。
现有痛点：(1) 现有 AIGV 基准主要关注娱乐、真实感等通用质量，缺乏面向教育内容的细粒度评估；(2) 教育视频不仅需要视觉质量，更需要语义准确性——"三个蓝色方块"必须真的出现三个蓝色方块；(3) 现有评估指标（FID、FVD、CLIP-Score）无法捕捉教学内容的正确性。
核心矛盾：教育视频的质量是多维的——感知质量（空间+时序）和语义对齐（词级+句级）需要联合评估，但现有方法只能做单维度预测。
切入角度：构建细粒度标注数据集+设计层次化 MoE 架构显式建模子维度与整体质量之间的依赖关系。
核心 idea 一句话：用 2D MoE 的共享专家池和动态门控矩阵建模整体质量与子维度之间的层次依赖。

双路径架构：感知路径（空间+时序质量）和对齐路径（词级+句级语义对齐），两条路径共享输入特征但各自用 S2D-MoE 做层次化预测。输入为视频 \(\mathcal{V}\) 和提示文本 \(\mathcal{T}\)。

EduAIGV-1k 数据集：
- 做什么：首个面向数学教育的 AIGV 质量基准
- 数据：113 个教育提示 × 10 个 T2V 模型 = 1130 个视频
- 标注：5 个维度（空间质量、时序质量、整体感知质量、词级对齐、句级对齐），19 名标注者按 ITU-R BT.500 标准评分
- 覆盖领域：数字(43)、几何(40)、测量(20)、概率(10)
- 发现：时序质量呈双峰分布（静态场景高分 vs 复杂运动低分），词级对齐偏向高分但有长尾
S2D-MoE（结构化 2D 混合专家）：
- 做什么：显式建模子维度与整体质量之间的层次依赖
- 核心思路：共享专家池 + 2D 门控矩阵
- 感知路径：生成 \(\mathbf{W}^p \in \mathbb{R}^{M \times N}\) 门控矩阵（M个空间专家 × N个时序专家），行均值→空间权重 \(W_s^p\)，列均值→时序权重 \(W_t^p\)，整体直接用全矩阵 TopK 选择 \(W_o^p\)
- 设计动机：传统 MoE 每个任务独立激活专家，S2D-MoE 通过共享专家池确保整体质量表示根植于子维度特征，2D 门控让整体预测成为子维度贡献的显式聚合
双路径跨模态交互：
- 感知路径：\(F_p = \text{CrossAttn}(F_{VST}, F_{BLIP})\)，视觉质量特征作为 query 查询多模态特征
- 对齐路径：\(F_a = \text{CrossAttn}(F_{BLIP}, F_{VST})\)，反向查询保证文本-视觉语义对齐
- 视觉编码用 Video Swin Transformer，多模态用 BLIP

方法	SRCC↑	PLCC↑	KRCC↑
Q-Align (zero-shot)	0.644	0.669	—
FasterVQA	0.844	0.856	0.659
IP-IQA	0.852	0.863	0.666
T2VQA	~0.84	~0.85	—
EduVQA	0.868	0.878	0.684