EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education¶
日期: 2026-03-03
arXiv: 2603.03066
代码: 即将公开
领域: LLM/NLP
关键词: 视频质量评估, AI生成视频, 教育视频, Mixture-of-Experts, 细粒度标注
一句话总结¶
EduVQA 构建了首个面向数学教育的 AI 生成视频质量基准 EduAIGV-1k(1130 个视频 ×5 维细粒度标注),并提出基于结构化 2D MoE 的双路径评估框架,在感知质量和提示对齐两个维度上全面超越现有 VQA 基线。
研究背景与动机¶
- 领域现状:T2V(文本到视频)模型快速发展,在生成逼真视频方面取得显著进展,但在教育领域的应用基本空白。
- 现有痛点:(1) 现有 AIGV 基准主要关注娱乐、真实感等通用质量,缺乏面向教育内容的细粒度评估;(2) 教育视频不仅需要视觉质量,更需要语义准确性——"三个蓝色方块"必须真的出现三个蓝色方块;(3) 现有评估指标(FID、FVD、CLIP-Score)无法捕捉教学内容的正确性。
- 核心矛盾:教育视频的质量是多维的——感知质量(空间+时序)和语义对齐(词级+句级)需要联合评估,但现有方法只能做单维度预测。
- 切入角度:构建细粒度标注数据集+设计层次化 MoE 架构显式建模子维度与整体质量之间的依赖关系。
- 核心 idea 一句话:用 2D MoE 的共享专家池和动态门控矩阵建模整体质量与子维度之间的层次依赖。
方法详解¶
整体框架¶
双路径架构:感知路径(空间+时序质量)和对齐路径(词级+句级语义对齐),两条路径共享输入特征但各自用 S2D-MoE 做层次化预测。输入为视频 \(\mathcal{V}\) 和提示文本 \(\mathcal{T}\)。
关键设计¶
-
EduAIGV-1k 数据集:
- 做什么:首个面向数学教育的 AIGV 质量基准
- 数据:113 个教育提示 × 10 个 T2V 模型 = 1130 个视频
- 标注:5 个维度(空间质量、时序质量、整体感知质量、词级对齐、句级对齐),19 名标注者按 ITU-R BT.500 标准评分
- 覆盖领域:数字(43)、几何(40)、测量(20)、概率(10)
- 发现:时序质量呈双峰分布(静态场景高分 vs 复杂运动低分),词级对齐偏向高分但有长尾
-
S2D-MoE(结构化 2D 混合专家):
- 做什么:显式建模子维度与整体质量之间的层次依赖
- 核心思路:共享专家池 + 2D 门控矩阵
- 感知路径:生成 \(\mathbf{W}^p \in \mathbb{R}^{M \times N}\) 门控矩阵(M个空间专家 × N个时序专家),行均值→空间权重 \(W_s^p\),列均值→时序权重 \(W_t^p\),整体直接用全矩阵 TopK 选择 \(W_o^p\)
- 设计动机:传统 MoE 每个任务独立激活专家,S2D-MoE 通过共享专家池确保整体质量表示根植于子维度特征,2D 门控让整体预测成为子维度贡献的显式聚合
-
双路径跨模态交互:
- 感知路径:\(F_p = \text{CrossAttn}(F_{VST}, F_{BLIP})\),视觉质量特征作为 query 查询多模态特征
- 对齐路径:\(F_a = \text{CrossAttn}(F_{BLIP}, F_{VST})\),反向查询保证文本-视觉语义对齐
- 视觉编码用 Video Swin Transformer,多模态用 BLIP
训练策略¶
- 多任务损失:5 个 PLCC loss 加权求和,\(\lambda\) 分配为 (0.125, 0.125, 0.25, 0.25, 0.25)
- 8 个专家 per 维度,Top-2 路由
- 10 次随机划分取平均
实验关键数据¶
感知质量(EduAIGV-1k)¶
| 方法 | SRCC↑ | PLCC↑ | KRCC↑ |
|---|---|---|---|
| Q-Align (zero-shot) | 0.644 | 0.669 | — |
| FasterVQA | 0.844 | 0.856 | 0.659 |
| IP-IQA | 0.852 | 0.863 | 0.666 |
| T2VQA | ~0.84 | ~0.85 | — |
| EduVQA | 0.868 | 0.878 | 0.684 |
消融实验¶
| 配置 | SRCC↑ | 说明 |
|---|---|---|
| EduVQA (full) | 0.868 | 完整模型 |
| w/o S2D-MoE | ~0.85 | 用独立 MLP 替代 |
| 1D MoE | ~0.855 | 传统 MoE |
| w/o 共享专家 | ~0.858 | 各任务独立专家 |
关键发现¶
- S2D-MoE 比传统 1D MoE 和独立 MLP 都显著更好,证明子维度-整体的层次建模有效
- 共享专家池的贡献大于 2D 门控,说明维度间的表示对齐比动态路由更关键
- 时序质量最难预测(双峰分布),EduVQA 在这个维度的提升最大
亮点与洞察¶
- 2D 门控矩阵是建模维度间交互的优雅方案:行/列/全局三种池化操作自然对应空间/时序/整体三个任务,无需额外设计
- 教育领域的 AIGV 评估是一个被忽视的重要方向:数学概念的视觉准确性(正确数量、几何关系)比通用场景更有挑战性
- 词级对齐标注的思路可以迁移到其他需要细粒度语义评估的任务(如 VLM hallucination 检测)
局限性 / 可改进方向¶
- 数据集只有 1130 个视频,规模偏小,可能限制泛化性
- 仅覆盖早期数学教育(数字、几何等简单概念),未涉及更复杂的学科
- 评估框架未利用 LLM/VLM 的推理能力,可以考虑用 VLM 做零样本质量评估
- T2V 模型选择包含一些较老的模型(LVDM、Text2Video-Zero),未包含 Sora 等最新模型
相关工作与启发¶
- vs T2VQA:T2VQA 针对通用 T2V 质量,EduVQA 增加了教育特定的语义对齐维度和层次化 MoE
- vs VBench:VBench 提供多维客观指标,EduVQA 提供多维主观标注+统一预测框架
- vs Q-Align:Q-Align 零样本 SRCC 0.644,微调后的 EduVQA 达 0.868,差距大说明教育领域需要专门适配
评分¶
- 新颖性: ⭐⭐⭐⭐ 教育 AIGV 评估是新赛道,S2D-MoE 设计简洁有效
- 实验充分度: ⭐⭐⭐⭐ 10 个模型、10 次随机划分、完整消融
- 写作质量: ⭐⭐⭐⭐ 标注分析详尽,框架图清晰
- 价值: ⭐⭐⭐⭐ 为教育 AI 视频生成评估开辟了新方向