🎬 视频生成¶
💬 ACL2025 · 2 篇论文解读
- Q2E: Query-to-Event Decomposition for Zero-Shot Multilingual Text-to-Video Retrieval
-
Q2E 提出了一种零样本的查询到事件分解方法,利用 LLM 和 VLM 的参数化世界知识将简单查询分解为前因/当前/后果事件,并结合视频的视觉描述和语音转录,通过逆熵融合排序实现 SOTA 的多语言文本到视频检索性能。
- VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation
-
提出 VidCapBench,首个专为可控文生视频(T2V)设计的视频描述评估 benchmark,从美学/内容/运动/物理规律四个维度评估 caption 质量,643 个视频+10,644 个 QA 对,实验证明 VidCapBench 分数与 T2V 生成质量高度正相关。