🎬 视频生成¶

💬 ACL2025 · 2 篇论文解读

Q2E: Query-to-Event Decomposition for Zero-Shot Multilingual Text-to-Video Retrieval: Q2E 提出了一种零样本的查询到事件分解方法，利用 LLM 和 VLM 的参数化世界知识将简单查询分解为前因/当前/后果事件，并结合视频的视觉描述和语音转录，通过逆熵融合排序实现 SOTA 的多语言文本到视频检索性能。
VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation: 提出 VidCapBench，首个专为可控文生视频（T2V）设计的视频描述评估 benchmark，从美学/内容/运动/物理规律四个维度评估 caption 质量，643 个视频+10,644 个 QA 对，实验证明 VidCapBench 分数与 T2V 生成质量高度正相关。