🎬 视频理解¶
💬 ACL2025 · 共 5 篇
- Generative Frame Sampler for Long Video Understanding
-
提出 GenS,一个基于 VideoLLM 的生成式帧采样模块,用自然语言输出question-aware的相关帧时间段和置信度分数,作为即插即用模块在 LongVideoBench/MLVU/HourVideo 上为多种 VideoLLM 带来 2-4 个点的一致提升。
- ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs
-
提出 ICR Score(Information Contribution to Residual Stream),通过测量 MHSA 和 FFN 模块对隐状态更新的贡献一致性来量化残差流动态,构建仅 16K 参数的 ICR Probe,在 4 个数据集 × 3 个 LLM 上幻觉检测 AUROC 全面超越基线。
- Improving Dialogue State Tracking through Combinatorial Search for In-Context Examples
-
提出 CombiSearch 方法,通过组合式评分为对话状态追踪(DST)选择最优 in-context 示例组合,在仅用 5% 训练数据的情况下超越所有使用 100% 数据的 baseline,理想设置下 JGA 上界比传统方法高 12%。
- RAVEN: Robust Advertisement Video Violation Temporal Grounding via Reinforcement Reasoning
-
本文提出RAVEN框架,将课程强化学习与多模态LLM结合,通过分层奖励机制和渐进式训练策略,实现广告视频违规内容的精确时序定位和类别预测,无需显式推理标注数据即可激发涌现推理能力。
- VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation
-
提出 VidCapBench,首个专为可控文生视频(T2V)设计的视频描述评估 benchmark,从美学/内容/运动/物理规律四个维度评估 caption 质量,643 个视频+10,644 个 QA 对,实验证明 VidCapBench 分数与 T2V 生成质量高度正相关。