TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs¶
基本信息¶
- arXiv: 2509.18056
- 会议: NeurIPS 2025
- 作者: Yunheng Li, Jing Cheng, Shaoyong Jia, Hangyi Kuang, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng
- 机构: Nankai University (HVision Lab)
- 代码: https://github.com/HVision-NKU/TempSamp-R1
一句话总结¶
提出 TempSamp-R1,针对视频时序定位任务改进 GRPO 强化微调框架,通过 off-policy 时间精确引导 + 非线性软优势计算 + 混合 CoT 训练,在 Charades-STA/ActivityNet/QVHighlights 上分别提升 +2.7%/+5.3%/+3.0%。
背景与动机¶
R1-style 强化微调(如 GRPO)在数学推理上效果显著,但在视频时序定位 (temporal grounding) 上效果有限: - 时序定位搜索空间巨大(连续时间轴上的起止时刻对) - GRPO 的 on-policy 采样在大搜索空间中难以命中高奖励解 - 奖励信号稀疏且噪声大——生成的时间段很少与 GT 高度重合 - 纯 on-policy 更新导致策略探索不足、收敛困难
核心问题¶
如何使强化微调在时序搜索空间巨大的视频理解任务中有效工作?
方法详解¶
1. Off-policy Temporal Supervision¶
- 问题:GRPO on-policy 采样生成的时间段大多与 GT 不匹配(IoU 很低)
- 解决:利用 GT 标注作为 off-policy 监督
- 将 GT 时间段混入采样组
- 提供时间精确的正例信号
- 弥补 on-policy 采样在大搜索空间中的稀疏性
2. 非线性软优势计算 (Non-linear Soft Advantage)¶
- 问题:标准 GRPO 的优势函数方差大,训练不稳定
- 解决:对 reward 反馈做非对称变换——动态重塑奖励分布
- 高奖励样本获得更大优势
- 低奖励样本优势被压缩而非硬截断
- 减少方差,提高 reward-based update 的稳定性
3. 混合 CoT 训练范式 (Hybrid Chain-of-Thought)¶
- 统一模型支持 CoT 和 non-CoT 两种推理模式
- CoT 模式:先分析视频内容再定位(适合复杂查询)
- Non-CoT 模式:直接输出时间段(适合简单查询)
- 训练时混合两种模式,推理时按查询复杂度选择
4. 奖励设计¶
- 基于 IoU 的分级奖励
- 考虑预测时间段与 GT 的重合度
- 结合格式合规性奖励
实验关键数据¶
视频时序定位 SOTA¶
| 数据集 | 指标 | GRPO baseline | TempSamp-R1 | 提升 |
|---|---|---|---|---|
| Charades-STA | R1@0.7 | 50.2% | 52.9% | +2.7% |
| ActivityNet Captions | R1@0.5 | 50.7% | 56.0% | +5.3% |
| QVHighlights | mAP | 27.0% | 30.0% | +3.0% |
Few-shot 泛化¶
- 有限训练数据下仍表现出色
- 展示了强化微调的 data efficiency
亮点¶
- 将 R1-style RL 推广到视频理解:首个系统性解决 GRPO 在时序定位中失效的工作
- Off-policy + On-policy 混合:利用 GT 监督弥补 on-policy 在大搜索空间中的不足
- 非线性优势计算:优雅解决 reward-based update 的高方差问题
- 混合 CoT:单一模型支持多种推理深度,灵活应对不同查询
- 3 个 SOTA:在 3 个视频定位 benchmark 上全部超越
局限性¶
- Off-policy 监督依赖 GT 标注,推理时无法使用
- 主要针对时序定位任务,对其他视频理解任务(如 VQA)的效果未验证
- 非线性变换的超参数可能需要任务特定调整
- IoU-based 奖励设计可能不适合所有时序任务
与相关工作的对比¶
- vs. GRPO (标准):GRPO 在时序定位中因搜索空间太大而效果差,TempSamp-R1 通过 off-policy 信号解决
- vs. DeepVideo-R1 (之前写过):DeepVideo-R1 用 R1 做视频推理,TempSamp-R1 专注时序定位
- vs. TimeChat/VTimeLLM:这些方法用 SFT 做时序定位,TempSamp-R1 用 RL 微调更灵活
- vs. NoisyRollout (之前写过):NoisyRollout 在推理中加噪声提升探索,TempSamp-R1 用 off-policy sample
启发与关联¶
- RL 在视觉任务中的挑战:数学推理的离散答案空间 vs. 视频定位的连续搜索空间——后者需要更精心的采样策略
- 与 Does Thinking More Help? 的联系:两者都关注推理过程的效率——前者发现过度思考有害,后者发现 on-policy 采样在大空间中无效
- Off-policy 的普适性:在 RL-based LLM 训练中,纯 on-policy 可能不够,适度引入 off-policy 信号值得探索
评分¶
- 新颖性:★★★★☆ — 将 R1-style RL 推广到视频时序定位有价值
- 技术深度:★★★★☆ — Off-policy + 非线性优势 + 混合 CoT 设计完整
- 实验完整度:★★★★☆ — 3 benchmark SOTA + few-shot 评估
- 写作质量:★★★★☆ — 问题分析到位