Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization¶
会议: NeurIPS 2025 arXiv: 2504.12083 代码: GitHub 领域: llm_alignment 关键词: video LLM, preference optimization, self-alignment, hallucination, temporal understanding
一句话总结¶
提出 RRPO(Refined Regularized Preference Optimization),通过子序列级细粒度奖励和 token 级 KL 正则化替代 DPO 的响应级奖励,结合自对齐数据生成框架,在视频理解任务上减少幻觉、提升时间推理能力。
研究背景与动机¶
- LVLM 的核心问题:大型视频语言模型在细粒度时间理解、幻觉、简单 QA 任务上仍频繁犯错
- 原因分析:时空理解不足、视觉-语言表示不对齐、共现概念的虚假相关、过度依赖语言线索而忽略视觉信息
- DPO 的局限:
- 响应级奖励过于粗粒度,惩罚所有 token 而非关键差异 token
- 长响应的梯度过大,导致模型偏离初始状态,丧失原始能力
- 弱正则化无法有效控制偏离
方法详解¶
整体框架:自对齐 pipeline¶
- 从开源基准采样视频-问题对
- 对视频施加时空扰动(帧遮蔽 25%-50% + 时间乱序)
- 用扰动视频做推理,错误响应作为 non-preferred,正确响应作为 preferred
- 用 LLM 识别 preferred/non-preferred 之间的关键差异概念
- 用 RRPO 优化模型偏好
关键设计:RRPO¶
子序列级细粒度奖励:仅对 preferred 和 non-preferred 响应中差异的关键概念子序列计算奖励,而非整个响应:
其中 \(y_i^+\) 和 \(y_i^-\) 是第 \(i\) 个差异子序列。
Token-wise KL 正则化:在 preferred 响应上计算 token 级 KL 散度,防止模型偏离:
最终损失:
梯度分析¶
RRPO 梯度上界 \(\|\nabla_\theta \mathcal{L}_{\text{RRPO}}^{(\text{rank})}\| \leq \beta M(2NL)\),DPO 梯度上界 \(\|\nabla_\theta \mathcal{L}_{\text{DPO}}\| \leq \beta M(|y^+|+|y^-|)\)。由于 \(2NL \ll |y^+|+|y^-|\),RRPO 梯度更小,更新更稳定。加上 TKL 项的负梯度,进一步减小总梯度幅度。
损失函数 / 训练策略¶
- 使用 LoRA 仅训练 LLM 部分,冻结其他参数
- 训练帧数 16 帧,推理时可使用更多帧
- 4×A100 80GB,训练 1-10 小时
- 三个基础模型:VideoChat2、LLaVA-Video、LongVU
实验关键数据¶
主实验:RRPO vs 其他对齐方法¶
| 方法 | TVBench | VideoHallucer | VideoMME | MLVU | Δ/%Δ |
|---|---|---|---|---|---|
| LongVU (base) | 53.7 | 39.2 | 56.2 | 63.6 | - |
| + DPO | 54.3 | 40.9 | 56.6 | 63.6 | 0.7/1.5 |
| + DPA | 54.6 | 40.3 | 56.9 | 63.9 | 0.7/1.5 |
| + TDPO | 53.9 | 41.4 | 57.0 | 63.8 | 0.8/1.9 |
| + RRPO | 56.5 | 44.0 | 57.7 | 64.5 | 2.5/5.4 |
与现有对齐 LVLM 对比¶
| 模型 | TVBench | VideoHallucer | VideoMME | MLVU |
|---|---|---|---|---|
| LLaVA-Video-TPO | 51.1 | 50.6 | 65.6/71.5 | 68.7 |
| LLaVA-Video-RRPO | 52.2 | 55.8 | 65.5/71.8 | 69.4 |
RRPO 在所有 setup 上超越 TPO,VideoHallucer 提升达 5.2%。
消融实验¶
| 变体 | TVBench | VideoHallucer | Δ |
|---|---|---|---|
| RRPO w/o 细粒度奖励 | 54.3 | 43.0 | -1.5 |
| RRPO w/o TKL | 54.9 | 39.1 | -2.6 |
| 完整 RRPO | 56.5 | 44.0 | 基准 |
两个组件均有贡献,TKL 正则化影响更大。
模型偏离分析¶
- RRPO KL 散度 ≈ 1(使用 10× 更高学习率)
- DPO KL 散度 ≈ 20
- TDPO/DPA KL 散度 ≈ 1,但性能显著更差
- RRPO 实现最优的性能-偏离权衡
关键发现¶
- 时间理解提升最高 2.8%(TVBench)
- 幻觉减少 4.8%-8.8%(VideoHallucer)
- 短视频和长视频理解均有一致提升
- 扰动策略中 Mask + Local Shuffle 效果最佳
亮点与洞察¶
- 自对齐数据生成:通过时空扰动激发模型错误,无需人工标注
- 理论支撑的梯度分析:数学证明 RRPO 梯度更小更稳定
- 概念级精准对齐:只惩罚差异概念而非整个响应,避免过度惩罚
- TKL 作为信任区域约束:防止模型大幅偏离,允许使用更大学习率
局限性 / 可改进方向¶
- 扰动策略仍较简单(帧遮蔽+乱序),更复杂的视觉扰动可能更有效
- 依赖 GPT-4o-mini 进行概念对比和正确性验证
- 仅在 7B 模型上实验,更大模型待验证
- 训练帧数(16帧)与推理帧数(64-100帧)不一致,可能存在分布偏移
相关工作与启发¶
- DPO:RRPO 的出发点,解决其响应级奖励和弱正则化问题
- TDPO:增强 DPO 正则化,但性能改善有限;RRPO 同时改进奖励和正则化
- DDPO:提供细粒度奖励,但缺乏强正则化;RRPO 结合两者优势
- 启发:子序列级奖励思想可推广到任何偏好优化场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 子序列级奖励 + TKL 正则化的组合设计有创新性
- 实验充分度: ⭐⭐⭐⭐⭐ 3个基础模型 × 8个基准,全面的对比和消融
- 写作质量: ⭐⭐⭐⭐ 梯度分析清晰,实验丰富
- 价值: ⭐⭐⭐⭐ 对视频 LLM 对齐有实用参考价值