跳转至

Video-KTR: 通过关键 Token 归因增强视频推理

会议: ICLR 2026
arXiv: 2601.19686
领域: 视频理解
关键词: 视频推理, 强化学习, Token归因, 多模态LLM, GRPO

一句话总结

提出 Video-KTR,一种模态感知的策略塑造框架,通过反事实分析识别视觉感知型、时序敏感型和高熵 Token 三类关键 Token,仅对这些 Token 执行选择性强化学习更新,在多个视频推理基准上达到 SOTA(Video-Holmes 42.7%,超越 GPT-4o)。

研究背景与动机

强化学习(RL)在提升多模态 LLM 推理能力方面展现出强大潜力,但现有视频推理方法存在三个关键缺陷:

粗粒度奖励:依赖序列级奖励,无法精确指导哪些 Token 需要重点学习

单一因素选择:仅基于信息熵选择 Token,忽略模态特异性依赖

语言先验过度依赖:缺乏视觉输入与输出 Token 的细粒度语义对齐,导致幻觉风险增加

现有方法如 T-GRPO 虽引入时序约束(惩罚帧打乱后的预测),但属于全局粗糙假设,忽略了某些任务可仅靠静态线索解决的事实。

方法详解

整体框架

Video-KTR 在 GRPO 框架基础上引入模态感知的 Token 级策略塑造机制,核心包含三步:(1) 多视角 Token 重要性分析;(2) Token 选择;(3) 选择性策略更新。

关键设计:三类归因信号

1. 视觉感知型 Token(Visual-Aware)

通过反事实遮蔽量化每个 Token 对视觉输入的依赖程度。将视频特征置零后计算 logit 变化:

\[\Delta^{\text{vis}}_i = |\log \text{softmax}(\mathbf{z}^{\text{full}}_i)_{y_i} - \log \text{softmax}(\mathbf{z}^{\text{masked}}_i)_{y_i}|\]

\(\Delta^{\text{vis}}_i\) 的 Token(如"person"、"door"、"blue")表明其预测强烈依赖视觉输入。

2. 时序敏感型 Token(Temporal-Aware)

通过帧顺序打乱检测对时序结构的敏感度:

\[\Delta^{\text{temp}}_i = |\log \text{softmax}(\mathbf{z}^{\text{ordered}}_i)_{y_i} - \log \text{softmax}(\mathbf{z}^{\text{shuffled}}_i)_{y_i}|\]

\(\Delta^{\text{temp}}_i\) 的 Token(如"first"、"then"、"appear")反映对事件顺序和因果关系的依赖。

3. 高熵 Token(Entropy-Aware)

捕获预测不确定性,识别推理关键点:

\[\mathcal{H}(i) = -\sum_w p(z_i = w) \log p(z_i = w)\]

高熵 Token(如"however"、"wait")通常标记语篇转折或决策点。

Token 选择与策略更新

选取每种归因策略中 top \(r\%\) 的 Token,取并集 \(\mathcal{S} = \mathcal{S}_{\text{vis}} \cup \mathcal{S}_{\text{temp}} \cup \mathcal{S}_{\text{ent}}\),构建二值掩码 \(m_{i,t}\)。修改后的 GRPO 目标函数:

\[\mathcal{J}_{\text{Video-KTR}}(\theta) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^G \frac{1}{|o_i|}\sum_{t=1}^{|o_i|} m_{i,t} \cdot \min(r_{i,t}\hat{A}_{i,t}, \text{clip}(r_{i,t})\hat{A}_{i,t})\right]\]

\(m_{i,t}=1\) 的关键 Token 参与损失计算。

实验关键数据

主实验:跨基准性能对比

模型 规模 Video-Holmes VideoMMMU MMVU(mc) TempCompass VideoMME
GPT-4o 42.0 61.2 75.4 73.8 71.9
GPT-5 46.7 84.6 82.6 83.3 86.7
Video-R1 7B 36.5 52.3 63.8 73.2 59.3
TW-GRPO 7B 32.9 51.3 65.8 73.3 55.1
Video-KTR 7B 42.7 53.1 66.6 73.5 62.5

消融实验:归因信号组合

策略 E V T Video-Holmes VideoMMMU MMVU 平均
Vanilla GRPO 38.8 49.8 64.8 51.1
仅 T 42.1 50.1 65.5 52.6
仅 V 40.5 51.9 65.1 52.5
V+E+T 41.6 52.6 65.9 53.4

关键发现

  1. 三种信号互补:单独使用任一信号均优于 vanilla GRPO,但完整组合效果最佳
  2. 硬选择优于软加权:top-20% 二值掩码一致优于 Softmax/Sigmoid/线性/指数加权
  3. 语言学分布差异化:视觉 Token 以名词为主(24.8%),时序 Token 以动词为主(21.2%),熵 Token 副词比例更高(8.8%)
  4. 最优更新比例为 20%:更高比例引入噪声,过低则信号不足

亮点与洞察

  1. 反事实分析的巧妙应用:通过视觉遮蔽和帧打乱两种扰动,自然地解耦了视觉和时序依赖
  2. 即插即用设计:Video-KTR 可无缝集成到任何基于 GRPO 的 RL 训练中
  3. 7B 模型超越 GPT-4o:在 Video-Holmes 上 42.7% vs 42.0%,证明精细的 Token 级优化可弥补模型规模差距
  4. 未选中 Token 的分析:被过滤的低信息 Token 主要是功能词(助动词、代词、介词等),验证了归因机制能有效过滤冗余

局限性

  1. 反事实分析需要额外的前向传播(遮蔽视觉 + 打乱帧序),增加训练开销
  2. 仅在 7B 规模模型上验证,更大规模模型是否仍有同等收益未知
  3. Token 选择比例 \(r\) 作为固定超参数,未能根据样本难度自适应调整
  4. 帧数限制为 16-64 帧,对超长视频的处理能力未验证

评分 ⭐⭐⭐⭐⭐

精巧的方法设计、扎实的实验分析、显著的性能提升。将 RL 从粗粒度序列级奖励转向细粒度模态感知 Token 级更新,是视频推理 RL 训练的重要进步。

相关论文