PEPO: Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought¶
日期: 2026-03-24
arXiv: 2603.22847
代码: 无
领域: 多模态/VLM / LLM推理 / 强化学习
关键词: multimodal CoT, token-level optimization, visual grounding, GRPO, perception prior
一句话总结¶
提出 PEPO(Perception-Exploration Policy Optimization),通过 token 级视觉感知先验(隐状态与视觉 token 的余弦相似度)和熵引导探索信号的自适应融合,重新加权 GRPO 策略梯度,在几何/视觉推理/视觉定位等任务上比标准 GRPO 提升 +3.67%,首次揭示多模态 CoT 中视觉锚定和推理探索的互补角色。
研究背景与动机¶
-
领域现状: RLVR(Reinforcement Learning from Verifiable Rewards)方法如 GRPO 在 LLM 推理上很成功,但应用于多模态 CoT 时,序列级均匀监督忽略了不同 token 在视觉锚定程度上的差异。
-
现有痛点: 对于多模态任务,某些 token 强依赖视觉输入(感知 token),某些则涉及逻辑推理和自我纠错(探索 token),均匀加权导致优化失衡。
-
核心 idea: 从隐状态相似度中提取免标注的视觉锚定度先验,与 token 级熵融合构建 token 级 advantage 权重。
方法详解¶
整体框架¶
在 GRPO/DAPO 的序列级 advantage 基础上引入 token 级权重调制:对每个 response token 计算视觉相似度(感知先验)和熵(探索信号),通过自适应门控融合为 token 级 advantage 权重。线性逼近计划从序列级均匀权重平滑过渡到 token 级差异化权重。
关键设计¶
-
视觉相似度(感知先验):
- \(\text{VS}_t=\frac{1}{L}\sum_{l=1}^{L}\frac{1}{N}\sum_{n=1}^{N}\frac{\langle h_{l,t}, v_{l,n}\rangle}{\|h_{l,t}\|\|v_{l,n}\|}\)
- 跨所有层、所有 vision token 的余弦相似度均值
- 高 VS token 是"看图说话"型——移除图像后隐状态偏移 2-3 倍大
- 无需标注,直接从模型隐状态中提取
-
熵引导探索信号:
- \(H_t=-\sum_{x\in\mathcal{V}} p_\theta(x|s_t)\log p_\theta(x|s_t)\)
- 高熵 token 通常是推理转折点("但是""因此""检查"等)
- 仅用熵做 RL 在视觉定位任务上崩溃,说明感知先验是必要的
-
感知-探索融合门控:
- 均值中心化得分:\(g_t=\hat{\text{VS}}_t+\hat{H}_t-\text{mean}_t(\hat{\text{VS}}+\hat{H})\)
- 权重:\(w_t=T\cdot\text{Softmax}((1+\alpha\tanh(g_t))\cdot\text{VS}_t)\)
- 门控乘以 VS 保持感知主导(α=0.05 最优)
- Token 级 advantage:\(A_t^{(i)}=[(1-\lambda)+\lambda w_t^{(i)}]A^{(i)}\)
- λ 从 0→1 线性 schedule,避免早期训练不稳定
-
即插即用: 无缝集成到 GRPO(PEPOG 变体)和 DAPO(PEPOD 变体),计算开销 <1%
实验关键数据¶
几何推理 (Qwen2.5-VL-3B)¶
| 方法 | Geo3K val | Geo3K test | MathVista | MathVerse | 平均 |
|---|---|---|---|---|---|
| GRPO | - | - | - | - | 32.64 |
| PEPOG | 21.91 | 27.27 | 54.45 | 45.42 | 36.70 |
InternVL3-2B 上 PEPOD vs DAPO: 37.66 vs 32.51(+5.15)
视觉定位 (RefCOCO, IoU@50)¶
| 方法 | val | testA | testB | 跨域均值 |
|---|---|---|---|---|
| GRPO | - | - | - | 62.42 |
| PEPOG | 90.44 | 92.40 | 85.75 | 65.26 |
细粒度分类 (FGVC Aircraft)¶
| 方法 | 1-shot | 4-shot | 平均 |
|---|---|---|---|
| GRPO | - | - | 56.09 |
| PEPOG | 51.13 | 75.79 | 61.41 |
消融实验¶
| 组件 | Geo3K val | 说明 |
|---|---|---|
| GRPO baseline | 19.00 | 基准 |
| 仅探索(熵) | 20.18 | +1.18 |
| 仅感知(VS, α=0) | 21.07 | +2.07 |
| 完整 PEPO | 22.80 | +3.80 |
- 去 schedule(λ=1 固定): 19.80,说明渐进加权重要
- 加法融合(无门控): 20.99,门控比加法好 1.8 分
- 浅层 (1-10) vs 全层: 18.92 vs 22.80,所有层都有贡献
亮点与洞察¶
- 首次量化多模态推理中视觉锚定和探索的互补角色——感知和探索编码不同模式,联合优于任一单独使用
- 免标注感知先验通过隐状态相似度获得,优雅且通用
- 可直接应用到任何 GRPO/DAPO pipeline,开销极小(<1%),工程实用性强
- SuperClevr Counting 上 +14.94 的最大增益显示 PEPO 对高度视觉依赖的任务帮助最大
- 仅熵优化在视觉定位上崩溃——确认了多模态 RL 中视觉锚定不可或缺
局限性 / 可改进方向¶
- 仅在 2B-3B 模型验证,7B+ 效果未知(GPU/显存限制)
- 感知参数(α, λ schedule)需要验证集调优,非完全自适应
- 未在视频理解、工具增强推理等更广泛任务上测试
- 高熵 baseline 不稳定使得纯探索对比受限
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次在 token 级分析多模态 RL 的感知-探索互补
- 实验充分度: ⭐⭐⭐⭐ 多任务多模型 + token 级分析 + 系统消融
- 写作质量: ⭐⭐⭐⭐ 分析深入,可视化有说服力
- 价值: ⭐⭐⭐⭐ 对多模态 RL 训练有实用指导意义