NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation¶
会议: NeurIPS 2025
arXiv: 2504.13055
代码: 无(未提及)
领域: 多模态VLM / 推理 / 强化学习
关键词: visual reasoning, reinforcement learning, data augmentation, policy exploration, noise annealing, VLM RL
一句话总结¶
提出NoisyRollout,一种简单有效的数据增强方法——在VLM的RL训练中混合使用干净图像和适度扭曲图像的生成轨迹,通过注入感知多样性促进策略探索和鲁棒推理,配合噪声退火调度,零额外计算成本实现5个域外推理benchmark上的开源RL模型SOTA。
背景与动机¶
RL(如GRPO/RLVR)已成功增强VLM的推理能力(类似DeepSeek-R1的成功),但存在两个未充分探索的问题:(1) 策略探索不足——RL训练中VLM的rollout缺乏多样性,容易陷入局部最优;(2) 视觉感知脆弱——VLM对图像的感知不完美(如遮挡、噪声、模糊),导致后续推理出错。这与GTR发现的"thought collapse"问题相关但从不同角度入手——GTR聚焦于推理过程的引导,NoisyRollout聚焦于输入多样性的增强。
核心问题¶
如何在不增加额外训练成本、不修改RL目标的前提下,增强VLM在RL训练中的策略探索和视觉推理鲁棒性?
方法详解¶
整体框架¶
NoisyRollout在标准GRPO/RLVR训练流程中,将每个training step的rollout分为两组:一组用原始干净图像生成推理轨迹,另一组用添加适度噪声/扭曲的图像生成推理轨迹。两组轨迹混合后用pairwise奖励比较进行策略更新。
关键设计¶
-
感知多样性注入:在RL rollout时对输入图像施加适度扰动(如高斯噪声、旋转等),迫使VLM在不完美感知条件下进行推理。这有两个好处:(a) 增加了rollout的多样性,帮助模型探索更多推理路径;(b) 训练模型对视觉噪声具有鲁棒性——即使图像质量不佳也能正确推理。
-
噪声退火调度(Noise Annealing):训练早期使用较强的噪声(鼓励更大的探索空间),随着训练进行逐步减弱噪声强度(确保后期收敛的稳定性)。这与温度退火和课程学习的思想一致——先探索后利用。
-
零额外成本的实现:NoisyRollout不需要额外的前向传播——只是在现有的rollout图像上施加简单的增强变换。不修改RL的loss函数或训练器代码,只改变数据输入。这使得方法极易集成到任何现有VLM RL训练pipeline中。
损失函数 / 训练策略¶
标准GRPO loss,无修改。噪声增强仅在rollout采样时应用和奖励计算时使用原始图像。
实验关键数据¶
- 在5个域外推理和感知benchmark上达到开源RL微调模型的SOTA
- 验证了跨模型规模的有效性:7B和32B均有效
- 验证了跨数据规模的有效性:1K到6K训练样本
- 验证了跨增强类型的有效性:高斯噪声和旋转均有效
- 零额外训练成本
消融实验要点¶
- 适度噪声 >> 无噪声 >> 过强噪声(存在最优噪声强度区间)
- 噪声退火 >> 固定噪声强度(退火策略更优)
- 混合干净和扰动轨迹 >> 全部扰动(保留部分正常感知很重要)
- 多种增强类型均有效,说明关键在于感知多样性而非特定增强类型
亮点¶
- 极其简单但极其有效:只是在RL rollout的输入图像上加噪声——没有比这更简单的改进了
- 零额外成本:不增加计算、不改loss、不改代码架构——真正的"free lunch"
- 泛化性强:跨模型规模、数据规模、增强类型均有效——说明核心insight是robust的
- 与GTR互补:GTR从推理过程引导解决thought collapse,NoisyRollout从输入多样性解决探索不足——可以组合使用
- 洞察深刻:VLM的视觉推理不仅受限于推理能力,还受限于视觉感知的鲁棒性——增强感知鲁棒性间接提升推理
局限性 / 可改进方向¶
- 噪声类型和强度的最优选择可能因任务而异
- 仅验证图像VLM,视频VLM的适用性未探索
- 退火调度的超参数需要调优
- 对于某些对图像质量极敏感的任务(如OCR/文档理解),噪声可能有负面影响
与相关工作的对比¶
- vs. GTR:GTR引入过程引导和自动纠正器来防止thought collapse(推理层面);NoisyRollout增加输入多样性促进探索(数据层面)——互补
- vs. Standard GRPO:在相同RL训练框架下,NoisyRollout仅通过数据增强即可超越标准GRPO
- vs. R1-Vision等:NoisyRollout是一种training recipe改进,可以应用到任何VLM RL方法上
启发与关联¶
- "输入扰动促进探索"的思路可以迁移到其他RL训练场景——如机器人操作的RL中对观察施加噪声
- 噪声退火与课程学习的结合值得更深入研究
- 如果将NoisyRollout与GTR结合:NoisyRollout增加输入多样性 + GTR引导推理质量 = 更强的VLM reasoning
评分¶
- 新颖性: ⭐⭐⭐⭐ 极简的想法但洞察精准——感知鲁棒性→推理鲁棒性
- 实验充分度: ⭐⭐⭐⭐⭐ 5个OOD benchmark、2个模型规模、多种数据规模和增强类型
- 写作质量: ⭐⭐⭐⭐ 方法简洁清晰
- 价值: ⭐⭐⭐⭐⭐ 零成本的通用VLM RL训练改进,任何团队都能立即使用