NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation¶

会议: NeurIPS 2025
arXiv: 2504.13055
代码: 无（未提及）
领域: 多模态VLM / 推理 / 强化学习
关键词: visual reasoning, reinforcement learning, data augmentation, policy exploration, noise annealing, VLM RL

一句话总结¶

提出NoisyRollout，一种简单有效的数据增强方法——在VLM的RL训练中混合使用干净图像和适度扭曲图像的生成轨迹，通过注入感知多样性促进策略探索和鲁棒推理，配合噪声退火调度，零额外计算成本实现5个域外推理benchmark上的开源RL模型SOTA。

背景与动机¶

RL（如GRPO/RLVR）已成功增强VLM的推理能力（类似DeepSeek-R1的成功），但存在两个未充分探索的问题：(1) 策略探索不足——RL训练中VLM的rollout缺乏多样性，容易陷入局部最优；(2) 视觉感知脆弱——VLM对图像的感知不完美（如遮挡、噪声、模糊），导致后续推理出错。这与GTR发现的"thought collapse"问题相关但从不同角度入手——GTR聚焦于推理过程的引导，NoisyRollout聚焦于输入多样性的增强。

核心问题¶

如何在不增加额外训练成本、不修改RL目标的前提下，增强VLM在RL训练中的策略探索和视觉推理鲁棒性？

方法详解¶

整体框架¶

NoisyRollout在标准GRPO/RLVR训练流程中，将每个training step的rollout分为两组：一组用原始干净图像生成推理轨迹，另一组用添加适度噪声/扭曲的图像生成推理轨迹。两组轨迹混合后用pairwise奖励比较进行策略更新。

关键设计¶

感知多样性注入：在RL rollout时对输入图像施加适度扰动（如高斯噪声、旋转等），迫使VLM在不完美感知条件下进行推理。这有两个好处：(a) 增加了rollout的多样性，帮助模型探索更多推理路径；(b) 训练模型对视觉噪声具有鲁棒性——即使图像质量不佳也能正确推理。
噪声退火调度（Noise Annealing）：训练早期使用较强的噪声（鼓励更大的探索空间），随着训练进行逐步减弱噪声强度（确保后期收敛的稳定性）。这与温度退火和课程学习的思想一致——先探索后利用。
零额外成本的实现：NoisyRollout不需要额外的前向传播——只是在现有的rollout图像上施加简单的增强变换。不修改RL的loss函数或训练器代码，只改变数据输入。这使得方法极易集成到任何现有VLM RL训练pipeline中。

损失函数 / 训练策略¶

标准GRPO loss，无修改。噪声增强仅在rollout采样时应用和奖励计算时使用原始图像。

实验关键数据¶

在5个域外推理和感知benchmark上达到开源RL微调模型的SOTA
验证了跨模型规模的有效性：7B和32B均有效
验证了跨数据规模的有效性：1K到6K训练样本
验证了跨增强类型的有效性：高斯噪声和旋转均有效
零额外训练成本

消融实验要点¶

适度噪声 >> 无噪声 >> 过强噪声（存在最优噪声强度区间）
噪声退火 >> 固定噪声强度（退火策略更优）
混合干净和扰动轨迹 >> 全部扰动（保留部分正常感知很重要）
多种增强类型均有效，说明关键在于感知多样性而非特定增强类型

亮点¶

极其简单但极其有效：只是在RL rollout的输入图像上加噪声——没有比这更简单的改进了
零额外成本：不增加计算、不改loss、不改代码架构——真正的"free lunch"
泛化性强：跨模型规模、数据规模、增强类型均有效——说明核心insight是robust的
与GTR互补：GTR从推理过程引导解决thought collapse，NoisyRollout从输入多样性解决探索不足——可以组合使用
洞察深刻：VLM的视觉推理不仅受限于推理能力，还受限于视觉感知的鲁棒性——增强感知鲁棒性间接提升推理

局限性 / 可改进方向¶

噪声类型和强度的最优选择可能因任务而异
仅验证图像VLM，视频VLM的适用性未探索
退火调度的超参数需要调优
对于某些对图像质量极敏感的任务（如OCR/文档理解），噪声可能有负面影响

与相关工作的对比¶

vs. GTR：GTR引入过程引导和自动纠正器来防止thought collapse（推理层面）；NoisyRollout增加输入多样性促进探索（数据层面）——互补
vs. Standard GRPO：在相同RL训练框架下，NoisyRollout仅通过数据增强即可超越标准GRPO
vs. R1-Vision等：NoisyRollout是一种training recipe改进，可以应用到任何VLM RL方法上

启发与关联¶

"输入扰动促进探索"的思路可以迁移到其他RL训练场景——如机器人操作的RL中对观察施加噪声
噪声退火与课程学习的结合值得更深入研究
如果将NoisyRollout与GTR结合：NoisyRollout增加输入多样性 + GTR引导推理质量 = 更强的VLM reasoning

评分¶

新颖性: ⭐⭐⭐⭐ 极简的想法但洞察精准——感知鲁棒性→推理鲁棒性
实验充分度: ⭐⭐⭐⭐⭐ 5个OOD benchmark、2个模型规模、多种数据规模和增强类型
写作质量: ⭐⭐⭐⭐ 方法简洁清晰
价值: ⭐⭐⭐⭐⭐ 零成本的通用VLM RL训练改进，任何团队都能立即使用