VisRL: Intention-Driven Visual Perception via Reinforced Reasoning¶

会议: ICCV 2025
arXiv: 2503.07523
代码: https://github.com/zhangquanchen/VisRL
领域: 目标检测 / 多模态推理
关键词: 意图驱动视觉感知, 强化学习, Visual CoT, DPO, 大多模态模型

一句话总结¶

VisRL是首个将强化学习应用于意图驱动视觉感知的框架，通过迭代DPO训练让大多模态模型学会根据查询意图自主选择关注区域（预测bounding box），无需昂贵的中间bounding box标注即可实现比SFT更强的视觉推理能力。

研究背景与动机¶

领域现状：大多模态模型（LMM，如LLaVA、Qwen-VL）通过端到端推理回答关于图像的问题。近年来Visual Chain-of-Thought（Visual CoT）类方法引入了显式推理步骤——模型先预测一个关注区域（bounding box），裁剪该区域输入模型，再结合原图和裁剪图回答问题。

现有痛点：Visual CoT严重依赖有监督训练，需要为每个query-image对标注中间步骤的bounding box。同一张图像可能对应截然不同的关注区域（取决于不同查询意图），标注复杂度呈组合爆炸增长，根本无法覆盖所有可能的意图-区域对。

核心矛盾：SFT需要密集的<意图, 关注区域>对标注 → 标注成本高且不可穷举 → 模型在有限标注上训练 → 泛化能力受限。

本文目标 在不需要bounding box标注的情况下，让模型学会意图驱动的视觉感知。

切入角度：类比人类视觉学习——人类不通过密集标注学习"看哪里"，而是通过试错与环境交互，逐步发展出自适应聚焦相关区域的能力。用RL替代SFT更合理。

核心 idea：用强化学习（迭代DPO）优化视觉推理过程中的焦点区域选择，利用任务奖励信号替代bounding box标注实现可扩展的意图驱动视觉感知。

方法详解¶

整体框架¶

VisRL分两个阶段：(1) SFT热身——用少量带bbox标注的数据训练模型学会"先看再答"的推理格式；(2) RL训练——在大规模无标注数据上，通过迭代的"数据生成→优化"循环，用step-level DPO不断提升模型。RL阶段不依赖任何外部模型或标注，完全由模型自身完成数据合成和评分。

关键设计¶

SFT热身（Warm-up）:
- 功能：让模型学会Visual CoT推理格式（先输出bbox再回答）
- 核心思路：使用少量标注数据进行SFT，训练模型按"predict bbox → crop → answer"流程生成回答
- 设计动机：RL训练需要模型已具备基本推理格式能力作为起点
迭代DPO框架:
- 功能：RL训练的核心循环，包含数据生成和模型优化两步交替
- 核心思路：每轮迭代中，模型为每个问题生成多个不同推理轨迹（不同bbox+不同答案），通过最终答案的正确性构建偏好对（preference pairs），用step-level DPO优化模型。迭代多轮持续提升
- 设计动机：单轮DPO不够，迭代式训练让模型逐步探索更好策略
多样性控制器（Diversity Controller）:
- 功能：确保生成的bbox覆盖多种可能的关注区域
- 核心思路：在数据生成阶段，通过调节采样温度和增加随机扰动，使生成的bbox具有足够多样性
- 设计动机：如果生成的bbox都很相似，构建的偏好对质量低。多样性是RL探索（exploration）的关键
Step-Level DPO:
- 功能：在推理过程的每一步都进行优化
- 核心思路：视觉推理包含两步（选区域+回答），step-level DPO将偏好学习分解到每一步，确保模型同时学好"选哪个区域"和"如何回答"
- 设计动机：标准DPO只比较整条轨迹的好坏，可能出现"选了不好的区域但碰巧答对"的信号混淆
难度过滤机制:
- 功能：筛选合适难度的问题和最有效的偏好对
- 核心思路：只保留"部分正确部分错误"的问题，过简单或过难的都不适合构建偏好对
- 设计动机：适当难度的问题提供最大学习信号（类似课程学习）

损失函数 / 训练策略¶

SFT阶段：标准next-token prediction loss
RL阶段：Step-level DPO loss，分别在bbox预测步和答案生成步计算偏好损失
迭代训练：每轮用当前模型生成新数据，避免off-policy问题

实验关键数据¶

主实验¶

方法	HR-Bench (4K)	V*Bench	TextVQA	平均
LLaVA-1.5 (baseline)	52.3	61.8	58.4	57.5
Visual CoT (SFT)	55.1	65.2	61.7	60.7
VisRL	58.9	68.4	64.5	63.9

消融实验¶

配置	HR-Bench	V*Bench	说明
Full VisRL	58.9	68.4	完整模型
w/o step-level DPO (轨迹级)	56.2	65.8	step-level关键
w/o diversity controller	55.8	64.9	多样性很重要
w/o difficulty filtering	57.1	66.3	过滤有帮助
仅SFT (更多数据)	55.5	65.5	数据量增加也不如RL

关键发现¶

VisRL在多个benchmark上一致性地超越SFT baseline，RL范式对视觉推理更有效
Step-level DPO贡献最大（去掉后掉2.7%），验证了在推理每一步都优化的必要性
Diversity controller对性能影响大，说明RL中的探索对学习视觉注意力至关重要
泛化性强——在不同base LMM（LLaVA vs Qwen-VL）上都获得一致提升
不需额外bbox标注，使用大规模数据训练后远超使用密集标注的SFT方法

亮点与洞察¶

首个RL+视觉感知：VisRL是第一个将RL应用到意图驱动视觉感知问题的工作，开辟了新研究方向
Step-level DPO：将DPO从轨迹级扩展到步骤级，对多步推理任务更合理。可迁移到任何multi-step reasoning
无标注可扩展：RL阶段完全不需bbox标注，模型自我生成数据+自我评分，天然可扩展到任意规模数据
模型无关性：作为训练框架可应用于不同base LMM

局限与展望¶

SFT热身仍需少量带标注数据，完全零标注方案有待探索
目前只预测一个bbox，对需要关注多个区域的复杂场景可能不够
迭代DPO训练计算成本较高
评价奖励仅基于最终答案正确性，对开放式问题难以定义验证函数
可尝试与GRPO等更新RL算法结合

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个RL+意图驱动视觉感知，step-level DPO设计巧妙
实验充分度: ⭐⭐⭐⭐ 多benchmark验证，消融充分，跨模型泛化测试
写作质量: ⭐⭐⭐⭐ 动机推导流畅，方法描述清晰
价值: ⭐⭐⭐⭐⭐ 开辟RL+视觉推理新方向，可扩展性强