Visual-RFT: Visual Reinforcement Fine-Tuning¶

会议: ICCV 2025
arXiv: 2503.01785
代码: https://github.com/Liuziyu77/Visual-RFT
领域: 目标检测 / 多模态推理
关键词: 强化微调, GRPO, 可验证奖励, 视觉感知, 少样本学习

一句话总结¶

Visual-RFT将DeepSeek R1的强化学习+可验证奖励(RLVR)范式从数学/代码领域扩展到视觉感知任务，设计了IoU奖励（目标检测）和CLS奖励（分类）等任务特异的可验证奖励函数，在细粒度分类、少样本检测、推理定位等任务上以极少数据大幅超越SFT。

领域现状：OpenAI o1和DeepSeek R1展示了大推理模型通过强化学习+可验证奖励进行微调（RFT）的强大能力。RFT的核心优势是数据效率——不像SFT需要大量高质量标注数据，RFT通过试错学习，只需少量样本就能在特定领域取得优秀效果。

现有痛点：之前共识是RFT只适用于有明确可验证答案的任务（数学答案对错、代码测试用例）。视觉感知任务（检测、分类）的输出是bbox坐标或类别名称，如何设计可验证奖励不直观。因此RL在LVLM的post-training中主要用于减少幻觉，而非提升视觉感知。

核心矛盾：SFT范式是数据饥饿的——需要大量高质量标注数据来"模仿"正确答案。在数据稀缺场景（医学影像、稀有物种等），SFT在少样本条件下甚至可能导致性能下降。

本文目标 证明RFT可扩展到视觉感知任务；设计各种视觉任务的可验证奖励函数；在有限数据条件下超越SFT。

切入角度：视觉感知任务虽然输出形式不同于数学，但也有客观评判标准：检测IoU、分类匹配。这些可作为可验证奖励基础。

核心 idea：为视觉感知任务设计task-specific的可验证奖励函数，将R1-style RLVR迁移到视觉领域，实现数据高效的视觉微调。

给定图像和问题输入，策略模型（LVLM）生成多个包含思维链推理和最终答案的回复。用设计好的可验证奖励函数评估每个回复质量，通过GRPO策略梯度优化算法更新模型。不需要额外reward model，奖励由规则直接计算。

IoU可验证奖励（检测任务）:
- 功能：评估模型预测的bounding box与GT的匹配质量
- 核心思路：对每个预测框，计算它与所有GT框的IoU取最大值。总奖励综合precision和recall。还加入格式奖励确保输出符合结构化格式
- 设计动机：与数学的0/1奖励不同，检测任务需要连续奖励信号。IoU天然提供了预测质量的连续度量且计算成本极低
CLS可验证奖励（分类任务）:
- 功能：评估分类预测正确性
- 核心思路：精确匹配——预测类别与GT一致则奖励1，否则0
- 设计动机：分类答案有客观标准，直接用规则验证即可
思维链推理格式:
- 功能：让LVLM在给出答案前先输出推理过程
- 核心思路：prompt中要求模型在<think>...</think>标签内输出推理过程，<answer>...</answer>标签内输出最终答案。检测任务要求输出结构化的位置和置信度
- 设计动机：思维链推理显著提升模型推理能力——分类时分析细节特征，检测时推理空间位置
GRPO策略优化:
- 功能：用组相对策略优化算法更新LVLM
- 核心思路：对每个问题从当前策略采样G个回复，计算各自奖励。GRPO不需额外critic model，直接比较组内回复的相对好坏来计算优势函数，用PPO-style clipped objective更新策略，加KL散度正则
- 设计动机：GRPO比PPO轻量（无需critic model），DeepSeek R1已验证其有效性

GRPO目标函数：最大化 \(\mathbb{E}_{o \sim \pi_\theta(q)}[R(q,o) - \beta \text{KL}[\pi_\theta \| \pi_{ref}]]\)
每个问题采样G个回复组成group，用group内相对奖励计算advantage

任务	数据量	Visual-RFT	SFT	提升
细粒度分类 (1-shot)	~100	+24.3% acc	-4.3% acc	RFT远超SFT
少样本检测 COCO 2-shot	极少	+21.9 mAP	baseline	显著提升
少样本检测 LVIS	极少	+15.4 mAP	baseline	显著提升
开放词汇检测 COCO new (2B)	-	31.3 mAP	9.8 mAP	+21.5
开放词汇检测 LVIS rare (2B)	-	20.7 mAP	2.7 mAP	+18.0

配置	分类Acc	检测mAP	说明
Visual-RFT (full)	最高	最高	完整模型
w/o 思维链	下降明显	下降	推理过程对细粒度任务关键
SFT (同等数据)	显著低	显著低	少样本下SFT不如RFT
更多SFT数据	仍低于RFT	仍低于RFT	单纯加数据也难追上RFT