Visual-ERM: Reward Modeling for Visual Equivalence¶

会议: CVPR2025
arXiv: 2603.13224
代码: GitHub
领域: image_generation
关键词: reward model, vision-to-code, reinforcement learning, visual equivalence, chart-to-code, test-time scaling

一句话总结¶

提出 Visual-ERM，一个多模态生成式奖励模型，在视觉空间中直接评估 vision-to-code 任务的渲染质量，提供细粒度、可解释、任务无关的奖励信号，用于 RL 训练和测试时缩放。

研究背景与动机¶

Vision-to-code 的重要性：将结构化视觉输入（图表、表格、SVG）转为可执行代码/标记语言，是 AI 辅助开发、科学论文解析等下游应用的关键原语
SFT 的局限：监督微调需要大量标注数据，且跨域泛化能力弱
RL 奖励信号失配：现有奖励要么基于文本规则（如编辑距离、TEDS），忽视视觉线索；要么基于粗粒度视觉嵌入相似度（如 DINO），对细粒度差异不敏感
奖励黑客问题：DINO 相似度 0.99 的输出仍可能包含大量解析错误，文本指标也无法捕获布局、间距等视觉问题
缺乏统一评估基准：现有奖励基准聚焦于视觉-语言对齐，缺少细粒度图像-图像差异判别的基准
跨模态评估需求：理想的奖励模型需要同时感知视觉细节、阅读嵌入文本、推理结构保真度

方法详解¶

整体框架¶

Visual-ERM 在视觉空间中工作：给定真值图像 \(I^\star\) 和从预测代码渲染得到的图像 \(\hat{I} = \mathcal{R}_m(y)\)，模型输出细粒度差异描述和严重程度评分作为奖励信号。

关键设计¶

1. 奖励数据生成（Controlled Corruption + Sampling） - Edit 模式：用强 LVLM 对真值文本注入预定义错误类型，生成受控损坏样本 - Infer 模式：用较弱 LVLM 直接推理预测，采样自然出现的错误（更接近实际分布） - 将预测渲染为图像，与真值配对构成训练数据

2. 细粒度标注蒸馏 - 开源模型（含 Qwen3-VL-235B）在差异定位上仍有显著差距 - 采用 GPT-5-mini 进行高质量差异标注，通过蒸馏将能力迁移到更高效的模型 - 标注内容包括：差异类型、位置、描述、严重程度

3. Visual-ERM 训练 - 基于 Qwen3-VL-8B-Instruct 训练 - 输入图像对 \((I^\star, \hat{I})\)，输出细粒度差异分析序列 \(a\) - 标准 NLL 目标：\(\mathcal{L}(\theta) = \mathbb{E}[-\sum_t \log f_{\theta_{ERM}}(a_t | x, a_{<t})]\)

4. RL 集成 - 差异严重度求和：\(S_{\text{verm}} = \sum_{k=1}^K s_k\)，归一化到 \([0,1]\) - 最终奖励：\(r = r_{\text{rsr}} + r_{\text{verm}}\)（渲染成功奖励 + 视觉等价奖励） - 用 GRPO 算法优化策略模型

5. 测试时缩放（Test-Time Scaling） - Visual-ERM 生成的可解释反馈可直接引导迭代自修正 - 模型根据前一轮输出和反馈进行修正：\(y^{(1)} \sim \pi_\theta(\cdot | x, y^{(0)}, f^{(0)})\)

损失函数¶

Visual-ERM 训练：标准序列生成 NLL 损失
RL 策略优化：带 KL 正则的 GRPO 目标，奖励 = 渲染成功 + 视觉等价分数

实验关键数据¶

主实验：Chart-to-Code（ChartMimic）¶

模型	Direct Overall	Customized Overall	Avg
Qwen3-VL-8B-Instruct	67.7	71.6	69.6
+ RL (DINO-based)	76.5	75.8	76.1
+ RL (Visual-ERM)	79.5	76.5	78.0
Δ vs. base	+11.8	+4.9	+8.4

主实验：Table-to-Markdown¶

模型	OmniDocBench TEDS↑	Edit-Dist↓	olmOCR TA↑	Avg↑
Qwen3-VL-8B + RL (DINO)	62.2	37.0	71.7	65.3
Qwen3-VL-8B + RL (TEDS)	79.2	31.6	78.6	74.8
Qwen3-VL-8B + RL (Visual-ERM)	81.4	20.7	78.1	79.5
Δ vs. base	+2.5	+2.5	+2.8	+2.7

DINO-based RL 在表格任务上严重退化（Avg 降至 65.3），而 Visual-ERM 始终稳健提升。

VC-RewardBench 评估¶

Visual-ERM (8B) 在细粒度图像差异判定上超越 Qwen3-VL-235B-Instruct
接近闭源领先模型水平

消融与关键发现¶

DINO 奖励存在严重的奖励黑客风险：语义偏向导致文本内容被忽视
文本指标对视觉布局、间距等错误无感
Visual-ERM 的可解释反馈使测试时缩放（反思+修正）带来额外性能提升
SVG-to-Code 任务：Visual-ERM 带来 +4.1 平均提升

亮点与洞察¶

精准问题定位：系统性分析现有奖励（文本规则 vs DINO）的失效原因，动机充分
三大属性：细粒度（捕获微妙视觉差异）、可解释（生成诊断反馈）、任务无关（单一 RM 覆盖图表/表格/SVG）
生成式 RM 的优势：相比标量奖励，生成式奖励可提供 TTS 所需的结构化反馈
实用基准 VC-RewardBench：填补了细粒度图像差异判别基准的空缺
8B 模型胜过 235B：专门的奖励训练比通用模型 scaling 更有效

局限性¶

依赖渲染过程：需要能正确渲染代码输出的环境，增加了 pipeline 复杂度
Visual-ERM 训练依赖 GPT-5-mini 标注，成本和可复现性受限
奖励聚合方式简单（严重度求和 + 归一化），可能丢失结构化信息
仅在 chart/table/SVG 三类任务验证，更广泛的 vision-to-code 场景（如 UI、网页）待验证

评分¶

新颖性: ⭐⭐⭐⭐ — 视觉等价奖励模型的概念新颖，系统性地填补了 vision-to-code RL 的奖励设计空缺
实验充分度: ⭐⭐⭐⭐⭐ — 三类任务全面验证，与多种奖励基线对比，包含 TTS 实验和 VC-RewardBench
写作质量: ⭐⭐⭐⭐ — 问题分析深入，实验设计严谨，图示清晰
价值: ⭐⭐⭐⭐ — 为 vision-to-code 的 RL 提供了实用的奖励解决方案，VC-RewardBench 有持续价值