跳转至

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

日期: 2026-03-10
arXiv: 2603.09478
代码:
领域: 多模态/VLM / 信息抽取
关键词: multimodal relation extraction, reinforcement learning, GRPO, chain-of-thought reasoning, LVLM

一句话总结

首次将 LVLM 成功应用于多模态对象-实体关系抽取(MORE)任务——通过两阶段训练(GPT-4o 生成推理链 SFT 冷启动 → GRPO 强化学习 + 渐进样本混合策略),让 Qwen2.5-VL-7B 学会 6 步结构化推理来抽取跨模态关系,F1 Score 达到 67.80%,超越前 SOTA REMOTE 6.1%。

研究背景与动机

  1. 领域现状: MORE(Multimodal Object-Entity Relation Extraction)要求从图文对中识别图像中对象与文本中实体之间的关系(21 种关系类型)。现有方法主要是分类式——用 BERT+ViT 小模型提取特征→分类器输出关系标签。

  2. 现有痛点:

    • 分类式方法可扩展性差:关系类型固定在预定义集合中,新增关系需重新设计分类器并重训
    • 语义区分力弱:分类方法无法区分语义相近的关系(如 "peer" vs "couple"),因为把 21 个标签视为等权离散类别
    • LVLM 直接微调效果差:Qwen2.5-VL 零样本仅 24% 准确率,直接 SFT 生成标签的 F1 只有 59.56%——因为 LVLM 预训练阶段缺乏 RE 相关数据
  3. 核心矛盾: LVLM 拥有强大的多模态理解和推理能力,但直接提示或微调无法释放这些能力来处理 MORE 的复杂跨模态推理需求

  4. 切入角度: 受 DeepSeek-R1 等大推理模型启发——显式分步推理(CoT)+ RL 可以让模型学会在复杂场景下探索有效推理路径

  5. 核心 idea 一句话: 将 MORE 重新形式化为分步推理生成(而非分类),SFT 教基本推理模式,GRPO RL 强化复杂场景推理

方法详解

整体框架

输入:图像 \(I\) + 文本 \(T\) + 对象边界框 \(o\) + 文本实体 \(e\) → Qwen2.5-VL-7B(裁剪对象区域与原图作为图像对输入)→ 输出:<think>Step 1-6 推理过程</think><answer>关系标签</answer>

关键设计

  1. 6 步推理结构:

    • 做什么:将关系抽取分解为 6 个递进子步骤
    • 核心思路:Step 1(图像/对象分析)→ Step 2(跨模态相关性评估)→ Step 3(跨模态对齐——如图中篮球员 = 文本中 "Celtics")→ Step 4(实体类型识别 per/org/loc/misc)→ Step 5(候选关系过滤——根据实体类型从 21 种缩小到 ~4 种)→ Step 6(精确关系判定)
    • 设计动机:渐进式降低任务复杂度——先建立跨模态理解再做精细判断,而非一步到位猜标签
  2. 高效推理数据自动构建(Stage 1 SFT):

    • 做什么:用 GPT-4o 生成高质量推理链 SFT 数据
    • 核心思路:从每种关系类别采样 25% → 设计含任务描述+分步指令+真实答案的 prompt → GPT-4o 生成推理链 → 正则过滤不合格样本 → 获得 3,865 条 SFT 数据
    • 设计动机:提供真实答案作为锚点确保推理链逻辑正确;25% 数据即可建立基础推理模式
    • vs 直接 SFT 标签:25% 推理数据 F1(62.69%)> 100% 标签数据 F1(59.56%)
  3. 渐进样本混合策略(Stage 2 GRPO):

    • 做什么:GRPO 训练中动态调节难/易样本比例
    • 核心思路:Stage 1 模型推断剩余 75% 数据,正确=易(8,853),错误=难(2,370)。Epoch 1 易:难=1:1,比例按 \(\alpha^{t-1}:1\)\(\alpha=0.5\))衰减
    • 设计动机(来自三次失败实验):
    • 全量混合:79% 易样本淹没难样本→Recall 下降
    • 仅难样本:缺暖身引导→Acc/Precision 反降
    • 固定 1:1:次优,无法聚焦难样本
  4. 渐进 α=0.5 兼顾稳定性(前期暖身)和效率(后期聚焦)

损失函数 / 训练策略

Stage 1: next-token prediction loss,20 epochs,lr=1e-4,仅冻结视觉编码器

Stage 2 GRPO 奖励: \(r(o_i) = r_{\text{format}} + r_{\text{length}} + r_{\text{answer}}\),三项均为 0/1 二值奖励(格式合规、长度>1024、标签正确)。4 epochs,lr=1e-6,ε=0.2,β=0.001

实验关键数据

主实验(MORE Benchmark)

方法 类型 Acc P R F1
Qwen2.5-VL-7B (zero-shot) 生成(无推理) 23.94 25.81 23.95 24.84
Qwen2.5-VL-SFT (100% 标签) 生成(无推理) 82.64 55.08 64.84 59.56
REMOTE 分类式 SOTA 83.64 63.21 64.63 63.91
MORE-R1 (Stage 1 only) 生成(推理) 83.33 62.53 62.84 62.69
MORE-R1 生成(推理) 84.91 65.88 69.83 67.80

渐进样本混合策略消融

策略 Acc F1 说明
Stage 1 only (无 RL) 83.33 62.69 基线
raw (全量混合) 84.15 65.20 易样本淹没,R 下降
α→0 (仅难样本) 82.64 63.10 缺暖身,Acc/P 反降
α=1 (固定 1:1) 84.52 66.90 次优
α=0.5 (渐进) 84.91 67.80 最优

关键发现

  • 25% 推理数据 > 100% 标签数据:推理过程比答案标签更有训练价值
  • Stage 2 RL 带来 5.11% F1 提升(62.69%→67.80%),证明 GRPO 有效增强复杂推理
  • none vs non-none 区分是关键挑战:直接 SFT 倾向预测 non-none(R 高 P 低),推理链能更好区分
  • 79% 训练样本 Stage 1 后即可正确回答——难样本才是 RL 关键

亮点与洞察

  • 6 步推理的"先粗后细"设计——21种关系→按实体类型过滤到~4种→最终判定,每步推理难度可控。这种结构化拆解思路可迁移到其他多标签抽取任务
  • 渐进样本混合策略来自对三种失败实验的深入分析——不是拍脑袋设计,而是实验驱动的方案迭代
  • 推理链带来可解释性增益:case study 展示 MORE-R1 能发现"凯尔特人 vs 热火 = 对手关系"这样的隐式语义推理
  • 少量高质量推理数据 + RL > 全量低质标签数据——可迁移到其他需要复杂推理的 IE 任务

局限性 / 可改进方向

  • Stage 1 依赖 GPT-4o:API 成本+闭源依赖,可尝试开源模型替代
  • 6 步推理固定:不同复杂度样本可能需要不同深度推理,动态推理长度可能更优
  • 仅在 MORE benchmark 验证:21 种关系、~20K 样本,更大规模 RE 任务表现未知
  • GRPO 训练成本高:Stage 2 需 24h 8×A100
  • 未与 DPO、PPO 等其他 RL 算法做对比消融

相关工作与启发

  • vs REMOTE(前 SOTA): 最优传输多模态融合的分类式方法;MORE-R1 用推理生成式方法超越 6.1% F1,证明 LVLM+推理 > 精心设计的小模型
  • vs DeepSeek-R1: 借鉴 SFT+RL 两阶段范式和 GRPO 算法,创新加入渐进样本混合策略
  • vs Qwen2.5-VL-SFT: 同 backbone 下推理链+RL 将 F1 从 59.56% 提升到 67.80%(+8.24%)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将 LVLM+RL 推理成功应用于 MORE,渐进采样设计有理有据
  • 实验充分度: ⭐⭐⭐⭐ MORE benchmark 全面评估+多消融+case study,但缺与其他 RL 算法对比
  • 写作质量: ⭐⭐⭐⭐ 方法动机清晰,三次失败实验分析尤为扎实
  • 价值: ⭐⭐⭐⭐⭐ 为多模态信息抽取引入 LVLM+结构化推理+RL 新范式