MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning¶
日期: 2026-03-10
arXiv: 2603.09478
代码: 有
领域: 多模态/VLM / 信息抽取
关键词: multimodal relation extraction, reinforcement learning, GRPO, chain-of-thought reasoning, LVLM
一句话总结¶
首次将 LVLM 成功应用于多模态对象-实体关系抽取(MORE)任务——通过两阶段训练(GPT-4o 生成推理链 SFT 冷启动 → GRPO 强化学习 + 渐进样本混合策略),让 Qwen2.5-VL-7B 学会 6 步结构化推理来抽取跨模态关系,F1 Score 达到 67.80%,超越前 SOTA REMOTE 6.1%。
研究背景与动机¶
-
领域现状: MORE(Multimodal Object-Entity Relation Extraction)要求从图文对中识别图像中对象与文本中实体之间的关系(21 种关系类型)。现有方法主要是分类式——用 BERT+ViT 小模型提取特征→分类器输出关系标签。
-
现有痛点:
- 分类式方法可扩展性差:关系类型固定在预定义集合中,新增关系需重新设计分类器并重训
- 语义区分力弱:分类方法无法区分语义相近的关系(如 "peer" vs "couple"),因为把 21 个标签视为等权离散类别
- LVLM 直接微调效果差:Qwen2.5-VL 零样本仅 24% 准确率,直接 SFT 生成标签的 F1 只有 59.56%——因为 LVLM 预训练阶段缺乏 RE 相关数据
-
核心矛盾: LVLM 拥有强大的多模态理解和推理能力,但直接提示或微调无法释放这些能力来处理 MORE 的复杂跨模态推理需求
-
切入角度: 受 DeepSeek-R1 等大推理模型启发——显式分步推理(CoT)+ RL 可以让模型学会在复杂场景下探索有效推理路径
-
核心 idea 一句话: 将 MORE 重新形式化为分步推理生成(而非分类),SFT 教基本推理模式,GRPO RL 强化复杂场景推理
方法详解¶
整体框架¶
输入:图像 \(I\) + 文本 \(T\) + 对象边界框 \(o\) + 文本实体 \(e\) → Qwen2.5-VL-7B(裁剪对象区域与原图作为图像对输入)→ 输出:<think>Step 1-6 推理过程</think><answer>关系标签</answer>
关键设计¶
-
6 步推理结构:
- 做什么:将关系抽取分解为 6 个递进子步骤
- 核心思路:Step 1(图像/对象分析)→ Step 2(跨模态相关性评估)→ Step 3(跨模态对齐——如图中篮球员 = 文本中 "Celtics")→ Step 4(实体类型识别 per/org/loc/misc)→ Step 5(候选关系过滤——根据实体类型从 21 种缩小到 ~4 种)→ Step 6(精确关系判定)
- 设计动机:渐进式降低任务复杂度——先建立跨模态理解再做精细判断,而非一步到位猜标签
-
高效推理数据自动构建(Stage 1 SFT):
- 做什么:用 GPT-4o 生成高质量推理链 SFT 数据
- 核心思路:从每种关系类别采样 25% → 设计含任务描述+分步指令+真实答案的 prompt → GPT-4o 生成推理链 → 正则过滤不合格样本 → 获得 3,865 条 SFT 数据
- 设计动机:提供真实答案作为锚点确保推理链逻辑正确;25% 数据即可建立基础推理模式
- vs 直接 SFT 标签:25% 推理数据 F1(62.69%)> 100% 标签数据 F1(59.56%)
-
渐进样本混合策略(Stage 2 GRPO):
- 做什么:GRPO 训练中动态调节难/易样本比例
- 核心思路:Stage 1 模型推断剩余 75% 数据,正确=易(8,853),错误=难(2,370)。Epoch 1 易:难=1:1,比例按 \(\alpha^{t-1}:1\)(\(\alpha=0.5\))衰减
- 设计动机(来自三次失败实验):
- 全量混合:79% 易样本淹没难样本→Recall 下降
- 仅难样本:缺暖身引导→Acc/Precision 反降
- 固定 1:1:次优,无法聚焦难样本
- 渐进 α=0.5 兼顾稳定性(前期暖身)和效率(后期聚焦)
损失函数 / 训练策略¶
Stage 1: next-token prediction loss,20 epochs,lr=1e-4,仅冻结视觉编码器
Stage 2 GRPO 奖励: \(r(o_i) = r_{\text{format}} + r_{\text{length}} + r_{\text{answer}}\),三项均为 0/1 二值奖励(格式合规、长度>1024、标签正确)。4 epochs,lr=1e-6,ε=0.2,β=0.001
实验关键数据¶
主实验(MORE Benchmark)¶
| 方法 | 类型 | Acc | P | R | F1 |
|---|---|---|---|---|---|
| Qwen2.5-VL-7B (zero-shot) | 生成(无推理) | 23.94 | 25.81 | 23.95 | 24.84 |
| Qwen2.5-VL-SFT (100% 标签) | 生成(无推理) | 82.64 | 55.08 | 64.84 | 59.56 |
| REMOTE | 分类式 SOTA | 83.64 | 63.21 | 64.63 | 63.91 |
| MORE-R1 (Stage 1 only) | 生成(推理) | 83.33 | 62.53 | 62.84 | 62.69 |
| MORE-R1 | 生成(推理) | 84.91 | 65.88 | 69.83 | 67.80 |
渐进样本混合策略消融¶
| 策略 | Acc | F1 | 说明 |
|---|---|---|---|
| Stage 1 only (无 RL) | 83.33 | 62.69 | 基线 |
| raw (全量混合) | 84.15 | 65.20 | 易样本淹没,R 下降 |
| α→0 (仅难样本) | 82.64 | 63.10 | 缺暖身,Acc/P 反降 |
| α=1 (固定 1:1) | 84.52 | 66.90 | 次优 |
| α=0.5 (渐进) | 84.91 | 67.80 | 最优 |
关键发现¶
- 25% 推理数据 > 100% 标签数据:推理过程比答案标签更有训练价值
- Stage 2 RL 带来 5.11% F1 提升(62.69%→67.80%),证明 GRPO 有效增强复杂推理
- none vs non-none 区分是关键挑战:直接 SFT 倾向预测 non-none(R 高 P 低),推理链能更好区分
- 79% 训练样本 Stage 1 后即可正确回答——难样本才是 RL 关键
亮点与洞察¶
- 6 步推理的"先粗后细"设计——21种关系→按实体类型过滤到~4种→最终判定,每步推理难度可控。这种结构化拆解思路可迁移到其他多标签抽取任务
- 渐进样本混合策略来自对三种失败实验的深入分析——不是拍脑袋设计,而是实验驱动的方案迭代
- 推理链带来可解释性增益:case study 展示 MORE-R1 能发现"凯尔特人 vs 热火 = 对手关系"这样的隐式语义推理
- 少量高质量推理数据 + RL > 全量低质标签数据——可迁移到其他需要复杂推理的 IE 任务
局限性 / 可改进方向¶
- Stage 1 依赖 GPT-4o:API 成本+闭源依赖,可尝试开源模型替代
- 6 步推理固定:不同复杂度样本可能需要不同深度推理,动态推理长度可能更优
- 仅在 MORE benchmark 验证:21 种关系、~20K 样本,更大规模 RE 任务表现未知
- GRPO 训练成本高:Stage 2 需 24h 8×A100
- 未与 DPO、PPO 等其他 RL 算法做对比消融
相关工作与启发¶
- vs REMOTE(前 SOTA): 最优传输多模态融合的分类式方法;MORE-R1 用推理生成式方法超越 6.1% F1,证明 LVLM+推理 > 精心设计的小模型
- vs DeepSeek-R1: 借鉴 SFT+RL 两阶段范式和 GRPO 算法,创新加入渐进样本混合策略
- vs Qwen2.5-VL-SFT: 同 backbone 下推理链+RL 将 F1 从 59.56% 提升到 67.80%(+8.24%)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将 LVLM+RL 推理成功应用于 MORE,渐进采样设计有理有据
- 实验充分度: ⭐⭐⭐⭐ MORE benchmark 全面评估+多消融+case study,但缺与其他 RL 算法对比
- 写作质量: ⭐⭐⭐⭐ 方法动机清晰,三次失败实验分析尤为扎实
- 价值: ⭐⭐⭐⭐⭐ 为多模态信息抽取引入 LVLM+结构化推理+RL 新范式