MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning¶

日期: 2026-03-10
arXiv: 2603.09478
代码: 有
领域: 多模态/VLM / 信息抽取
关键词: multimodal relation extraction, reinforcement learning, GRPO, chain-of-thought reasoning, LVLM

一句话总结¶

首次将 LVLM 成功应用于多模态对象-实体关系抽取（MORE）任务——通过两阶段训练（GPT-4o 生成推理链 SFT 冷启动 → GRPO 强化学习 + 渐进样本混合策略），让 Qwen2.5-VL-7B 学会 6 步结构化推理来抽取跨模态关系，F1 Score 达到 67.80%，超越前 SOTA REMOTE 6.1%。

研究背景与动机¶

领域现状: MORE（Multimodal Object-Entity Relation Extraction）要求从图文对中识别图像中对象与文本中实体之间的关系（21 种关系类型）。现有方法主要是分类式——用 BERT+ViT 小模型提取特征→分类器输出关系标签。
现有痛点:
- 分类式方法可扩展性差：关系类型固定在预定义集合中，新增关系需重新设计分类器并重训
- 语义区分力弱：分类方法无法区分语义相近的关系（如 "peer" vs "couple"），因为把 21 个标签视为等权离散类别
- LVLM 直接微调效果差：Qwen2.5-VL 零样本仅 24% 准确率，直接 SFT 生成标签的 F1 只有 59.56%——因为 LVLM 预训练阶段缺乏 RE 相关数据
核心矛盾: LVLM 拥有强大的多模态理解和推理能力，但直接提示或微调无法释放这些能力来处理 MORE 的复杂跨模态推理需求
切入角度: 受 DeepSeek-R1 等大推理模型启发——显式分步推理（CoT）+ RL 可以让模型学会在复杂场景下探索有效推理路径
核心 idea 一句话: 将 MORE 重新形式化为分步推理生成（而非分类），SFT 教基本推理模式，GRPO RL 强化复杂场景推理

方法详解¶

整体框架¶

输入：图像 \(I\) + 文本 \(T\) + 对象边界框 \(o\) + 文本实体 \(e\) → Qwen2.5-VL-7B（裁剪对象区域与原图作为图像对输入）→ 输出：<think>Step 1-6 推理过程</think><answer>关系标签</answer>

关键设计¶

6 步推理结构:
- 做什么：将关系抽取分解为 6 个递进子步骤
- 核心思路：Step 1（图像/对象分析）→ Step 2（跨模态相关性评估）→ Step 3（跨模态对齐——如图中篮球员 = 文本中 "Celtics"）→ Step 4（实体类型识别 per/org/loc/misc）→ Step 5（候选关系过滤——根据实体类型从 21 种缩小到 ~4 种）→ Step 6（精确关系判定）
- 设计动机：渐进式降低任务复杂度——先建立跨模态理解再做精细判断，而非一步到位猜标签
高效推理数据自动构建（Stage 1 SFT）:
- 做什么：用 GPT-4o 生成高质量推理链 SFT 数据
- 核心思路：从每种关系类别采样 25% → 设计含任务描述+分步指令+真实答案的 prompt → GPT-4o 生成推理链 → 正则过滤不合格样本 → 获得 3,865 条 SFT 数据
- 设计动机：提供真实答案作为锚点确保推理链逻辑正确；25% 数据即可建立基础推理模式
- vs 直接 SFT 标签：25% 推理数据 F1（62.69%）> 100% 标签数据 F1（59.56%）
渐进样本混合策略（Stage 2 GRPO）:
- 做什么：GRPO 训练中动态调节难/易样本比例
- 核心思路：Stage 1 模型推断剩余 75% 数据，正确=易（8,853），错误=难（2,370）。Epoch 1 易:难=1:1，比例按 \(\alpha^{t-1}:1\)（\(\alpha=0.5\)）衰减
- 设计动机（来自三次失败实验）：
- 全量混合：79% 易样本淹没难样本→Recall 下降
- 仅难样本：缺暖身引导→Acc/Precision 反降
- 固定 1:1：次优，无法聚焦难样本
渐进 α=0.5 兼顾稳定性（前期暖身）和效率（后期聚焦）

损失函数 / 训练策略¶

Stage 1: next-token prediction loss，20 epochs，lr=1e-4，仅冻结视觉编码器

Stage 2 GRPO 奖励: \(r(o_i) = r_{\text{format}} + r_{\text{length}} + r_{\text{answer}}\)，三项均为 0/1 二值奖励（格式合规、长度>1024、标签正确）。4 epochs，lr=1e-6，ε=0.2，β=0.001

实验关键数据¶

主实验（MORE Benchmark）¶

方法	类型	Acc	P	R	F1
Qwen2.5-VL-7B (zero-shot)	生成(无推理)	23.94	25.81	23.95	24.84
Qwen2.5-VL-SFT (100% 标签)	生成(无推理)	82.64	55.08	64.84	59.56
REMOTE	分类式 SOTA	83.64	63.21	64.63	63.91
MORE-R1 (Stage 1 only)	生成(推理)	83.33	62.53	62.84	62.69
MORE-R1	生成(推理)	84.91	65.88	69.83	67.80

渐进样本混合策略消融¶

策略	Acc	F1	说明
Stage 1 only (无 RL)	83.33	62.69	基线
raw (全量混合)	84.15	65.20	易样本淹没，R 下降
α→0 (仅难样本)	82.64	63.10	缺暖身，Acc/P 反降
α=1 (固定 1:1)	84.52	66.90	次优
α=0.5 (渐进)	84.91	67.80	最优

关键发现¶

25% 推理数据 > 100% 标签数据：推理过程比答案标签更有训练价值
Stage 2 RL 带来 5.11% F1 提升（62.69%→67.80%），证明 GRPO 有效增强复杂推理
none vs non-none 区分是关键挑战：直接 SFT 倾向预测 non-none（R 高 P 低），推理链能更好区分
79% 训练样本 Stage 1 后即可正确回答——难样本才是 RL 关键

亮点与洞察¶

6 步推理的"先粗后细"设计——21种关系→按实体类型过滤到~4种→最终判定，每步推理难度可控。这种结构化拆解思路可迁移到其他多标签抽取任务
渐进样本混合策略来自对三种失败实验的深入分析——不是拍脑袋设计，而是实验驱动的方案迭代
推理链带来可解释性增益：case study 展示 MORE-R1 能发现"凯尔特人 vs 热火 = 对手关系"这样的隐式语义推理
少量高质量推理数据 + RL > 全量低质标签数据——可迁移到其他需要复杂推理的 IE 任务

局限性 / 可改进方向¶

Stage 1 依赖 GPT-4o：API 成本+闭源依赖，可尝试开源模型替代
6 步推理固定：不同复杂度样本可能需要不同深度推理，动态推理长度可能更优
仅在 MORE benchmark 验证：21 种关系、~20K 样本，更大规模 RE 任务表现未知
GRPO 训练成本高：Stage 2 需 24h 8×A100
未与 DPO、PPO 等其他 RL 算法做对比消融

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将 LVLM+RL 推理成功应用于 MORE，渐进采样设计有理有据
实验充分度: ⭐⭐⭐⭐ MORE benchmark 全面评估+多消融+case study，但缺与其他 RL 算法对比
写作质量: ⭐⭐⭐⭐ 方法动机清晰，三次失败实验分析尤为扎实
价值: ⭐⭐⭐⭐⭐ 为多模态信息抽取引入 LVLM+结构化推理+RL 新范式