跳转至

Code-MIE: A Code-style Model for Multimodal Information Extraction with Scene Graph and Entity Attribute Knowledge Enhancement

日期: 2026-03-21
arXiv: 2603.20781
代码: 无
领域: 多模态/VLM
关键词: multimodal information extraction, code-style template, scene graph, entity attribute, LLM

一句话总结

提出 Code-MIE,首个将代码风格模板扩展到多模态信息抽取的框架,通过将场景图和实体属性整合到统一的 Python 函数模板中,在 M3D、Twitter-15/17、MNRE 四个数据集上全面超越六个基线(F1 提升最高 6.94%)。

研究背景与动机

  1. 领域现状: LLM 做信息抽取(IE)越来越流行,但主要用自然语言模板表示结构化输出(实体、关系等)。

  2. 现有痛点: (a) 自然语言模板难以表达 IE 任务的结构化输出,导致格式错误和幻觉;(b) 已有代码风格模板(Code4UIE、KnowCoder)仅限文本域,未扩展到多模态;(c) 现有代码模板需要为每个任务单独设计模板,复杂且不统一。

  3. 核心 idea: 用一个统一的 Python 函数模板同时处理实体识别、实体链抽取、关系抽取和视觉定位四个任务,将实体属性和场景图作为函数参数注入,利用代码的结构化特性减少幻觉。

方法详解

整体框架

文本 → Qwen3-Max 提取实体属性 → 图像 → Qwen3-VL-235B 生成场景图 + ViT 提取视觉特征 → 构建 Python 函数输入模板 → LLM 输出 Python 字典格式的抽取结果。

关键设计

  1. 实体属性生成:

    • 为 PER/LOC/ORG/TIME 四类实体定义属性集(如 PER: name, occupation, gender, nationality 等)
    • Qwen3-Max 三轮提取 + 去重 + 人工后处理修正
    • 属性增强了模型对实体上下文角色的理解,尤其利于关系抽取
  2. 场景图生成:

    • Qwen3-VL-235B 三轮提取图像中的 (subject, relation, object) 三元组
    • 显式捕获图像中的物体及其关系,为多模态融合提供结构化视觉信息
    • 与纯视觉特征互补:场景图提供显式语义,ViT 提供隐式表征
  3. 代码风格模板构建:

    • 输入:以 information_extraction Python 函数定义,参数包含 input_text、entity_attribute、scene_graph
    • 输出:Python 字典——entity_dic、chain_dic、relation_dic、grounding_dic
    • 任务无关:同一模板处理所有 IE 子任务,利用任务间关联
    • 实体链用 ID 引用简化关系抽取输出

训练策略

ViT 编码图像 → 平均池化 + 位置编码 → 与代码模板文本特征拼接 → LLM 端到端微调。

实验关键数据

M3D 数据集(视频多模态多语言)

方法 English F1 Chinese F1
M3D-NER (MNER) 53.70 53.76
Code4UIE 55.54 57.78
Code-MIE 61.03 60.49

Twitter NER + MNRE

数据集 Code-MIE F1 vs 最佳 NL 模板 vs 最佳代码模板
Twitter-15 76.04% +6.94% +5.49%
Twitter-17 88.07%
MNRE 73.94%

消融实验

配置 M3D-EN F1
Full (Code-MIE) 61.03
w/o 实体属性 下降显著
w/o 场景图 下降
w/o 视觉特征 下降
NL 模板替代代码模板 -6.94%

关键发现

  • 代码风格模板比自然语言模板在格式准确性和幻觉抑制上显著更好
  • 实体属性对关系抽取贡献最大——提供了实体的上下文语义
  • 场景图和视觉特征互补,去掉任一都下降

亮点与洞察

  • 代码即结构的思路自然:Python 字典/列表天然适配 IE 的结构化输出
  • 任务无关设计简洁——所有子任务共享同一函数模板,利用任务间依赖(如实体链 ID 被关系抽取引用)
  • 实体属性注入是个低成本高收益的增强策略

局限性 / 可改进方向

  • 实体属性定义依赖人工设计(4 类实体,每类 2-7 个属性),扩展性受限
  • Qwen3-Max/Qwen3-VL-235B 生成场景图的质量直接影响下游,存在级联误差
  • 缺少与纯 VLM 端到端方案(如 InternVL)的对比

评分

  • 新颖性: ⭐⭐⭐⭐ 代码模板扩展到多模态 + 场景图和实体属性注入有价值
  • 实验充分度: ⭐⭐⭐⭐ 四个数据集、消融充分
  • 价值: ⭐⭐⭐⭐ 为多模态 IE 提供了统一且高效的范式