Code-MIE: A Code-style Model for Multimodal Information Extraction with Scene Graph and Entity Attribute Knowledge Enhancement¶

日期: 2026-03-21
arXiv: 2603.20781
代码: 无
领域: 多模态/VLM
关键词: multimodal information extraction, code-style template, scene graph, entity attribute, LLM

一句话总结¶

提出 Code-MIE，首个将代码风格模板扩展到多模态信息抽取的框架，通过将场景图和实体属性整合到统一的 Python 函数模板中，在 M3D、Twitter-15/17、MNRE 四个数据集上全面超越六个基线（F1 提升最高 6.94%）。

研究背景与动机¶

领域现状: LLM 做信息抽取（IE）越来越流行，但主要用自然语言模板表示结构化输出（实体、关系等）。
现有痛点: (a) 自然语言模板难以表达 IE 任务的结构化输出，导致格式错误和幻觉；(b) 已有代码风格模板（Code4UIE、KnowCoder）仅限文本域，未扩展到多模态；(c) 现有代码模板需要为每个任务单独设计模板，复杂且不统一。
核心 idea: 用一个统一的 Python 函数模板同时处理实体识别、实体链抽取、关系抽取和视觉定位四个任务，将实体属性和场景图作为函数参数注入，利用代码的结构化特性减少幻觉。

方法详解¶

整体框架¶

文本 → Qwen3-Max 提取实体属性 → 图像 → Qwen3-VL-235B 生成场景图 + ViT 提取视觉特征 → 构建 Python 函数输入模板 → LLM 输出 Python 字典格式的抽取结果。

关键设计¶

实体属性生成:
- 为 PER/LOC/ORG/TIME 四类实体定义属性集（如 PER: name, occupation, gender, nationality 等）
- Qwen3-Max 三轮提取 + 去重 + 人工后处理修正
- 属性增强了模型对实体上下文角色的理解，尤其利于关系抽取
场景图生成:
- Qwen3-VL-235B 三轮提取图像中的 (subject, relation, object) 三元组
- 显式捕获图像中的物体及其关系，为多模态融合提供结构化视觉信息
- 与纯视觉特征互补：场景图提供显式语义，ViT 提供隐式表征
代码风格模板构建:
- 输入：以 information_extraction Python 函数定义，参数包含 input_text、entity_attribute、scene_graph
- 输出：Python 字典——entity_dic、chain_dic、relation_dic、grounding_dic
- 任务无关：同一模板处理所有 IE 子任务，利用任务间关联
- 实体链用 ID 引用简化关系抽取输出

训练策略¶

ViT 编码图像 → 平均池化 + 位置编码 → 与代码模板文本特征拼接 → LLM 端到端微调。

实验关键数据¶

M3D 数据集（视频多模态多语言）¶

方法	English F1	Chinese F1
M3D-NER (MNER)	53.70	53.76
Code4UIE	55.54	57.78
Code-MIE	61.03	60.49

Twitter NER + MNRE¶

数据集	Code-MIE F1	vs 最佳 NL 模板	vs 最佳代码模板
Twitter-15	76.04%	+6.94%	+5.49%
Twitter-17	88.07%	—	—
MNRE	73.94%	—	—

消融实验¶

配置	M3D-EN F1
Full (Code-MIE)	61.03
w/o 实体属性	下降显著
w/o 场景图	下降
w/o 视觉特征	下降
NL 模板替代代码模板	-6.94%

关键发现¶

代码风格模板比自然语言模板在格式准确性和幻觉抑制上显著更好
实体属性对关系抽取贡献最大——提供了实体的上下文语义
场景图和视觉特征互补，去掉任一都下降

亮点与洞察¶

代码即结构的思路自然：Python 字典/列表天然适配 IE 的结构化输出
任务无关设计简洁——所有子任务共享同一函数模板，利用任务间依赖（如实体链 ID 被关系抽取引用）
实体属性注入是个低成本高收益的增强策略

局限性 / 可改进方向¶

实体属性定义依赖人工设计（4 类实体，每类 2-7 个属性），扩展性受限
Qwen3-Max/Qwen3-VL-235B 生成场景图的质量直接影响下游，存在级联误差
缺少与纯 VLM 端到端方案（如 InternVL）的对比

评分¶

新颖性: ⭐⭐⭐⭐ 代码模板扩展到多模态 + 场景图和实体属性注入有价值
实验充分度: ⭐⭐⭐⭐ 四个数据集、消融充分
价值: ⭐⭐⭐⭐ 为多模态 IE 提供了统一且高效的范式