Code-MIE: A Code-style Model for Multimodal Information Extraction with Scene Graph and Entity Attribute Knowledge Enhancement¶
日期: 2026-03-21
arXiv: 2603.20781
代码: 无
领域: 多模态/VLM
关键词: multimodal information extraction, code-style template, scene graph, entity attribute, LLM
一句话总结¶
提出 Code-MIE,首个将代码风格模板扩展到多模态信息抽取的框架,通过将场景图和实体属性整合到统一的 Python 函数模板中,在 M3D、Twitter-15/17、MNRE 四个数据集上全面超越六个基线(F1 提升最高 6.94%)。
研究背景与动机¶
-
领域现状: LLM 做信息抽取(IE)越来越流行,但主要用自然语言模板表示结构化输出(实体、关系等)。
-
现有痛点: (a) 自然语言模板难以表达 IE 任务的结构化输出,导致格式错误和幻觉;(b) 已有代码风格模板(Code4UIE、KnowCoder)仅限文本域,未扩展到多模态;(c) 现有代码模板需要为每个任务单独设计模板,复杂且不统一。
-
核心 idea: 用一个统一的 Python 函数模板同时处理实体识别、实体链抽取、关系抽取和视觉定位四个任务,将实体属性和场景图作为函数参数注入,利用代码的结构化特性减少幻觉。
方法详解¶
整体框架¶
文本 → Qwen3-Max 提取实体属性 → 图像 → Qwen3-VL-235B 生成场景图 + ViT 提取视觉特征 → 构建 Python 函数输入模板 → LLM 输出 Python 字典格式的抽取结果。
关键设计¶
-
实体属性生成:
- 为 PER/LOC/ORG/TIME 四类实体定义属性集(如 PER: name, occupation, gender, nationality 等)
- Qwen3-Max 三轮提取 + 去重 + 人工后处理修正
- 属性增强了模型对实体上下文角色的理解,尤其利于关系抽取
-
场景图生成:
- Qwen3-VL-235B 三轮提取图像中的 (subject, relation, object) 三元组
- 显式捕获图像中的物体及其关系,为多模态融合提供结构化视觉信息
- 与纯视觉特征互补:场景图提供显式语义,ViT 提供隐式表征
-
代码风格模板构建:
- 输入:以
information_extractionPython 函数定义,参数包含 input_text、entity_attribute、scene_graph - 输出:Python 字典——entity_dic、chain_dic、relation_dic、grounding_dic
- 任务无关:同一模板处理所有 IE 子任务,利用任务间关联
- 实体链用 ID 引用简化关系抽取输出
- 输入:以
训练策略¶
ViT 编码图像 → 平均池化 + 位置编码 → 与代码模板文本特征拼接 → LLM 端到端微调。
实验关键数据¶
M3D 数据集(视频多模态多语言)¶
| 方法 | English F1 | Chinese F1 |
|---|---|---|
| M3D-NER (MNER) | 53.70 | 53.76 |
| Code4UIE | 55.54 | 57.78 |
| Code-MIE | 61.03 | 60.49 |
Twitter NER + MNRE¶
| 数据集 | Code-MIE F1 | vs 最佳 NL 模板 | vs 最佳代码模板 |
|---|---|---|---|
| Twitter-15 | 76.04% | +6.94% | +5.49% |
| Twitter-17 | 88.07% | — | — |
| MNRE | 73.94% | — | — |
消融实验¶
| 配置 | M3D-EN F1 |
|---|---|
| Full (Code-MIE) | 61.03 |
| w/o 实体属性 | 下降显著 |
| w/o 场景图 | 下降 |
| w/o 视觉特征 | 下降 |
| NL 模板替代代码模板 | -6.94% |
关键发现¶
- 代码风格模板比自然语言模板在格式准确性和幻觉抑制上显著更好
- 实体属性对关系抽取贡献最大——提供了实体的上下文语义
- 场景图和视觉特征互补,去掉任一都下降
亮点与洞察¶
- 代码即结构的思路自然:Python 字典/列表天然适配 IE 的结构化输出
- 任务无关设计简洁——所有子任务共享同一函数模板,利用任务间依赖(如实体链 ID 被关系抽取引用)
- 实体属性注入是个低成本高收益的增强策略
局限性 / 可改进方向¶
- 实体属性定义依赖人工设计(4 类实体,每类 2-7 个属性),扩展性受限
- Qwen3-Max/Qwen3-VL-235B 生成场景图的质量直接影响下游,存在级联误差
- 缺少与纯 VLM 端到端方案(如 InternVL)的对比
评分¶
- 新颖性: ⭐⭐⭐⭐ 代码模板扩展到多模态 + 场景图和实体属性注入有价值
- 实验充分度: ⭐⭐⭐⭐ 四个数据集、消融充分
- 价值: ⭐⭐⭐⭐ 为多模态 IE 提供了统一且高效的范式