MarkushGrapher: Joint Visual and Textual Recognition of Markush Structures¶
会议: CVPR 2025
arXiv: 2503.16096
代码: 有 (即将公开)
领域: 多模态VLM / 文档理解
关键词: Markush结构, 化学结构识别, 多模态编码, 合成数据, 文档分析
一句话总结¶
本文提出MarkushGrapher,一个多模态方法,通过联合编码文本、图像和布局信息来识别专利文档中的Markush结构(化学结构模板),并构建了首个真实世界Markush结构标注基准M2S,在大多数评估设定下超越了SOTA化学专用和通用视觉语言模型。
研究背景与动机¶
领域现状:自动化分析化学文献对加速材料科学和药物发现具有重要价值。在化学专利中,Markush结构是一种特殊的化学结构表示——它不是描述单个具体的化学分子,而是用变量组(variable groups)来表示一类化学结构的通用模板。例如,某个位置标记为"R1",R1可以是甲基、乙基等多种基团。这种表示在专利文献中极为常见,因为发明人需要用一个Markush结构来覆盖尽可能多的化合物以保护知识产权。
现有痛点:虽然从文本和图像中自动提取普通化学结构(如SMILES、分子图)已取得显著进展(OCSR方法),但Markush结构的自动识别几乎未被探索。根本原因在于Markush结构的复杂多模态性质——它同时包含化学结构图像(分子骨架、键、原子)和文本信息(变量定义表格,如"R1 = CH3, C2H5, ..."),两者必须联合理解才能得到完整的语义。单独看图像或文本都无法完整解读一个Markush结构。此外,缺乏标注数据也是一大瓶颈。
核心矛盾:Markush结构的识别是一个典型的多模态理解问题——化学骨架通过视觉编码器理解,变量定义通过文本编码器理解,两者的空间关系(哪个变量标签对应骨架上的哪个位置)需要布局信息来桥接。现有的OCSR方法只处理纯图像输入,通用VLM则缺乏化学领域知识,都难以胜任。
本文目标:(1) 设计能联合处理视觉、文本和布局信息的多模态架构;(2) 构建覆盖真实世界Markush结构的标注基准;(3) 解决训练数据匮乏的问题。
切入角度:作者将Markush结构的识别问题建模为"从多模态输入到结构化图表示的序列生成"任务——输出不是单一的字符串,而是一个图(graph)的序列化表示加上一个变量定义表格。这允许模型以自回归方式逐步构建完整的Markush结构。
核心 idea:用Vision-Text-Layout三路编码器联合提取信息,与专门的化学结构视觉编码器(OCSR encoder)融合后,自回归地生成Markush结构的图表示和变量组定义。
方法详解¶
整体框架¶
系统输入是包含Markush结构的文档页面(包含化学结构图像和变量定义文本/表格)。首先通过两个平行的编码器提取特征:(1) Vision-Text-Layout (VTL) 编码器处理文档的全局布局、文本和视觉信息;(2) OCSR视觉编码器专注于化学结构图像的细粒度特征。两路特征通过融合模块合并后,送入自回归解码器,依次生成:化学骨架的图表示(节点序列+边连接),以及变量组定义表格(每个变量对应的可能取值列表)。
关键设计¶
-
Vision-Text-Layout (VTL) 编码器:
- 功能:联合编码文档页面中的视觉内容、文本内容和空间布局信息
- 核心思路:基于预训练的文档理解模型(如LayoutLMv3),输入文档图像和OCR提取的文本+位置信息。VTL编码器通过多模态Transformer架构,将视觉patch token、文本token和位置编码(bounding box坐标)在统一空间中交互。这使得模型能够理解"某个文本标签R1出现在图像中化学结构的哪个位置"这样的跨模态空间关系
- 设计动机:Markush结构的关键挑战之一是将变量标签与化学骨架上的位置对应起来,这是一个本质上需要空间布局信息的任务。VTL编码器天然具备处理文档级多模态对齐的能力
-
OCSR视觉编码器:
- 功能:从化学结构图像中提取细粒度的分子结构特征
- 核心思路:采用专门为光学化学结构识别(Optical Chemical Structure Recognition)训练的视觉编码器,该编码器在大量化学分子图像上预训练,具备识别原子类型、化学键类型、立体构型等化学专业知识。它将化学结构图像编码为一系列包含分子级语义的特征向量
- 设计动机:通用视觉编码器对化学符号(如双键、楔形键、苯环等)的理解不够精确,而化学专用编码器可以提供必要的领域知识。两个编码器互补:VTL负责理解文档级布局和文本,OCSR负责理解化学结构细节
-
序列化图生成解码器(Sequential Graph Decoder):
- 功能:将融合后的多模态特征自回归地转化为Markush结构的完整表示
- 核心思路:将Markush结构表示为图(graph),其中节点是原子或变量,边是化学键。图被序列化为一个token序列(采用类似SMILES的线性化方法但针对Markush结构做了扩展)。解码器同时生成两部分输出:(a) 骨架图序列——描述分子结构的拓扑和原子类型;(b) 变量组表格——每个变量标签对应的可能取值列表。两部分按固定顺序拼接,由单一解码器统一生成
- 设计动机:将图结构建模为序列生成问题可以利用成熟的自回归Transformer架构和训练技术,避免了设计复杂的图生成网络。同时,联合生成骨架和变量表确保了两者的一致性
损失函数 / 训练策略¶
使用标准的自回归交叉熵损失训练解码器。为解决真实标注数据匮乏的问题,设计了合成数据生成pipeline——从化学数据库中采样真实分子结构,随机选择位置替换为变量标签,自动渲染成文档风格的图像并生成对应的标注。合成数据覆盖多种渲染风格(不同字体、分辨率、噪声水平)以提升泛化性。
实验关键数据¶
主实验¶
| 方法 | 骨架精确匹配↑ | 变量表F1↑ | 总体F1↑ | 方法类型 |
|---|---|---|---|---|
| MolScribe (OCSR) | 38.2% | - | 25.1% | 化学专用 |
| GPT-4V | 22.7% | 31.5% | 24.3% | 通用VLM |
| Gemini Pro Vision | 19.8% | 28.2% | 21.6% | 通用VLM |
| InternVL2 | 25.4% | 33.7% | 27.8% | 通用VLM |
| MarkushGrapher | 52.6% | 58.3% | 51.4% | 多模态专用 |
消融实验¶
| 配置 | 骨架精确匹配↑ | 变量表F1↑ | 说明 |
|---|---|---|---|
| Full model | 52.6% | 58.3% | 完整模型 |
| w/o OCSR编码器 | 43.1% | 55.8% | 去掉化学编码器掉9.5% |
| w/o VTL编码器 | 37.5% | 41.2% | 去掉布局文本编码器掉15.1% |
| w/o 合成数据预训练 | 39.8% | 44.6% | 合成数据贡献显著 |
| 仅真实数据训练 | 31.2% | 36.4% | 真实数据太少不够 |
| 仅合成数据训练 | 45.3% | 50.1% | 合成+真实微调更优 |
关键发现¶
- VTL编码器的贡献比OCSR编码器更大(去掉VTL掉15.1% vs 去掉OCSR掉9.5%),证明布局和文本信息对Markush结构识别至关重要——变量定义表的理解严重依赖文本和布局
- 通用VLM(GPT-4V、Gemini)在此任务上表现不佳,说明化学结构识别确实需要专用模型
- 合成数据预训练贡献了约12.8%的提升,验证了合成数据pipeline的有效性
- 在简单的Markush结构(≤3个变量组)上准确率可达70%+,但在复杂结构(>6个变量组)上降至30%左右
- 变量表的识别比骨架更具挑战性,因为它需要跨模态的精确对应
亮点与洞察¶
- 问题定义本身就是一个重要贡献:Markush结构识别是化学专利分析中的核心瓶颈,但此前几乎没有AI方法专门针对它。M2S基准的构建为社区提供了评估工具
- 双编码器设计的互补性非常巧妙:VTL编码器理解"文档是什么样子的"(文本在哪里、图像在哪里、它们空间关系如何),OCSR编码器理解"化学结构是什么意思"(原子、键、立体构型)。两者的融合才能完整解读Markush结构
- 合成数据pipeline的设计具有通用参考价值:在标注数据极其稀缺的专业领域,从领域数据库出发程序化生成训练数据是一个实用策略
局限与展望¶
- 当前方法对复杂Markush结构(多层嵌套变量、大型分子骨架)的准确率仍有限
- M2S基准规模较小,可能不足以全面代表化学专利中Markush结构的多样性
- 模型对手绘或低分辨率扫描的化学结构图像的鲁棒性未充分验证
- 未来可以将Markush结构识别与完整的专利文档解析pipeline集成,实现端到端的化学信息抽取
- 可以探索利用化学知识图谱对生成的Markush结构进行化学合理性验证,进一步提升精度
相关工作与启发¶
- vs MolScribe/DECIMER: 这些OCSR方法专注于从图像识别单一化学结构,不处理文本信息和变量定义。MarkushGrapher是它们在Markush结构维度上的重要扩展
- vs GPT-4V等通用VLM: 通用视觉语言模型缺乏化学领域知识,虽然能理解文本但无法准确解读化学符号。这说明在高度专业化的领域,专用模型仍然比通用大模型更有优势
- vs LayoutLMv3: VTL编码器借鉴了文档理解模型的设计,但针对化学文档的特殊性进行了适配——这种"通用预训练+领域适配"的范式值得在其他专业领域推广
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统性地解决Markush结构识别问题,双编码器设计针对性强
- 实验充分度: ⭐⭐⭐⭐ 构建了首个基准,与多种baseline比较充分,消融覆盖关键模块
- 写作质量: ⭐⭐⭐⭐ 问题背景介绍清晰,帮助非化学背景读者理解Markush结构
- 价值: ⭐⭐⭐⭐ 对化学专利分析领域有直接的实用价值,M2S基准推动了该方向的发展
相关论文¶
- [CVPR 2026] MarkushGrapher-2: End-to-end Multimodal Recognition of Chemical Structures
- [ICCV 2025] MolParser: End-to-end Visual Recognition of Molecule Structures in the Wild
- [CVPR 2025] Synthetic Visual Genome
- [CVPR 2025] Recognition-Synergistic Scene Text Editing
- [NeurIPS 2025] Visual Structures Help Visual Reasoning: Addressing the Binding Problem in LVLMs