ChemVLR: Prioritizing Reasoning in Perception for Chemical Vision-Language Understanding¶

会议: ACL 2026
arXiv: 2604.06685
代码: https://github.com/xxlllz/ChemVLR
领域: 多模态VLM / 化学AI
关键词: 化学视觉理解, 推理VLM, 跨模态逆向工程, 三阶段训练, 分子识别

一句话总结¶

提出 ChemVLR，首个化学领域推理型 VLM，通过跨模态逆向工程策略构建 760K 推理数据集，结合持续预训练-SFT-RL 三阶段训练流程，在分子识别和反应预测任务上显著超越专有模型和领域专家 VLM。

研究背景与动机¶

领域现状：化学领域的 VLM（如 ChemVLM、TinyChemVL）已取得一定进展，但主要采用端到端的直接回答范式，依赖 SFT 训练。同时，RLVR 在数学和编程等领域展现了强大的推理增强能力。

现有痛点：现有化学 VLM 是"黑箱"系统——直接从分子图像跳到答案，不生成可解释的推理路径。它们未充分利用 LLM 推断底层反应机制的能力，在复杂视觉化学问题上表现不佳。此外，高质量的化学推理数据极度稀缺，特别是视觉基础的推理标注。

核心矛盾：化学图像理解需要精细的子结构分析（如官能团识别），但通用 VLM 缺乏化学领域知识，直接 SFT 无法充分激活预训练知识。

本文目标：构建一个在感知过程中优先推理的化学 VLM——先显式识别细粒度化学描述符（如官能团），再推导最终答案。

切入角度：利用文本化学查询+真实答案，通过 LLM 逆向重建推理过程，再配合图像渲染生成视觉推理数据。

核心 idea：跨模态逆向工程生成大规模推理数据 + CPT→SFT→RL 三阶段渐进式训练。

方法详解¶

整体框架¶

数据构建方面，通过逆向工程从文本 SMILES QA 对出发，用 Gemini-2.5-Flash 重建推理过程，辅以 IUPAC 名称、RDKit 官能团和专家示范作为语义锚点，经三阶段过滤生成 760K 高质量样本。训练方面，采用 CPT（化学视觉对齐）→ SFT（推理+指令混合训练）→ RL（DAPO 优化）三阶段流程。

关键设计¶

跨模态逆向工程数据生成:
- 功能：从稀缺的推理标注中生成大规模视觉推理数据
- 核心思路：给定文本 SMILES 查询和答案，集成三类辅助语义锚点（PubChem 检索的 IUPAC 名称、RDKit 计算的官能团、人工策划的专家演示），用 Gemini-2.5-Flash 逆向推理过程。三阶段过滤：结构过滤（保留视觉推理模式）→ 答案一致性检查（验证推导结果与真实 SMILES 一致）→ 外部 LLM 验证（GPT-4.1-mini 独立验证）。最终产出 360K 推理 + 400K 描述 + 1.4M 指令样本
- 设计动机：仅提供 SMILES 序列不足以让 LLM 生成准确推理，语义锚点将数据保留率从 55%-78% 提升到 73%-95%
三阶段渐进训练:
- 功能：系统性地构建化学感知和推理能力
- 核心思路：CPT 阶段训练 ViT+Projector（冻结 LLM backbone），用 500K 化学图文对进行视觉-化学域对齐；SFT 阶段全参数微调，混合 360K 推理和 1.4M 指令数据，使用 <think>/<answer> 标签格式；RL 阶段用 DAPO 优化，设计 SMILES 准确率（Tanimoto 相似度 1.0 才给奖励）和格式奖励
- 设计动机：通用 VLM 缺乏化学视觉感知能力（实验证实直接 SFT 效果差），需先通过 CPT 补齐域差距
IUPAC 知识激活:
- 功能：利用预训练知识增强化学理解
- 核心思路：构建 300K 图像-IUPAC 转换样本作为指令数据一部分，因为 IUPAC 命名在通用预训练语料中出现频率远高于 SMILES，能有效激活模型已有的化学知识
- 设计动机：论文发现直接用 SMILES 训练效果有限，但加入 IUPAC 数据后数据生成保留率从 78%→92%

损失函数 / 训练策略¶

RL 阶段使用 DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization），二值化奖励（准确率+格式），用 SFT 模型过滤出中等难度的 100K 样本进行训练。

实验关键数据¶

主实验¶

模型	MMChemOCR Avg Sim.	MMChemOCR Tani@1.0	img2smiles Tani@1.0	ChemRxn-V Pred
ChemVLR-8B	93.8	84.6	92.7	67.8
TinyChemVL	91.2	77.4	75.6	52.4
Gemini-3-Flash	77.6	61.2	63.8	51.7
ChemDFM-X	70.9	36.5	77.6	0.7

消融实验¶

配置	效果	说明
SFT only	基线	缺乏化学视觉理解能力
CPT + SFT	提升	视觉对齐改善感知
CPT + SFT + RL	最优	RL 在全任务上平均提升 9%
RL only	几乎无效	缺乏领域基础无法有效优化

关键发现¶

ChemVLR 首次在 VLM 中达到与专用 SMILES OCR 模型（如 Decimer）相当的精度
RL 训练展现"顿悟时刻"——在 200-400 步之间奖励急剧上升
IUPAC 数据是关键催化剂，显著激活预训练知识

亮点与洞察¶

逆向工程数据生成策略非常实用——从答案反推推理过程，配合多重验证确保质量，可推广到其他数据稀缺的专业领域
IUPAC 知识激活的发现很有启发——预训练知识的利用取决于训练数据的表示形式是否与预训练分布匹配
RL "顿悟时刻"再次验证了 RLVR 在专业领域推理增强中的有效性

局限与展望¶

训练依赖 16xH800 GPU，资源要求高
推理过程的正确性依赖过滤质量，可能存在推理路径正确但逻辑不严谨的情况
仅在有机化学分子/反应上验证，无机化学和更复杂的反应机理尚未涉及

评分¶

新颖性: ⭐⭐⭐⭐ 首个化学域推理 VLM，逆向工程数据生成策略新颖
实验充分度: ⭐⭐⭐⭐⭐ 多基准、多基线、详细消融
写作质量: ⭐⭐⭐⭐ 数据构建和训练流程描述清晰
价值: ⭐⭐⭐⭐ 对化学 AI 和科学推理有重要推动