TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks¶

会议: AAAI 2026
arXiv: 2511.06283
代码: https://github.com/xxlllz/TinyChemVL
领域: 多模态VLM
关键词: 化学VLM, 视觉token压缩, 分子识别, 反应预测, 小模型高效推理

一句话总结¶

TinyChemVL 是一个仅4B参数的化学领域VLM，通过自适应token合并与剪枝策略将视觉token压缩至原来的1/16，并引入反应级别任务和基准ChemRxn-V，在分子和反应级别的视觉化学任务上达到SOTA性能，同时显著提升推理和训练速度。

研究背景与动机¶

领域现状¶

大语言模型（LLM）在化学领域的应用日益广泛，但传统方法主要依赖文本格式（如SMILES、SELFIES）表征分子，不可避免地丢失空间信息。视觉语言模型（VLM）虽然具备处理视觉输入的能力，但在化学领域的探索仍然有限。现有的化学VLM（如ChemVLM、ChemMLLM）直接在通用VLM架构上微调，存在明显的效率问题。

核心痛点¶

视觉token冗余严重：分子图像中，所有结构信息集中在分子图形区域，而大量背景区域是无意义的。例如ChemVLM中，一张800×800的图像需要1280个视觉token，约为文本问题token数的100倍，极大增加了计算开销。此外，将分子图像切割为patch的过程还会破坏重要的分子结构信息。

任务范围狭窄：现有化学VLM主要关注分子级别任务（如SMILES OCR、性质预测），忽视了反应级别任务。反应级别任务（如反应预测）需要模型同时具备识别和推理能力，是更具挑战性的方向。

分子图像生成瓶颈：ChemMLLM提出的VQ-GAN方案生成分子图像后，需要外部工具将图像解析回SMILES，流程复杂且架构不匹配。

本文切入角度¶

从模型效率和任务复杂度两个维度同时发力：一方面通过自适应token减少策略压缩视觉表征, 另一方面将化学VLM的能力从分子级拓展到反应级，构建更完整的化学视觉理解能力。

方法详解¶

整体框架¶

TinyChemVL采用经典的ViT-MLP-LLM架构，以InternVL2.5-4B为骨干，使用动态分辨率策略将高分辨率图像分成多个448×448的tile。核心创新在视觉编码器中嵌入自适应token合并与剪枝模块，在注意力层和FFN层之间逐步减少视觉token数量。

关键设计¶

1. 自适应Token合并与剪枝 (Adaptive Token Merge and Pruning)¶

功能：在ViT的每个transformer block中，根据当前视觉token分布自适应地裁剪不重要的token并合并重复的token
核心思路：
- Token评分：采用ATS（Adaptive Token Sampler）方法，利用注意力矩阵中CLS token对其他token的注意力权重，结合Value矩阵的范数计算重要性分数： \(Score_i = \frac{A_{1,i+1} \times \|V_{i+1}\|}{\sum_{j=1}^{N} A_{1,j+1} \times \|V_{j+1}\|}\)
- Token剪枝：采用Top-K选择策略，保留得分最高的K个token，直接丢弃低分token（对应背景区域）
- Token合并：使用二部软匹配（BSM）算法，将token分为两组，通过余弦相似度找到最相似的token对进行加权平均合并。不受空间邻近性约束，非相邻但相似的token也可合并
- 比例注意力（Proportional Attention）：维护行向量\(s\)追踪每个当前token代表的原始token数量，在注意力计算中加入\(\log s\)偏置以保持信息保真度
设计动机：分子图像的稀疏特性使得大部分视觉token对应空白背景，而分子结构信息密集。需要一种既能去除冗余又能保留结构信息的策略

2. 自适应决策策略 (Adaptive Policy)¶

功能：在实例级别和层级别自适应选择执行剪枝还是合并操作
核心思路：计算token得分的方差 \(S_{op_i} = var(Score_i)\)：
- 方差低（\(S_{op_i} \leq \tau\)）→ 重要性收敛 → 大面积背景区域 → 执行剪枝
- 方差高（\(S_{op_i} > \tau\)）→ 重要性分化 → 复杂分子结构 → 执行合并
- 阈值 \(\tau\) 默认设为 \(1e-5\)，基于化学图像数据集的统计分析确定
设计动机：不同图像、不同层的token分布差异很大，固定策略无法适应所有情况。通过方差自动判断当前是"大片背景"还是"复杂结构"的情况

3. 反应级别任务与代码生成范式¶

功能：将化学VLM从分子级别扩展到反应级别，并用可执行代码替代直接图像生成
核心思路：
- 构建反应识别任务：从反应图像解析出 reactants>>reagents.solvents>>products 格式
- 构建反应预测任务：仅从反应物图像预测产物（首次定义该任务）
- 分子图像生成：生成可执行Python代码来渲染分子图像，SMILES直接包含在代码中，无需额外解析工具
设计动机：反应预测是化学专家通过观察分子结构即可完成的任务，是VLM作为化学研究工具的关键能力。代码生成范式比VQ-GAN更直接、可验证

数据构建¶

构建了约125万样本的大规模多任务训练集： - 分子识别：500K（385K自建），来源包括ChEBI-20-MM、MolGrapher、MolScribe、ORDerly等 - 反应识别：200K（全部自建），从ORDerly数据集渲染 - 性质预测：150K（55K自建） - 反应预测：200K（全部自建） - 分子图像生成：200K（55K自建）

训练策略¶

骨干模型：InternVL2.5-4B，全参数微调
硬件：8×NVIDIA A100 80G
训练轮次：1.5 epochs
批次设置：per-device batch size 16, gradient accumulation 2
训练框架：ms-swift

实验关键数据¶

主实验 — 分子识别¶

模型	ChemOCR Avg Sim.(%)	ChemOCR Tani@1.0(%)	img2smiles Avg Sim.(%)	img2smiles Tani@1.0(%)
GPT-4o	36.8	3.4	29.0	0.01
ChemVLM-8B	81.7	57.7	55.0	15.0
ChemDFM-X(13B)	70.9	36.5	90.9	77.6
ChemMLLM	-	-	75.0	49.0
TinyChemVL(4B)	91.2	77.4	89.5	75.6

主实验 — 反应级任务 (ChemRxn-V)¶

模型	反应识别 Avg Sim.(%)	反应识别 EM(%)	反应预测 Avg Sim.(%)	反应预测 Tani@1.0(%)
GPT-4o	19.1	0.1	30.4	1.4
ChemDFM-X	28.32	3.2	12.7	0.7
ChemVLM-8B	0.6	0.0	4.8	0.0
TinyChemVL	93.4	67.9	78.9	52.4

效率对比¶

模型	推理速度(Sample/s↑)	平均Token数(↓)	训练时间(小时↓)
ChemVLM-8B	7.41	896	-
InternVL2.5-4B	9.11	894	47*
TinyChemVL	11.84	108	15

消融实验¶

配置（token/image）	ChemOCR Tani@1.0(%)	反应识别 EM(%)	反应预测 Tani@1.0(%)
16 (默认)	77.4	62.7	52.4
4	76.2 (-1.2)	59.5 (-3.2)	50.1 (-2.3)

关键发现¶

TinyChemVL以4B参数超越8B和26B的ChemVLM，在ChemOCR上实现91.2%的平均相似度，是首个能与专用SMILES OCR模型竞争的通用VLM
在反应级任务上碾压所有现有模型：反应识别93.4%、反应预测78.9%，而其他模型均低于30%
视觉token从896降至108（约1/8），推理速度提升约60%，训练时间从47小时降至15小时
性质预测任务上MSE约为ChemMLLM的一半，在7项属性中5项达到最优
进一步将token从16降到4会导致性能下降，说明4个token不足以表达复杂反应图像

亮点与洞察¶

问题定义精准：精确识别了化学图像的稀疏性特征，"背景冗余+结构密集"的双重特性使得自适应策略特别有效
方差驱动的自适应策略设计优雅：用token得分方差区分"背景区域"和"复杂结构"，既简单又有效，且在实例和层两个级别都自适应
首次定义视觉反应预测任务：直接从反应物图像预测产物，将VLM的化学应用从OCR级别提升到推理级别
代码生成替代图像生成：避免了VQ-GAN的架构不匹配问题，生成的代码直接包含SMILES便于验证
小模型大能力：4B模型超越13B-26B模型，证明了"效率+质量"可以兼顾

局限与展望¶

当前仅在化学领域验证，token压缩策略是否适用于其他科学图像（如生物、材料）有待验证
反应预测任务目前仅基于视觉信息，未结合反应条件（温度、催化剂等）文本信息
代码生成用于分子图像生成的方式虽然巧妙，但生成代码的可执行性和鲁棒性未充分讨论
ChemRxn-V基准仅包含5000样本/任务，规模相对有限
手写分子识别虽有探索，但未作为主要评测方向

评分¶

新颖性: ⭐⭐⭐⭐ （token压缩思路不新，但在化学领域的自适应应用和反应级任务定义有新意）
实验充分度: ⭐⭐⭐⭐⭐ （覆盖了分子识别、性质预测、图像生成、反应识别/预测五大任务，效率分析完整）
写作质量: ⭐⭐⭐⭐ （结构清晰，动机充分，但部分数学符号排版可改进）
价值: ⭐⭐⭐⭐ （对化学AI领域有实际推动作用，小模型高效方案有部署价值）