Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition¶

会议: NeurIPS 2025
arXiv: 2505.23566
代码: https://github.com/BFlameSwift/Uni-MuMER
领域: multimodal_vlm
关键词: 手写数学公式识别, 视觉语言模型, 多任务微调, Chain-of-Thought, 错误驱动学习

一句话总结¶

提出 Uni-MuMER，通过三种数据驱动任务（Tree-CoT、Error-Driven Learning、Symbol Counting）对开源 VLM 进行统一多任务微调，在 CROHME 和 HME100K 数据集上大幅超越专用轻量模型和零样本商用 VLM。

研究背景与动机¶

手写数学公式识别（HMER）因符号布局的自由度和手写风格的多样性，是 OCR 领域的持久挑战。此前方法大多通过孤立的架构改进（树解码器、位置感知注意力等）来提升性能，但近年进展甚微——在 CROHME 数据集上从 CoMER 到 SSAN 仅提升约 3%。这些方法面临三个瓶颈：改进彼此独立难以整合、单一辅助任务难以覆盖 HMER 多维挑战、单域数据集训练缺乏可扩展性。

与此同时，预训练 VLM 在结构化识别任务上展现出意想不到的强能力，但商用模型使用不透明数据，难以系统性地指导改进。因此，如何赋能开源 VLM 在 HMER 上达到可比甚至更优性能成为关键问题。

方法详解¶

整体框架¶

Uni-MuMER 以 Qwen2.5-VL-3B 为骨干 VLM，不修改任何架构，通过全量微调将领域知识注入通用框架。统一训练四个任务：Vanilla HMER（基础识别）、Tree-Aware Chain-of-Thought（结构化推理）、Error-Driven Learning（错误纠正）、Symbol Counting（符号计数），输入为手写表达式图像加任务指令，输出对应的 LaTeX 序列。

关键设计¶

Tree-Aware Chain-of-Thought (Tree-CoT): 将 LaTeX 表达式解析为抽象语法树（AST），通过深度优先遍历将树结构线性化为制表符缩进的文本表示。模型先生成序列化的树结构，再输出最终 LaTeX——显式地引导模型推理二维空间关系。心理学动机是将隐式的布局理解转化为显式的结构化 CoT，特别有助于复杂结构表达式。
Error-Driven Learning (EDL): 采用"从错误中学习"范式。首先通过交叉折叠训练（将数据集分为多个 fold，交叉训练+多次采样）构建错误语料库，收集模型自身的错误预测。然后定义两个子任务：错误检测（用 <error_start>/<error_end> 标记错误位置，用 <deleted> 标记遗漏）和错误纠正（输入标记后的表达式，输出纠正日志和正确 LaTeX）。核心思想是让模型学会区分视觉相似字符（如 2↔z、0↔o）。
Symbol Counting (SC): 在输出前添加符号计数字符串（如 \frac:1,a:1,2:2,+:1），迫使模型在生成 LaTeX 前先准确统计所有可见符号数量。灵感来自 CAN 的观察——模型常产生局部连贯但全局不一致的输出（重复或遗漏符号），SC 通过显式计数约束缓解长表达式中的符号幻觉。

损失函数 / 训练策略¶

所有数据集（CROHME、HME100K、MathWriting、Im2Latexv2）的三种数据驱动任务训练数据统一混合，仅训练一轮 epoch。Uni-MuMER† 使用约 386K 图像构建的约 1.6M 训练样本（原始+三任务衍生数据）。采用标准自回归交叉熵损失，无特殊损失设计。

实验关键数据¶

主实验¶

数据集	指标	Uni-MuMER†	SSAN (Prev SOTA)	提升
CROHME 平均	ExpRate	79.74%	63.43% (w/ aug)	+16.31%
CROHME 平均	ExpRate@CDM	82.86%	—	—
CROHME14	ExpRate	82.05%	62.58%	+19.47%
HME100K	ExpRate	72.66%	—	—
HME100K	ExpRate@CDM	74.30%	—	—

零样本对比：超越 Gemini2.5-flash（55.32%→79.74%，+24.42%）和 Qwen2.5-VL-72B（56.40%→79.74%）。

消融实验¶

配置	CROHME 平均 ExpRate	说明
Vanilla baseline	68.64%	仅 Vanilla HMER
+ Tree-CoT	70.85% (+2.21)	结构化推理提升
+ EDL	70.30% (+1.66)	减少字符混淆
+ SC	69.86% (+1.22)	符号一致性提升
Tree-CoT + EDL + SC	73.29% (+4.65)	三者互补，最优

关键发现¶

Tree-CoT 对复杂结构表达式提升最大（约 5-6%），对简单表达式作用有限，说明其核心价值在于结构推理。
EDL 显著减少字符混淆：top-5 字母-数字混淆从 5.25 降至 3.31（下降 37%），特别是 3↔z（-0.58）和 1↔n（-0.59）效果突出。
SC 改善长表达式一致性：当符号重复 5 次以上时效果显著，但对简单表达式略有负面影响。
轻量模型 CoMER 使用相同外部数据（386K）性能反而下降，说明轻量架构无法有效利用大规模多样数据。

亮点与洞察¶

范式转移：从"改架构"转向"改数据"——不修改 VLM 架构，完全依靠数据驱动的多任务学习注入领域知识，简洁优雅。
错误语料库构建方法巧妙：交叉折叠+多次采样自动收集模型错误，无需人工标注，构建的错误数据规模与原始数据相当。
引入 CDM（Character Detection Matching）视觉评估指标，解决了 ExpRate 对 LaTeX 语法风格差异不公平惩罚的问题。
基于 vLLM 推理框架，速度优于传统专用方法，实用性强。- 多任务的增益呈现正交性（去掉任何一个都会降低性能），设计合理性得到充分验证。
在训练数据规模上，386K图像扩展到 1.6M样本的三任务数据增强策略具有参考价值。

局限与展望¶

Qwen2.5-VL-3B 参数量相比轻量模型仍偏大，部署成本更高。
错误语料库构建需要多轮训练和采样，预处理开销较大。
SC 在简单表达式上存在轻微性能下降，可考虑自适应启用机制（根据表达式长度动态开关）。
未探索更大规模 VLM（如 7B/72B）的微调潜力。
仅在 LaTeX 格式输出上验证，MathML 等其他标记语言格式的泛化性未知。
Tree-CoT 依赖 AST 解析，对于无法解析为标准 AST 的非标准表达式可能失效。
CDM 指标虽解决语法风格问题，但对渲染引擎依赖性强。

评分¶

新颖性: ⭐⭐⭐⭐ 数据驱动三任务统一微调范式新颖，Tree-CoT 和 EDL 设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多基线对比充分，消融实验细致，每个模块贡献清晰
写作质量: ⭐⭐⭐⭐ 结构清晰，图示丰富，动机阐述充分
价值: ⭐⭐⭐⭐ HMER 领域重大突破，范式转移有启发意义