跳转至

Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition

会议: NeurIPS 2025
arXiv: 2505.23566
代码: https://github.com/BFlameSwift/Uni-MuMER
领域: multimodal_vlm
关键词: 手写数学公式识别, 视觉语言模型, 多任务微调, Chain-of-Thought, 错误驱动学习

一句话总结

提出 Uni-MuMER,通过三种数据驱动任务(Tree-CoT、Error-Driven Learning、Symbol Counting)对开源 VLM 进行统一多任务微调,在 CROHME 和 HME100K 数据集上大幅超越专用轻量模型和零样本商用 VLM。

研究背景与动机

手写数学公式识别(HMER)因符号布局的自由度和手写风格的多样性,是 OCR 领域的持久挑战。此前方法大多通过孤立的架构改进(树解码器、位置感知注意力等)来提升性能,但近年进展甚微——在 CROHME 数据集上从 CoMER 到 SSAN 仅提升约 3%。这些方法面临三个瓶颈:改进彼此独立难以整合、单一辅助任务难以覆盖 HMER 多维挑战、单域数据集训练缺乏可扩展性。

与此同时,预训练 VLM 在结构化识别任务上展现出意想不到的强能力,但商用模型使用不透明数据,难以系统性地指导改进。因此,如何赋能开源 VLM 在 HMER 上达到可比甚至更优性能成为关键问题。

方法详解

整体框架

Uni-MuMER 以 Qwen2.5-VL-3B 为骨干 VLM,不修改任何架构,通过全量微调将领域知识注入通用框架。统一训练四个任务:Vanilla HMER(基础识别)、Tree-Aware Chain-of-Thought(结构化推理)、Error-Driven Learning(错误纠正)、Symbol Counting(符号计数),输入为手写表达式图像加任务指令,输出对应的 LaTeX 序列。

关键设计

  1. Tree-Aware Chain-of-Thought (Tree-CoT): 将 LaTeX 表达式解析为抽象语法树(AST),通过深度优先遍历将树结构线性化为制表符缩进的文本表示。模型先生成序列化的树结构,再输出最终 LaTeX——显式地引导模型推理二维空间关系。心理学动机是将隐式的布局理解转化为显式的结构化 CoT,特别有助于复杂结构表达式。

  2. Error-Driven Learning (EDL): 采用"从错误中学习"范式。首先通过交叉折叠训练(将数据集分为多个 fold,交叉训练+多次采样)构建错误语料库,收集模型自身的错误预测。然后定义两个子任务:错误检测(用 <error_start>/<error_end> 标记错误位置,用 <deleted> 标记遗漏)和错误纠正(输入标记后的表达式,输出纠正日志和正确 LaTeX)。核心思想是让模型学会区分视觉相似字符(如 2↔z、0↔o)。

  3. Symbol Counting (SC): 在输出前添加符号计数字符串(如 \frac:1,a:1,2:2,+:1),迫使模型在生成 LaTeX 前先准确统计所有可见符号数量。灵感来自 CAN 的观察——模型常产生局部连贯但全局不一致的输出(重复或遗漏符号),SC 通过显式计数约束缓解长表达式中的符号幻觉。

损失函数 / 训练策略

所有数据集(CROHME、HME100K、MathWriting、Im2Latexv2)的三种数据驱动任务训练数据统一混合,仅训练一轮 epoch。Uni-MuMER† 使用约 386K 图像构建的约 1.6M 训练样本(原始+三任务衍生数据)。采用标准自回归交叉熵损失,无特殊损失设计。

实验关键数据

主实验

数据集 指标 Uni-MuMER† SSAN (Prev SOTA) 提升
CROHME 平均 ExpRate 79.74% 63.43% (w/ aug) +16.31%
CROHME 平均 ExpRate@CDM 82.86%
CROHME14 ExpRate 82.05% 62.58% +19.47%
HME100K ExpRate 72.66%
HME100K ExpRate@CDM 74.30%

零样本对比:超越 Gemini2.5-flash(55.32%→79.74%,+24.42%)和 Qwen2.5-VL-72B(56.40%→79.74%)。

消融实验

配置 CROHME 平均 ExpRate 说明
Vanilla baseline 68.64% 仅 Vanilla HMER
+ Tree-CoT 70.85% (+2.21) 结构化推理提升
+ EDL 70.30% (+1.66) 减少字符混淆
+ SC 69.86% (+1.22) 符号一致性提升
Tree-CoT + EDL + SC 73.29% (+4.65) 三者互补,最优

关键发现

  • Tree-CoT 对复杂结构表达式提升最大(约 5-6%),对简单表达式作用有限,说明其核心价值在于结构推理。
  • EDL 显著减少字符混淆:top-5 字母-数字混淆从 5.25 降至 3.31(下降 37%),特别是 3↔z(-0.58)和 1↔n(-0.59)效果突出。
  • SC 改善长表达式一致性:当符号重复 5 次以上时效果显著,但对简单表达式略有负面影响。
  • 轻量模型 CoMER 使用相同外部数据(386K)性能反而下降,说明轻量架构无法有效利用大规模多样数据。

亮点与洞察

  • 范式转移:从"改架构"转向"改数据"——不修改 VLM 架构,完全依靠数据驱动的多任务学习注入领域知识,简洁优雅。
  • 错误语料库构建方法巧妙:交叉折叠+多次采样自动收集模型错误,无需人工标注,构建的错误数据规模与原始数据相当。
  • 引入 CDM(Character Detection Matching)视觉评估指标,解决了 ExpRate 对 LaTeX 语法风格差异不公平惩罚的问题。
  • 基于 vLLM 推理框架,速度优于传统专用方法,实用性强。- 多任务的增益呈现正交性(去掉任何一个都会降低性能),设计合理性得到充分验证。
  • 在训练数据规模上,386K图像扩展到 1.6M样本的三任务数据增强策略具有参考价值。

局限与展望

  • Qwen2.5-VL-3B 参数量相比轻量模型仍偏大,部署成本更高。
  • 错误语料库构建需要多轮训练和采样,预处理开销较大。
  • SC 在简单表达式上存在轻微性能下降,可考虑自适应启用机制(根据表达式长度动态开关)。
  • 未探索更大规模 VLM(如 7B/72B)的微调潜力。
  • 仅在 LaTeX 格式输出上验证,MathML 等其他标记语言格式的泛化性未知。
  • Tree-CoT 依赖 AST 解析,对于无法解析为标准 AST 的非标准表达式可能失效。
  • CDM 指标虽解决语法风格问题,但对渲染引擎依赖性强。

相关工作与启发

  • 延续了 CAN 的符号计数思路,但将其整合进 VLM 框架更加自然。
  • Tree-CoT 的 AST 序列化方案可推广至其他结构化输出任务(代码生成、化学式识别等)。
  • EDL 的"模型自纠"范式与 Self-Refine、Constitutional AI 理念呼应,在 OCR 领域的具体化值得关注。- 计算效率上,基于 vLLM 推理框架推理速度优于传统方法,对实际应用部署友好。
  • 作为开源工作,对 VLM 在 OCR 领域的应用研究有重要参考价值。

评分

  • 新颖性: ⭐⭐⭐⭐ 数据驱动三任务统一微调范式新颖,Tree-CoT 和 EDL 设计巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多基线对比充分,消融实验细致,每个模块贡献清晰
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图示丰富,动机阐述充分
  • 价值: ⭐⭐⭐⭐ HMER 领域重大突破,范式转移有启发意义

相关论文