Reading ≠ Seeing: 诊断并弥合 VLM 中的排版感知差距¶

日期: 2026-03-09
arXiv: 2603.08497
代码: 无
领域: 多模态 / VLM
关键词: 视觉语言模型, 排版感知, 字体识别, FontBench, LoRA 微调

一句话总结¶

揭示了当前 VLM 的"排版盲"现象——能完美阅读文字内容却无法感知其视觉呈现（字体、字号、字重、颜色），构建了 FontBench 基准系统诊断这一问题，发现了结构化的感知层次（颜色≫字族>字号>字重），并证明 LoRA 微调可部分缓解但字重感知需要架构层面创新。

现状：SOTA VLM（GPT-5.2、Gemini-3、Claude 等）在文本内容识别上接近完美，OCR 能力极强。
痛点：展示一张 "Hello World"（Times New Roman、24pt、粗体、红色）的图片，VLM 能准确读出文字，但问"什么字体？""是否粗体？""多大字号？"时系统性失败。读取文字 ≠ 看到排版。
实际影响：文档分析需区分标题/正文字号、无障碍工具需检测强调样式、设计验证需确认品牌字体——都依赖 VLM 缺失的排版感知能力。
缺少评测：现有 VLM 基准关注"图中有什么"（物体、场景、文本内容），忽略了"看起来如何"这一视觉属性维度。
核心 idea：构建 FontBench 作为受控评估框架，系统隔离排版感知与内容理解，诊断失败模式并探索修复路径。

FontBench 评估流程：(1) 文本语料库提供四种文字系统的句子；(2) 以已知排版参数合成渲染图像（26 字体 × 8 字号 × 4 字重 × 8 颜色）；(3) 为每张图生成四个选择题（每属性一个），使用视觉相似的干扰项；(4) 以零温度查询 VLM，级联解析答案。

模块 1：字体注册表与数据生成

做什么：覆盖 26 种字体（衬线、无衬线、等宽、装饰），4 种文字系统（拉丁、CJK、阿拉伯、梵文），3 个难度级别
核心思路：难度基于视觉可分辨度分层——如字族 easy 用 Courier New vs Helvetica，hard 用 Arial vs Helvetica Neue
设计动机：合成渲染控制单一变量，消除图像质量、布局复杂度等混淆因素

模块 2：感知层次诊断

做什么：在 15 个 SOTA VLM（10 开源 + 5 闭源）上全面评估，揭示四属性的感知层次
核心思路：颜色（零阶特征，单 patch RGB 统计即可）→ 字号（一阶，需空间范围估计）→ 字族（类别特征，需字形轮廓匹配）→ 字重（关系特征，需比较笔画粗细与内部基准）
设计动机：层次映射到 ViT 编码器的计算复杂度，预测了可训练性差异

模块 3：LoRA 微调验证

感知层次：颜色 (89-100%) ≫ 字族/字号 (22-81%) ≫ 字重 (≤33.6%)，排除颜色后平均准确率仅 35%
规模悖论：更大模型不一定更好——Qwen2.5-VL-7B (51.2%) > 32B (47.5%)，说明排版盲不是容量问题
难度不变性：多数模型在 easy/medium/hard 上准确率几乎持平，呈现"能感知/不能感知"的二元模式
Stroop 效应：当文字拼写与实际字体冲突时，所有 Qwen 模型降至随机基线（6.7%），说明字体查询经语言通路处理
微调效果：3000 样本 LoRA 微调使紧凑模型接近最强闭源模型（差距从 15.6pp 缩小到 5.9pp），但字重顽固不变
鲁棒性-能力权衡：最强模型（Gemini-3-Flash）也最脆弱——模糊降 17.3pp，而弱模型（Qwen3-VL-8B）全条件下仅波动 6.4pp