VecGlypher: Unified Vector Glyph Generation with Language Models¶

会议: CVPR 2026
arXiv: 2602.21461
代码: https://xk-huang.github.io/VecGlypher
领域: 多模态VLM
关键词: 字体生成, 矢量图形, SVG, 多模态语言模型, 字体排印

一句话总结¶

提出VecGlypher——首个统一文本和图像引导的矢量字形生成语言模型，通过两阶段训练(大规模SVG语法学习+专家标注对齐)直接自回归生成可编辑SVG路径，无需光栅中间步骤或向量化后处理。

领域现状：矢量字形是数字排版的原子单元，但现有学习方法仍以图像引导为主——给定几个参考字形图像生成其余字符的矢量轮廓，依赖精心准备的范本sheet和光栅-向量后处理。
现有痛点：(a) 图像引导要求用户先能制作或收集参考字形，对非专业用户是瓶颈；(b) 光栅中间步骤引入向量化伪影，降低可编辑性；(c) 通用SVG生成LLM在字形生成上完全失败，因为字体对坐标精度、拓扑正确性和风格一致性有极严格要求。
核心矛盾：自然语言是更通用的字体设计接口，而SVG路径本身就是文本序列，天然适合语言建模——但需要(a)大规模字体训练数据教模型"画字",(b)typography-aware数据工程处理坐标归一化和路径规范化。
本文要解决什么：用单一多模态LLM同时支持文本描述和图像范本两种条件、直接生成高保真可编辑SVG字形。
切入角度：两阶段训练——先在大规模嘈杂字体上学画SVG，再在小规模专家标注字体上学指令跟随。
核心idea一句话：将矢量字形生成形式化为多模态语言建模问题，用39K Envato字体学SVG语法+2.5K Google字体学风格对齐，一次前向生成正确SVG路径。

输入为文本标签描述(如"high-contrast, serif, art-deco")或参考字形图像(1-8张) + 目标字符身份(如"A")，模型自回归预测SVG path token序列，反tokenize后即为有效SVG路径。无需任何光栅去噪器、向量后优化器或轮廓简化器。

Typography-Aware数据工程：
做什么：清洗、规范化并准备训练字体数据
核心思路：四重过滤（字符覆盖、路径长度、去重、MLLM OCR检查）→ 坐标归一化到UPM=1000 → 路径规范化（保留command letter、一位小数量化）→ 按字体族拆分train/test
设计动机：不同来源字体的坐标系、路径格式差异巨大，不归一化会导致长序列解码中的误差累积。量化到一位小数平衡了精度和序列长度
两阶段训练 (Two-Stage SFT)：
Stage 1 (Learning to Draw - Envato)：在39K嘈杂字体上做文本引导SFT，学习SVG语法、长序列坐标预测和字符条件化几何
Stage 2 (Instruction Following - Google Fonts)：在2.5K专家标注字体上做文本+图像引导SFT，对齐几何与外观指令
设计动机：Stage 1的大规模训练是关键——实验表明无Stage 1的模型泛化能力和轮廓稳定性显著下降
统一的多模态条件：
做什么：同一模型和解码过程处理文本和图像两种输入模态
核心思路：文本条件用tokenizer处理style tags + target character；图像条件将1-8张参考字形渲染为192×192图像，由vision encoder编码。标记为互斥选择（||）
设计动机：统一架构避免了为两种输入维护两套模型的冗余。实际工作流可以先用文本生成几个参考字形，再用这些图像引导生成整套字体

标准next-token prediction交叉熵损失针对SVG path文本。Envato训练1轮，Google Fonts训练3轮。使用greedy decoding评估原始生成能力。基座为Qwen3-VL系列(4B/27B/70B)。

方法	类型	FID↓	L1↓	SSIM↑
DeepVecFont-v2	Image-ref	45.2	0.089	0.82
DualVector	Image-ref	38.6	0.075	0.85
StarVector	SVG-LLM	89.4	0.142	0.68
GPT-5.2	General LLM	92.1	0.158	0.61
VecGlypher-4B (text-ref)	LLM	52.3	0.095	0.79
VecGlypher-4B (image-ref)	LLM	31.2	0.065	0.88

语言建模统一范式：将字体设计从"画图问题"转变为"写代码问题"，LLM的code generation能力被巧妙迁移。这一范式可扩展到任何可参数化的设计任务（如logo、图标、UI组件）。
两阶段数据策略：大噪声数据学语法+小精细数据学语义的模式与NLP预训练+指令微调的范式一致，在视觉生成中的成功应用值得关注。
实用工作流：text→初始字形→image-ref→完整字体的渐进式设计流程，真正降低了字体创作门槛。