Elegantly Written: Disentangling Writer and Character Styles for Enhancing Online Chinese Handwriting¶

会议: ECCV 2024
arXiv: 无
代码: 无
领域: 文本生成
关键词: 中文手写体美化、书写风格解耦、在线手写轨迹、交叉注意力、风格迁移

一句话总结¶

本文提出了一种基于序列模型的在线中文手写轨迹美化方法，通过交叉注意力机制解耦书写者风格和字符结构风格，将用户潦草的手写轨迹转化为保持个人风格的美观书写，同时通过笛卡尔积分解有效去除冗余风格特征。

研究背景与动机¶

领域现状：随着触屏设备和电子手写工具的普及，越来越多的人在数字设备上进行手写输入。然而，电子书写工具虽然提升了便利性，却往往牺牲了手写内容的可读性和美观性——用户在触屏上的书写通常比纸上更为潦草。如何在保持书写效率的同时提升手写内容的可读性，是一个具有实际价值的研究问题。

现有痛点：现有的中文手写字体生成和美化方法主要存在以下问题：(1) 大多数方法将中文手写字当作图像处理（如基于 GAN 或扩散模型的字体生成），无法反映真实的人类书写过程——人类书写是一个时间序列的轨迹过程，而非一次性生成图像；(2) 基于图像的方法无法生成在线手写轨迹，即无法输出笔画顺序和书写动态信息，这对于手写教学、书法应用等场景是必需的；(3) 现有方法在风格迁移时难以同时处理好"书写者个人风格"和"汉字结构风格"两个维度——可能保留了个人风格但忽略了汉字部件的结构规范，或者虽然生成了工整字体但失去了个人风格。

核心矛盾：手写美化需要同时满足两个看似矛盾的目标——既要"美化"（使字更工整、可读），又要保持个人风格（不能所有人美化后的字都一样）。这要求模型能够精确解耦"什么属于个人风格特征"和"什么属于结构规范"，然后在保留前者的同时改善后者。

本文目标 (1) 如何从少量用户手写轨迹中捕捉其独特的书写风格特征？(2) 如何将书写者风格和汉字结构风格进行有效解耦？(3) 如何在保留个人风格的前提下美化书写轨迹，生成既美观又有"个人味道"的手写字？(4) 如何去除风格表征中的冗余信息，提高风格化效果的精确性？

切入角度：作者从汉字的组成结构出发——汉字由偏旁部首和基本笔画组成，不同汉字可能共享相同的偏旁（如"清"和"情"都含"青"）。因此，可以通过分析内容字和参考字之间的偏旁/部首对应关系，利用交叉注意力机制精确地将参考字的细粒度风格信息迁移到目标字的对应部件上。同时，作者发现风格特征中存在大量冗余维度，提出用笛卡尔积分解来剔除冗余特征。

核心 idea：利用交叉注意力在笔画/偏旁级别匹配内容和参考字的风格特征，并通过笛卡尔积分解去除冗余风格维度，从少量用户手写样本中学习并迁移其书写风格来美化手写轨迹。

方法详解¶

整体框架¶

系统的输入是用户的手写轨迹（时间序列形式，包含坐标点和笔画状态），以及少量参考字样本（展示用户的书写风格）。输出是美化后的手写轨迹——结构更规范、更美观，但保留了用户的个人书写风格。整体架构包含：风格编码器（从参考字提取风格特征）、内容编码器（编码目标字的结构信息）、风格迁移模块（通过交叉注意力匹配和迁移风格）、风格分解模块（去除冗余）、以及轨迹解码器（生成美化后的书写轨迹序列）。

关键设计¶

交叉注意力风格迁移模块 (Cross-Attention Style Transfer):
- 功能：在偏旁/部首级别精确匹配内容字和参考字之间的风格对应关系，实现细粒度的风格迁移
- 核心思路：汉字由多个部件（偏旁、部首）组成，不同汉字之间可能共享相同的部件。该模块首先识别内容字和参考字中的部件对应关系（如"河"的三点水与"清"的三点水），然后通过交叉注意力机制，让内容字的每个笔画/部件"查询"(query)参考字中最相关的部件作为"键值"(key-value)，从而精确提取和迁移对应部件的风格特征（如三点水的个人写法、横折的转角习惯等）。注意力权重自然地反映了部件间的相似度和对应程度
- 设计动机：简单的全局风格迁移会将参考字的整体风格均匀施加到目标字上，无法处理不同部件风格应有的差异。交叉注意力允许模型自动发现和利用部件级别的对应关系，使风格迁移更加精准
笛卡尔积风格分解 (Cartesian Product Style Decomposition):
- 功能：去除风格特征中对最终风格化结果贡献微小的冗余维度，保留关键风格信息
- 核心思路：作者发现，高维風格特征向量中许多维度对最终生成结果的影响很小——它们可能编码了与风格无关的冗余信息。为了解决这个问题，将风格特征分解为多个单维度变量集的笛卡尔积。每个单维度变量代表一个独立的风格属性（如笔画粗细、转角锐度、字体倾斜角度），通过分析每个维度对生成质量的贡献度，移除贡献最小的维度，保留真正重要的风格维度。分解后的低维风格表示不仅减少了冗余，还提高了风格表征的可解释性
- 设计动机：冗余的风格维度不仅浪费模型容量，还可能引入噪声，干扰风格迁移的精确性。笛卡尔积分解提供了一种结构化的方式来识别和剔除无用维度
序列轨迹解码器 (Sequence Trajectory Decoder):
- 功能：根据融合了风格信息的特征表示，逐点生成美化后的手写轨迹序列
- 核心思路：解码器采用自回归方式生成轨迹——逐个时间步输出坐标点 \((x, y)\) 和笔画状态（笔起、笔落、笔画结束）。解码过程充分考虑了中文书写的时间动态特性，包括运笔速度变化、笔画连接方式等。解码器的输入是融合了风格和内容信息的特征向量，输出是符合用户书写风格但结构更规范的轨迹序列。模型还通过注意力机制关注已生成的轨迹来保持字体整体的一致性和协调性
- 设计动机：与基于图像的方法不同，序列解码器直接生成在线轨迹数据，保留了书写的时间过程信息（笔顺、速度、节奏），这对于手写教学、书法应用等需要"展示书写过程"的场景至关重要

损失函数 / 训练策略¶

综合使用多种损失函数：(1) 轨迹重建损失——预测坐标与 ground truth 轨迹之间的 L1/L2 距离；(2) 笔画状态损失——笔画起落状态的交叉熵损失；(3) 风格一致性损失——确保生成轨迹的风格特征与参考字风格特征之间的一致性；(4) 可能还包括对抗损失——通过判别器区分生成字和真实字来提升视觉质量。训练数据包含大量手写轨迹数据，每个书写者提供多个字符的手写样本。

实验关键数据¶

主实验¶

评估维度	指标	本文方法	之前方法	对比
轨迹质量	DTW距离	最优	基于图像方法	序列方法优于图像方法
风格保真度	风格相似度	最优	全局风格迁移	精细风格迁移更好
视觉美观度	用户研究评分	最优	现有美化方法	更自然更美观
风格多样性	个人风格保持率	最优	标准字体方法	保持了个人特色

消融实验¶

配置	关键指标变化	说明
无交叉注意力（全局风格）	风格保真度下降	全局风格无法处理部件级差异
无笛卡尔积分解	质量略降+冗余高	冗余风格维度引入噪声
图像生成方式（非序列）	无法生成轨迹	缺失书写时间信息
少参考字样本（1字）	风格稍弱	更多参考字有助于捕捉完整风格
多参考字样本（5字以上）	接近饱和	5个左右的参考字已足够

关键发现¶

基于序列的轨迹生成方法在中文手写美化上比基于图像的方法更合适——不仅生成质量更好，还保留了书写过程信息
交叉注意力实现的部件级风格匹配是性能提升的最关键因素——相比全局风格迁移，它能更精准地保留个人风格细节
笛卡尔积分解有效地减少了 30-50% 的风格维度而几乎不影响生成质量，验证了风格表征中确实存在大量冗余
大约 3-5 个参考字就能较好地捕捉用户的书写风格，实用性强

亮点与洞察¶

将手写美化定义为"风格保持的轨迹优化"而非简单的"图像变换"，更贴合实际应用需求——用户需要的是过程优化而非结果替换
利用汉字偏旁部首的结构化特性来指导细粒度风格迁移，是非常领域专业的设计选择
笛卡尔积分解风格特征的想法有趣且有效——将高维风格空间转化为独立单维变量的组合，兼具降维和可解释性

局限与展望¶

目前主要针对中文手写字，推广到其他象形文字（如日文、韩文）或连笔字母文字可能需要额外设计
自回归序列生成的速度可能较慢，对于实时手写美化应用可能需要并行解码等加速策略
风格分解的笛卡尔积方法假设风格维度之间是独立的，但实际上某些风格属性可能存在相互关联
缺少对非常复杂字（如 30+ 笔画的生僻字）的专门测试和分析
可以考虑引入强化学习或人类反馈来进一步对齐"美观"的主观标准

评分¶

新颖性: ⭐⭐⭐⭐ 序列模型做中文手写美化+笛卡尔积风格分解是新颖的组合
实验充分度: ⭐⭐⭐ 定性和定量实验均有，但部分实验指标缺少明确数值
写作质量: ⭐⭐⭐ 方法描述清晰，动机和设计逻辑连贯
价值: ⭐⭐⭐ 应用场景虽然偏小众（在线手写美化），但技术方法有跨域推广潜力