AniDoc: Animation Creation Made Easier¶

研究背景与动机¶

动画制作（Animation）是一个高度劳动密集型的产业。传统动画流程中，上色（colorization）是最耗时的环节之一。一部标准动画电影包含数万帧，每帧的上色工作需要专业画师手工完成，这不仅成本高昂，而且极度依赖人力资源。

近年来，基于深度学习的视频着色方法取得了进展，但现有方法面临以下关键挑战：

时序一致性：逐帧着色容易产生颜色闪烁（flickering），相邻帧之间的颜色分配可能不一致

稀疏参考：实际生产中，画师通常只提供关键帧（key frames）的彩色参考，中间帧需要自动推断

线稿质量差异：手绘线稿（sketch）与数字线稿在清晰度、线条粗细、封闭性等方面差异巨大

背景干扰：训练数据中的复杂背景会干扰模型对前景角色的着色学习

本文提出 AniDoc，一个基于扩散模型的视频线稿着色系统，通过显式的对应关系引导和数据增强策略，解决上述挑战。

方法详解¶

整体架构¶

AniDoc 建立在视频扩散模型之上，核心流程为：给定一组彩色参考帧和灰度线稿视频，生成完整的彩色动画视频。系统包含三个关键模块：

对应关系引导模块 (Correspondence Guidance)
数据增强策略 (Data Augmentation)
稀疏草图训练 (Sparse Sketch Training)

对应关系引导 (Correspondence Guidance)¶

为解决时序一致性问题，AniDoc 构建显式的帧间对应关系：

阶段	技术	作用
特征提取	SIFT + LightGlue	在参考帧和目标帧间建立稀疏特征匹配
稠密追踪	Co-Tracker	将稀疏匹配扩展为稠密光流场
颜色传播	Warping + Attention	基于对应关系将参考帧颜色传播到目标帧

具体流程： 1. 对参考帧和各目标帧提取 SIFT 特征点 2. 使用 LightGlue 进行特征匹配，获取可靠的稀疏对应点对 3. 将稀疏对应点作为初始化，输入 Co-Tracker 获取稠密的像素级追踪结果 4. 对应关系信息以 feature map 形式注入扩散模型的 cross-attention 层

数据增强策略¶

二值化增强 (Binarization Augmentation)¶

训练时，对输入线稿进行随机二值化处理，模拟不同风格和质量的线稿：

\[I_{bin} = egin{cases} 1, & I_{gray} > au + \epsilon \ 0, & ext{otherwise} \end{cases}\]

其中 $ au$ 为自适应阈值，$\epsilon \sim \mathcal{U}(-\delta, \delta)$ 为随机扰动。

背景增强 (Background Augmentation)¶

为减少背景对前景着色的干扰，训练时随机替换背景： - 50% 概率使用纯白背景 - 30% 概率使用随机纯色背景 - 20% 概率保留原始背景

这迫使模型关注前景角色的结构和颜色，而非依赖背景线索。

稀疏草图训练 (Sparse Sketch Training)¶

在实际应用中，动画师通常只绘制首尾关键帧的彩色版本。AniDoc 提出一种稀疏训练策略：

训练时仅提供视频序列的首帧和末帧作为彩色参考
中间帧以线稿形式输入
模型需要自动推断中间帧的着色方案

这种训练方式使模型学会利用有限的参考信息进行合理的颜色内插。

Sakuga-42M 数据集¶

本文收集并整理了 Sakuga-42M 数据集，包含： - 来源：公开动画数据库和视频平台 - 规模：约4200万帧动画数据 - 处理：自动提取线稿、标注关键帧、过滤低质量样本

实验结果¶

定量对比¶

方法	FID↓	FVD↓	LPIPS↓	时序一致性↑
Reference-based (baseline)	78.42	312.5	0.183	0.891
w/o correspondence matching	75.91	298.7	0.171	0.907
AniDoc (full)	54.33	215.8	0.124	0.952
AniDoc (sparse, 2-ref)	58.17	234.2	0.138	0.941

消融实验¶

组件	FID↓	说明
Full Model	54.33	完整AniDoc
w/o Correspondence	75.91	无对应关系引导，颜色分配混乱
w/o Binarization Aug	61.27	对手绘线稿泛化性下降
w/o Background Aug	59.84	背景区域着色质量下降
w/o Sparse Training	63.15	仅支持dense参考，实用性降低

训练细节¶

硬件：16× NVIDIA A100 GPU
训练时间：5天
视频分辨率：512×512，16帧
优化器：AdamW，lr=1e-5
批大小：每GPU 2个视频片段

总结与展望¶

AniDoc 通过结合显式对应关系引导、针对性数据增强和稀疏参考训练，显著提升了动画线稿着色的质量和实用性。FID 从75.91降至54.33，证明了对应关系引导的关键作用。该系统可直接集成到现有动画制作流水线中，大幅降低上色环节的人工成本。