SketchDeco: Training-Free Latent Composition for Precise Sketch Colourisation¶
会议: CVPR 2026
arXiv: 2405.18716
代码: 无
领域: Image Generation / Sketch Colourisation
关键词: Sketch Colourisation, Diffusion Models, training-free, Latent Composition, Self-Attention Injection
一句话总结¶
提出SketchDeco,一种无需训练的线稿上色方法,通过全局-局部两阶段策略将区域蒙版和调色板作为精确控制信号,利用扩散模型反演和自注意力注入在隐空间中实现区域精准着色与全局和谐过渡,在消费级GPU上15-20步即可完成。
研究背景与动机¶
线稿上色是动画分镜、产品设计、概念艺术等创意工作流中的基础任务。尽管大规模扩散模型在图像生成上取得了突破,但在细粒度、区域级别的颜色控制上仍面临挑战:
文本引导的空间歧义:文本提示虽然语义丰富,但无法精确指定"哪个区域用什么颜色",经常出现颜色溢出和语义错误(如图1b所示)
传统方法效率低:手动分配颜色或基于参考图的颜色迁移过于繁琐
训练开销大:ControlNet等方法需要微调超网络,计算成本高昂
本文的核心洞察:解决方案不是更多训练,而是一种创新的无训练组合框架——将全局一致性和局部控制分离处理。
方法详解¶
整体框架¶
SketchDeco采用两阶段的分治策略(图2):
- 输入:线稿 \(\mathcal{S}\)、区域蒙版集合 \(\{\mathcal{M}^{(i)}\}\)、对应颜色调色板 \(\{\mathcal{P}_H\}\)
- 全局上色阶段(Sec 3.2):生成多个全局着色结果,保持线稿结构和颜色一致性
- 局部上色阶段(Sec 3.3):通过隐空间组合实现区域精准着色和平滑过渡
关键设计¶
-
全局线稿上色模块:无需逐区域手动调配
- 线稿语义预测:利用BLIP-2的VQA功能推断线稿类别(如"这幅线稿画的是什么?"),提供零样本泛化能力
- 颜色名称搜索:通过CSS3色彩数据库(147种颜色)+ K-D Tree(K=3)将十六进制颜色码映射到最近的颜色名称
- 线稿到图像生成:使用预训练的Scribble ControlNet,结合语义标签和颜色名称构建prompt,生成n+1张图:n张对应各调色板的着色结果 + 1张无颜色描述的辅助背景图
- 用户交互精化:在像素空间渲染预览,允许用户切换随机种子、比较不同变体
-
局部线稿上色模块:首次将此任务重构为图像组合 + 重建问题
- 并行局部颜色组合:对每个蒙版区域,从对应全局着色结果中裁取区域,与背景图合并为组合图像 \(\mathcal{I}^*\)
- ODE反演进隐空间:使用DPM-Solver++(15-20步高效反演)将组合图像转换为噪声隐变量 \(z^*\);采用exceptional prompt替代空prompt解决CFG导致的重建误差
- 高斯噪声注入:在蒙版边界过渡区域注入额外噪声,利用扩散模型的生成先验对过渡区域进行自然修补
- 自注意力注入:使用组合图像的自注意力图 \(\mathcal{A}^*_{l,t}\) 通过缩放因子 \(\tau\) 控制——前期 \(t \in [T, T(1-\tau)]\) 注入自注意力保持全局忠实度,后期 \(t \in [T(1-\tau), 0]\) 使用文本编码实现平滑颜色过渡
-
Exceptional Prompt技术:解决ODE反演中CFG不稳定问题
- 将所有token编号设为统一值,移除多余的位置编码和特殊token
- 使反向ODE轨迹更贴近前向轨迹,显著提升反演精度
损失函数 / 训练策略¶
本方法完全无需训练。所有组件均利用预训练的Stable Diffusion v1.5和Scribble ControlNet,无需任何微调。关键超参数: - CFG scale = 2.5 - \(\tau = 0.4\)(自注意力注入比例) - K-Means聚类 K=4 提取主色调 - 推理在单卡RTX 4090 Super上完成
实验关键数据¶
主实验¶
局部上色 (Table 1)
| 方法 | Place365 Indoor FID↓ | LPIPS↓ | DCCW↓ | PascalVOC FID↓ | DCCW↓ |
|---|---|---|---|---|---|
| ColorizeDiffusion | 151.52 | 0.645 | 15.30 | 110.80 | 24.37 |
| ColorFlow | 354.07 | 0.643 | 17.05 | 367.69 | 14.98 |
| MangaNinja | 134.57 | 0.548 | 15.19 | 289.21 | 10.61 |
| Cobra | 221.38 | 0.603 | 14.96 | 382.70 | 13.96 |
| SketchDeco | 123.87 | 0.527 | 11.85 | 95.64 | 8.89 |
全局上色 (Table 2, AFHQ-cat/dog)
| 方法 | AFHQ-cat FID↓ | LPIPS↓ | SSIM↑ | AFHQ-dog FID↓ |
|---|---|---|---|---|
| DiffBlender | 86.82 | 0.811 | 0.032 | 145.50 |
| T2I-Adapter | 68.95 | 0.706 | 0.134 | 107.12 |
| T2I-Adapter+IDeepColor | 68.41 | 0.673 | 0.133 | 116.95 |
| SketchDeco | 50.31 | 0.671 | 0.187 | 89.70 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 无自注意力注入 | 颜色不一致、结构丢失 | 仅依赖初始噪声不够 |
| 无exceptional prompt | 重建误差大 | CFG不稳定导致ODE轨迹偏移 |
| 无高斯噪声注入 | 区域边界生硬 | 过渡区域缺乏生成先验 |
| \(\tau=0.4\) (默认) | 最佳平衡 | 结构保持 + 颜色过渡 |
| K=4 聚类 | 最佳 | K过大→调色板冗余;K过小→颜色覆盖不足 |
关键发现¶
- SketchDeco在局部上色的DCCW指标(颜色调色板相似度)上全面领先,证明精确颜色控制能力
- 方法在多个领域(动物、室内外场景、动漫、多物体自然scene)上均有效
- K-D Tree在颜色检索上优于LLM(不需要调用LLM来理解颜色十六进制码)
- 蒙版数量不影响最终质量,因为多个蒙版的处理通过并行全局着色完成
亮点与洞察¶
- 分治策略的巧妙设计:将全局一致性与局部控制的矛盾解耦为两个阶段,是全文最具启发性的设计思想
- 隐空间组合范式:将区域着色重构为组合+重建问题,避免了直接在去噪过程中强制颜色约束的困难
- 无需训练即可控制:完全利用预训练模型的生成先验,展现了扩散模型丰富的可操控性
- CFG不稳定性的优雅解决:exceptional prompt技术通过移除prompt信息使反演更稳定,是ODE反演领域的实用技巧
- 实际工作流友好:支持交互式预览和种子切换,15-20步在消费级GPU上完成,适合实际创意工作流
局限与展望¶
- 基于Stable Diffusion v1.5,生成质量受限于基础模型能力;升级到SDXL或SD3可能带来更大提升
- 蒙版需手动绘制(如用Photoshop),自动语义分割生成蒙版可降低使用门槛
- K-D Tree仅映射到147种CSS3颜色名称,精细颜色调控受限
- 着色结果的纹理细节依赖ControlNet的生成能力,对极简线稿可能效果有限
- 未讨论视频线稿上色或时序一致性场景
相关工作与启发¶
- 在TF-ICON的组合框架上扩展,引入区域蒙版和调色板控制
- Exceptional prompt技术来源于TF-ICON,本文将其用于ODE反演稳定化
- DPM-Solver++的选择体现了在效率和反演精度之间的考量(vs DDIM的100-250步)
- 方法思路可推广到其他图像编辑任务:如区域风格迁移、局部材质替换等
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将着色重构为隐空间组合问题是新颖的视角,但各组件均来自已有技术的巧妙组合
- 实验充分度: ⭐⭐⭐⭐ — 多数据集、多对比方法,包含全局和局部两种设置
- 写作质量: ⭐⭐⭐⭐ — 图示清晰,流程描述详细,动机分析到位
- 价值: ⭐⭐⭐⭐ — 对创意工作流有直接实用价值,无需训练是核心优势
相关论文¶
- [ACL 2025] Token Prepending: A Training-Free Approach for Eliciting Better Sentence Embeddings from LLMs
- [ACL 2025] Training-free LLM Merging for Multi-task Learning
- [ACL 2025] A Training-free LLM-based Approach to General Chinese Character Error Correction
- [NeurIPS 2025] SubSpec: Speculate Deep and Accurate — Lossless and Training-Free Acceleration for Offloaded LLMs
- [AAAI 2026] An Invariant Latent Space Perspective on Language Model Inversion