Layered Image Vectorization via Semantic Simplification¶

会议: CVPR 2025
arXiv: 2406.05404
代码: 无（基于 PyTorch + DiffVG 实现）
领域: 图像生成 / 模型压缩
关键词: 图像矢量化, 语义简化, SDS蒸馏, 分层表示, SVG生成

一句话总结¶

本文提出一种渐进式图像矢量化方法，利用 Score Distillation Sampling（SDS）的特征平均效应生成逐级简化的图像序列，以此引导从宏观语义结构到精细细节的分层矢量重建，在视觉保真度、语义对齐和紧凑分层表示上显著优于现有方法。

研究背景与动机¶

领域现状：图像矢量化（将栅格图像转换为 SVG 等矢量格式）是计算机图形学的经典问题。近年来基于可微渲染的方法（如 LIVE、DiffVG）通过迭代优化 Bézier 曲线来逼近目标图像，取得了良好效果。
现有痛点：现有方法以单一目标图像作为优化目标，直接在像素差异最大的区域添加矢量图元。这导致两个问题——(a) 生成的矢量图元过于复杂且缺乏语义结构，难以编辑管理；(b) 无法捕获被遮挡、纹理变化等因素掩盖的隐式语义对象（如被细节打断的完整人体轮廓）。
核心矛盾：矢量化需要同时满足视觉保真度和结构可管理性，而直接从细节入手的方法无法建立有意义的语义层次。
本文目标 如何产生按语义层次组织的紧凑分层矢量表示——从整体轮廓到局部细节逐层构建？
切入角度：作者发现 SDS 中的"特征平均效应"（feature-average effect）可以用来做图像简化——当 SDS 的条件噪声被消除后，迭代优化会使图像逐渐丢失细节而保留宏观结构。这提供了一种自然的"从详到粗"的简化序列。
核心 idea：利用 SDS 的特征平均效应生成渐进简化的图像序列，以此作为中间优化目标，引导矢量从宏观语义到精细细节的分层重建。

方法详解¶

整体框架¶

以目标图像为输入，流程分三步：(1) 渐进图像简化：通过修改 SDS 的 CFG（将条件文本设为空或 CFG scale 设为 0），利用特征平均效应每 20 步迭代生成一级简化图像，形成从原图到粗略轮廓的序列（默认 5 级）；(2) 结构构建（Stage I）：对简化序列中每张图像做语义分割，提取 mask 并按重叠关系排列为从后到前的层级，为每个 mask 初始化闭合 Bézier 曲线并通过结构损失优化；(3) 视觉精修（Stage II）：为结构矢量拟合颜色并冻结，在高视觉差异区域添加精修矢量并优化视觉保真度损失。

关键设计¶

SDS-based 渐进图像简化:
- 功能：生成一组从详到粗的简化图像序列作为矢量化的中间目标
- 核心思路：SDS 的更新方向 \((\epsilon_\phi(\mathbf{x}_t, t, y) - \epsilon)\) 中，预训练 DDPM 对输入敏感，预测的噪声存在特征不一致性，导致像素被沿不一致方向更新，产生"特征平均"效果（细节模糊、宏观保留）。为控制简化程度避免形状严重扭曲，将 CFG 中的条件文本设为空字符串 " "（等价于消除条件噪声的引导），这样 SDS 仅依靠无条件噪声预测来更新图像。每隔 \(N=20\) 步保存一级简化结果，得到 5 级简化序列。与双边/高斯滤波、超像素等传统简化方法相比，SDS 方法能智能地移除非结构性元素（如房子前的树木），保持清晰的语义边界（如瓢虫的圆形轮廓）。
- 设计动机：传统简化产生的模糊边界不适合矢量化；SDS 的简化天然产生语义层次且边界平滑，与矢量图形兼容性好。
分层结构构建（带层级 Mask 排列和结构损失）:
- 功能：从简化序列中提取语义 mask 并优化为分层矢量结构
- 核心思路：对每级简化图像做语义分割（SAM），按从最简到最详的顺序依次添加 mask。每个 mask 被放入从后到前的层中，同一层的 mask 不相交。Mask 边界经 Douglas-Peucker 算法简化后初始化为闭合 Bézier 曲线。优化时使用层级结构损失 \(\mathcal{L}_{\text{structure}} = w_1 \mathcal{L}_{\text{mse}} + w_2 \mathcal{L}_{\text{overlap}}\)：MSE 项衡量每层 mask 图像与矢量渲染图的差异，overlap 项惩罚同层矢量的重叠（对重叠区域的透明度超过阈值的像素施加 ReLU 惩罚）。优化时每对 mask-矢量使用相同随机颜色，仅关注形状对齐。
- 设计动机：该方法能发现单张图像分割无法捕获的隐式语义结构——如简化后的"机器人整体"或"无孔洞的脸部"，这些在原图中被纹理/遮挡打断。
视觉精修（Color Fitting + Visual-wise 矢量优化）:
- 功能：在保持结构矢量不变的情况下添加精修矢量提升视觉保真度
- 核心思路：首先为结构矢量拟合颜色——取该矢量覆盖的可见像素中的主色调，或通过 MSE 最小化拟合。然后冻结结构矢量，计算渲染图与目标图像的像素差异，在 Top-K 最大差异连通区域初始化精修矢量（类似 LIVE 的策略），优化视觉保真度损失 \(\mathcal{L}_{\text{fidelity}} = \|I_{\text{target}} - I_{\text{vector}}\|_2^2\)。优化过程中定期执行矢量清理（合并冗余、删除无用矢量）。
- 设计动机：两阶段分离确保结构完整性不被颜色/细节优化破坏，同时精修阶段弥补结构矢量的视觉损失。

损失函数 / 训练策略¶

Stage I 结构损失：\(\mathcal{L}_{\text{structure}} = \mathcal{L}_{\text{mse}} + 10^{-8} \cdot \mathcal{L}_{\text{overlap}}\)
Stage II 视觉保真度损失：\(\mathcal{L}_{\text{fidelity}} = \|I_{\text{target}} - I_{\text{vector}}\|_2^2\)
Adam 优化器，点坐标学习率 1.0，颜色学习率 0.01
简化序列 5 级，每级间隔 20 步 SDS 迭代

实验关键数据¶

主实验¶

方法	MSE ↓	LPIPS ↓	VeC (%) ↑	说明
DiffVG	-	-	41.9	基础可微渲染
LIVE	-	-	43.4	渐进添加
O&R	-	-	39.9	优化+剪枝
SGLIVE	-	-	65.9	梯度感知分割
Ours	最低	最低	73.8	语义分层

VeC（Vector Compactness）衡量矢量图元被语义 mask 高度包含（>85% 面积重叠）的比例。本文方法 VeC 达 73.8%，标准差最小（11.9），显著优于所有基线。100 张测试图的 MSE 和 LPIPS 在所有矢量数量设置下均最优。

消融实验¶

配置	效果	说明
Full model	最佳结构 + 视觉质量	包含 SDS 简化序列引导
w/o 简化序列	缺失隐式语义结构	如"Captain America 的整体"和"草地"无法被捕获
Bilateral filter 替代 SDS	边界模糊，结构退化	瓢虫的圆形边界破坏
Gaussian filter 替代 SDS	边界更模糊	丢失语义信息
Superpixel 替代 SDS	过度碎片化	无法恢复宏观结构

关键发现¶

SDS 简化的核心优势是语义智能性：能自动移除非结构性遮挡物（如房子前的树木），恢复被遮挡的完整语义对象（如房子的前墙）
CLIP 语义相似度显示，在矢量数量较少时（粗略阶段），本文方法的语义保真度远优于其他方法
Florence-2 模型对粗略矢量层生成的描述性文本与原图内容高度吻合，验证了宏观结构的语义有效性
分层矢量表示极大方便了下游编辑（如根据底层结构选择上层图元进行重着色）

亮点与洞察¶

巧妙利用 SDS 的"缺陷"：SDS 的特征平均效应通常被视为质量退化问题（导致过于平滑），本文反其道而行将其作为图像简化工具，将 bug 变成 feature
两阶段分离优化策略将形状和颜色解耦，确保结构完整性，同时简化了优化了过程。这种思路可迁移到其他需要层次化生成的任务
从简到繁的矢量化策略类似于人类画画先画轮廓再填充细节的过程，产生的表示更符合人类直觉和编辑需求
VeC 指标的提出为矢量化质量提供了新的评价维度（语义紧凑度）

局限与展望¶

SDS 简化依赖预训练扩散模型的先验，对出分布图像（如特殊风格的画作）效果可能不稳定
语义分割模型（SAM）的质量直接影响 mask 层级划分的准确性
简化序列的级数和间隔（5 级、20 步）是手动设定的超参数，可能对不同复杂度的图像不够自适应
处理照片级真实图像时，矢量数量仍然较多（相对于 clipart/emoji 类图像）
未探索渐变填充（gradient fill）等更丰富的矢量图元

评分¶

新颖性: ⭐⭐⭐⭐⭐ SDS 特征平均效应用于图像简化的洞察极其巧妙，开辟了矢量化的新方向
实验充分度: ⭐⭐⭐⭐ 100 张图的定量对比、消融全面，CLIP 语义评估新颖，但缺少大规模用户研究
写作质量: ⭐⭐⭐⭐⭐ 插图出色，简化→分层→精修的流程讲解清晰直观
价值: ⭐⭐⭐⭐ 对设计领域实用价值高，紧凑分层 SVG 便于编辑和重着色