SemLayer: Semantic-aware Generative Segmentation and Layer Construction for Abstract Icons¶

会议: CVPR 2026
arXiv: 2603.24039
代码: https://xxuhaiyang.github.io/SemLayer/
领域: 分割 / 矢量图形
关键词: 矢量图层构建, 语义分割上色, 遮挡补全, 图标编辑, 扩散模型

一句话总结¶

提出 SemLayer，一个基于生成模型的流水线，将扁平化的矢量图标恢复为语义化分层结构——先通过扩散模型将分割重新定义为上色任务，再进行遮挡区域的语义补全，最后用整数线性规划确定层级顺序，实现 mIoU +5.0、PQ +16.7 的分割提升。

研究背景与动机¶

领域现状：矢量图标是现代设计工作流的基石，设计师通常将语义有意义的图形元素组织在多个可编辑层中。但图标在发布和分发时经常被"扁平化"，所有层合并为单个复合路径，丢失了原始的语义层级结构。
现有痛点：一旦语义结构丢失，重新着色、动画、局部编辑等下游操作变得极其困难。设计师不得不手动重新分割和重建图标。现有方法如 SAM 在高度抽象的黑白图标上表现不佳（缺少纹理、阴影、颜色等线索），优化方法往往生成过多碎片层。
核心矛盾：图标的高度抽象性意味着传统的视觉理解线索（纹理、阴影、深度）几乎完全缺失，同时需要恢复包括被遮挡区域在内的完整几何形状以及正确的堆叠顺序。
本文目标：从扁平化的单路径/复合路径矢量图标恢复出可编辑的语义分层表示。
切入角度：利用生成模型（扩散模型）内含的丰富形状先验来弥补图标领域数据稀缺和特征缺失的问题。
核心 idea：将语义分割重新定义为上色任务（用扩散模型将黑白图标上色使不同语义部件可视化分离），然后利用扩散模型补全遮挡区域，最后用 ILP 确定层顺序。

方法详解¶

整体框架¶

三阶段流水线：(1) 语义感知生成式分割：将单色图标输入扩散模型，生成彩色版本，不同颜色对应不同语义部件，通过颜色阈值提取二值掩码 \(\{V_1, ..., V_K\}\)；(2) Amodal 层补全：对每个语义部件用扩散模型补全被遮挡的完整形状 \(\{A_1, ..., A_K\}\)；(3) 层顺序优化：通过 ILP 确定部件的堆叠顺序，最终矢量化回 SVG 格式。

关键设计¶

语义感知生成式分割（分割即上色）:
- 功能：将单色/双色图标分解为语义有意义的部件
- 核心思路：传统分割方法（如 SAM）在抽象图标上失败，因为缺少颜色和纹理线索。本文将分割重新定义为上色任务——在保持结构完整性的同时为不同语义部件赋予不同颜色。基于 EasyControl 框架实现，在扩散 Transformer 上使用 conditional LoRA，以二值轮廓为条件控制编码，文本 prompt 引导上色。训练使用 flow-matching 目标 \(\mathcal{L}_{\text{FM}} = \mathbb{E}_{t,\epsilon} \|v_\theta(z_n, t, z_c) - (\epsilon - x_0)\|_2^2\)。推理时输出的每个颜色通道通过阈值分离为独立掩码。训练数据包含 8,567 个来自真实 SVG 和 GPT-4o+gpt-image-1 合成的图标-上色对。
- 设计动机：上色是一个比分割更适合生成模型解决的任务——扩散模型在理解形状语义和颜色分配方面有强先验，可以巧妙绕过传统分割方法在图标上的困难
Amodal 层补全:
- 功能：恢复每个语义部件的完整形状，包括被其他部件遮挡的区域
- 核心思路：基于 pix2gestalt 潜在扩散模型微调。输入为遮挡图像和可见区域掩码，通过 CLIP 图像嵌入提供高层语义条件，VAE 编码的遮挡 patch 和掩码拼接提供几何条件。训练时使用碎片化可见性策略：当一个对象被遮挡分成多个不连通碎片 \(\{V^{(i)}\}\) 时，每个碎片独立作为输入但都监督恢复同一完整形状（多对一补全）。推理后的 IoU 合并步骤（\(\tau=0.7\)）将同一对象的多个补全结果合并。补全数据集 SemLayer-Completion 包含 50,000 个训练三元组。
- 设计动机：自然图像的 amodal 补全模型无法直接用于黑白图标（巨大域差异），需要专门针对图标风格微调
层顺序优化（ILP 公式化）:
- 功能：确定补全后各部件的堆叠顺序
- 核心思路：定义二值变量 \(x_{ij}\) 表示部件 \(i\) 是否在部件 \(j\) 上方，满足反对称和传递性约束。引入两个像素级覆盖变量：\(y_i=1\) 表示额外区域 \(E_i = A_i \setminus I\) 被上层覆盖（好），\(z_i=1\) 表示可见区域 \(V_i\) 被错误遮挡（坏）。目标函数 \(\max_{x,y,z} \sum_i y_i - \lambda \sum_i z_i\) 在正确遮挡覆盖（奖励）和避免错误遮挡（惩罚）之间权衡，\(\lambda=1\)。
- 设计动机：层顺序确定是一个组合优化问题，ILP 提供了精确求解方案，且指标（遮挡一致性 vs 可见性保持）定义清晰

损失函数 / 训练策略¶

分割模型从头训练 40,000 步（lr \(1 \times 10^{-4}\)，CFG scale 4.5），推理 25 步，分辨率 \(512 \times 512\)。补全模型微调 50,000 步（lr \(1 \times 10^{-5}\)），推理 50 步，分辨率 \(256 \times 256\)。所有实验在 8 张 A100 上进行。矢量化使用 potrace，采用曲线复用策略最大化保留原始 Bézier 线段。

实验关键数据¶

主实验¶

分割性能对比（48 个真实 SVG 测试集）：

方法	mIoU (%)	PQ (%)	补全 mIoU (%)	补全 CD ↓
gpt-image-1	25.4	6.20	60.9	71.4
SAM2	51.1	26.2	69.2	61.7
SAM2* (微调)	79.3	59.4	80.7	49.1
SemLayer (本文)	84.3	76.1	85.2	46.6

补全模型对比（固定本文分割输入）：

方法	mIoU (%) ↑	CD ↓
gpt-image-1	10.7	98.6
MP3D	70.5	79.4
MP3D-finetuned	75.3	68.9
SemLayer (本文)	85.2	46.6

消融实验¶

Refined 分割指标提升：

配置	mIoU_Refined (%)	PQ_Refined (%)
gpt-image-1	57.2	39.3
SAM2	62.2	37.8
SAM2*	85.3	78.0
SemLayer	86.4	78.3

关键发现¶

分割即上色的策略显著优于直接分割：比微调后的 SAM2* 仍高出 +5.0 mIoU 和 +16.7 PQ
gpt-image-1 在图标分割上表现很差：mIoU 仅 25.4%，说明通用生成模型难以理解图标的语义结构
补全模型的域适配至关重要：通用 MP3D 模型 mIoU=70.5%，微调后提升到 75.3%，本文专门的图标补全训练达 85.2%
碎片化训练策略有效：多对一补全训练使得模型能从单个碎片恢复完整形状
端到端流水线产出可直接编辑的分层 SVG：支持局部重着色、旋转、缩放和简单动画

亮点与洞察¶

分割即上色的范式转换极其巧妙：当传统分割方法在特定领域失败时，不要硬套分割方法，而是想"什么任务形式化对生成模型更友好"。上色对生成模型来说是一个更自然的任务——这个 insight 可以迁移到其他难以直接分割的领域。
数据构建流水线实用：利用 LayerPeeler 的真实 SVG + GPT-4o/gpt-image-1 合成，以少量人工成本构建了 8,567 个训练样本的分割数据集和 50,000 个补全三元组。
ILP 求层顺序直觉清晰：奖励正确遮挡覆盖、惩罚错误可见性遮挡的目标函数设计简洁优雅。

局限与展望¶

仅处理黑白线条图标：彩色和填充图标尚未覆盖（虽然作者指出颜色本身就是强语义线索，扩展相对容易）
高度缠绕/遮挡的图标可能失败：论文承认存在失败案例（Fig. 9）
测试集仅 48 个图标：评估规模偏小，可能不够代表所有图标风格
生成模型的随机性：需要多次运行取均值来稳定结果

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将分割重定义为上色任务的 insight 非常有创意，整个流水线三阶段设计干净利落
实验充分度: ⭐⭐⭐ 定量评估在 48 个测试图标上进行稍显不足，但定性可视化充分展示了效果
写作质量: ⭐⭐⭐⭐ 问题形式化清晰，四个挑战逐一对应解决方案
价值: ⭐⭐⭐⭐ 对设计工具领域有实际应用价值，数据集和方法可为矢量图形理解奠定基础