跳转至

Multimodal Latent Diffusion Model for Complex Sewing Pattern Generation

会议: ICCV 2025
arXiv: 2412.14453
代码: 项目页面
领域: 扩散模型/服装生成
关键词: 缝纫版型生成, 潜空间扩散模型, 多模态条件, 体型感知, CG管线

一句话总结

提出 SewingLDM,一个多模态条件潜空间扩散模型,通过扩展缝纫版型表示和两阶段训练策略,实现在文本、草图、体型条件控制下合复杂缝纫版型,并可无缝集成到 CG 仿真管线。

研究背景与动机

缝纫版型(Sewing Pattern)是工业界广泛使用的服装表示方式,因其兼容物理仿真和动画而在 CG 管线中具有天然优势。然而现有的缝纫版型生成方法面临以下挑战:

复杂版型表示不足:现有方法(如 NeuralTailor)仅支持直线和二次曲线两种边类型,无法表示现代服装设计中常见的三次曲线、圆弧线等复杂几何,也缺乏对附着约束(如领口、腰带的防滑约束)的建模。

缺乏精细控制:DressCode 等方法虽然支持文本生成,但在处理复杂服装描述(如一字肩礼服、方领衬衫)时失败率高,生成能力受限。参数化方法(如 GarmentCodeData)虽然支持复杂控制,但需要预定义模板和专业知识。

忽略体型适配:大多数方法仅在标准体型上训练,无法生成适合不同体型的定制服装。当把生成的版型穿戴到不同体型上时,会出现布料穿模、滑落等问题。

3D 网格方法不兼容 CG 管线:Wonder3D、RichDreamer 等 3D 网格生成方法可以生成视觉上美观的服装,但其闭合表面网格无法与现代 CG 生产流程集成,且穿戴时会出现严重的穿模现象。

方法详解

整体框架

SewingLDM 包含三个核心组件: 1. 扩展版型表示:将每条边的特征从原始的低维扩展到 29 维,覆盖四种边类型、附着约束、缝合反转标志等 2. 紧凑潜空间压缩:通过自编码器将高维版型表示压缩到有界紧凑的潜空间 3. 多模态条件扩散模型:基于 DiT 架构,通过两阶段训练注入文本、草图、体型条件

关键设计

  1. 扩展缝纫版型表示:在原始表示基础上增加:三次曲线控制点 \(C^b_{i,j} \in \mathbb{R}^4\)、圆弧线参数 \(C^r_{i,j} \in \mathbb{R}^3\)、边类型标志 \(E^t_{i,j,k}\)(2-bit 表示 4 种边类型)、附着类型标志 \(A_{i,j,k}\)(3-bit 表示领口/腰带等约束)、缝合方向反转标志(防止仿真时缝合交叉)。每条边最终表示为 29 维向量:

    \(E^f_{i,j} = V_{i,j} \oplus C_{i,j} \oplus C^b_{i,j} \oplus C^r_{i,j} \oplus S_{i,j} \oplus R_i \oplus T_i \oplus E^t_{i,j} \oplus E^m_{i,j} \oplus A_{i,j} \oplus M'_{i,j}\)

所有版型通过零填充统一到固定尺寸 \((max(N_p) \times max(N_i), 29)\)

  1. 紧凑潜空间压缩:训练自编码器将版型 \(F\) 压缩到有界潜空间 \([-1, 1]\)。编码后通过量化 \(\hat{z} = \frac{round(n \times tanh(z))}{n}\) 使每个维度均匀分布在 \(\{-1, -0.5, 0, 0.5, 1\}\)\(n=2\)),利于扩散模型学习分布。训练损失包括重建 MSE 损失 \(\mathcal{L}_{rec}\)、面板完整性损失 \(\mathcal{L}_{panel}\)、缝合精度损失 \(\mathcal{L}_{stitch}\) 和新增的二元交叉熵损失 \(\mathcal{L}_{BCE}\)

    \(\mathcal{L}_{total} = \lambda_1 \mathcal{L}_{rec} + \lambda_2 \mathcal{L}_{panel} + \lambda_3 \mathcal{L}_{stitch} + \lambda_4 \mathcal{L}_{BCE}\)

  2. 两阶段多模态条件注入

    • 第一阶段:仅在文本条件下训练潜空间扩散模型(DiT 架构 + T5 tokenizer),使用 IDDPM 损失,建立基础生成能力
    • 第二阶段:注入草图和体型条件。通过嵌入器提取草图和体型特征并拼接,送入轻量 Transformer 层融合(因为草图会随体型变化),然后通过统计归一化将融合特征 \(\bm{F}_{bs}\) 对齐到潜变量特征 \(\bm{F}_z\) 的分布:

    \(\hat{\bm{F}}_z = \frac{(\bm{F}_{bs} - \bm{\mu}_{bs}) \times \bm{\sigma}_{bs}}{\bm{\sigma}_z + \epsilon} + \bm{\mu}_z + \bm{F}_z\)

仅微调注意力模块的输出层,保持对文本引导的响应。草图/文本条件以 25% 概率置零以支持单条件生成。

损失函数 / 训练策略

  • 自编码器:\(\lambda_1=5, \lambda_2=1, \lambda_3=1, \lambda_4=1\),训练 12 小时
  • 第一阶段文本引导 LDM:IDDPM 损失,训练 2 天
  • 第二阶段多模态条件:额外 10 小时收敛
  • 数据集:GarmentCode 数据集 120,000 个版型,GPT-4 辅助标注文本,PiDiNet 提取草图

实验关键数据

主实验

定量对比(生成效率、体型适配度、用户评价)

方法 运行时间↓ 衣体距离↓(cm) 用户评分↑
RichDreamer ~4 hours 6.19 1.89
Wonder3D ~4 mins 6.54 1.88
Sewformer ~3 mins 5.45 2.10
DressCode ~3 mins 3.69 3.56
SewingLDM (Ours) ~3 mins 2.20 4.60

重建精度对比

方法 Panel L2↓ Panel Acc↑ Edge Acc↑ Stitch Acc↑ 失败率↓
SewFormer* 12.3 79.4 44.7 2.8 4.3%
AE (Ours) 0.64 99.8 88.5 90.8 0
SewingLDM 3.13 97.8 82.7 84.2 0

消融实验

潜空间压缩形状消融

压缩形状 重建 生成 衣体距离↓ Codebook使用率
无压缩 - -
256×32, n=32 - 0%
256×8, n=2 2.87 91%
256×6, n=2 2.20 100%
256×4, n=2 - - -

多模态条件注入位置消融:在浅层(block 0 后)注入效果最佳,深层注入会导致服装关键部件(袖子、腰带)丢失;同时微调 self-attention 和 cross-attention 的输出层效果优于单独微调任一。

关键发现

  • SewingLDM 的衣体距离仅 2.20cm,远优于 3D 网格方法(>6cm)和其他版型方法
  • 用户评价中本方法以 4.60/5.0 分大幅领先
  • 紧凑潜空间(256×6, n=2)实现了 100% codebook 使用率,这是生成质量的关键
  • 自编码器实现了厘米级精度重建(Panel L2=0.64cm),达到工业标准

亮点与洞察

  • 首次实现体型感知的缝纫版型生成:通过将体型作为条件融入扩散模型,生成的服装可直接适配不同体型,无需手动调整
  • CG 管线兼容:生成的版型可直接用于物理仿真和动画,解决了 3D 网格方法的穿模问题
  • 紧凑量化潜空间设计巧妙:5 值均匀量化(\(\{-1,-0.5,0,0.5,1\}\))既保证了重建精度,又使扩散模型易于学习
  • 两阶段训练策略务实:先建立文本基础能力,再微调注入额外模态,避免多模态干扰

局限与展望

  • 无法处理拉链、口袋等特殊设计细节
  • 复杂草图(如婚纱)的对齐存在困难
  • 当前数据集来自 GarmentCodeData,覆盖的设计风格有限
  • 未来可探索更全面的日常服装表示和更多条件输入

相关工作与启发

  • NeuralTailor 的版型向量化方法是本文的基础,但其表示能力限制了复杂服装的生成
  • DiT 架构的可扩展性使其适合不同规模的版型生成
  • 本文的潜空间压缩策略(有界量化 + 高使用率)对其他结构化数据的生成任务有借鉴意义

评分

  • 新颖性: ⭐⭐⭐⭐ 将 LDM 应用于缝纫版型是新颖的跨领域尝试,体型感知是重要创新
  • 实验充分度: ⭐⭐⭐⭐ 定量定性对比充分,包含用户研究和详尽消融
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图表丰富
  • 价值: ⭐⭐⭐⭐⭐ 对数字服装设计行业有重要的实际应用价值

相关论文