跳转至

Design2GarmentCode: Turning Design Concepts to Tangible Garments Through Program Synthesis

会议: CVPR 2025
arXiv: 2412.08603
代码: https://style3d.github.io/design2garmentcode (有)
领域: 人体理解 / 服装生成
关键词: 程序合成, 服装设计, 神经符号方法, GarmentCode DSL, 参数化版片

一句话总结

提出 Design2GarmentCode,首个神经符号方法将多模态设计输入(文本/图像/草图)转化为参数化服装制版程序(GarmentCode DSL),实现 100% 仿真成功率和 88.67% 的用户满意度,且生成的程序可编辑、可参数化。

研究背景与动机

领域现状

领域现状:数字服装生成从设计概念到可穿戴3D衣物需要经过版片设计→缝合→仿真多个环节。现有方法(如 DressCode、Sewformer)直接预测版片形状的离散表示(点序列),但生成的版片经常结构不正确导致仿真失败。

现有痛点:(1)离散版片预测的仿真成功率低(DressCode 仅 84%)——缝合拓扑错误导致仿真器崩溃;(2)生成的衣物不可编辑——用户无法修改设计参数(如加长袖子、改领口);(3)复杂服装(多片缝合)表示为长 token 序列(1500+),预测难度大。

核心矛盾:直接预测版片的几何坐标灵活但容易出错;参数化程序生成保证结构正确但需要让 LLM 理解服装领域专用语言(DSL)。

切入角度:将服装生成问题转化为程序合成问题——不预测版片坐标,而是预测生成版片的参数化程序+参数配置。程序执行后自动产生结构正确的版片。

核心 idea:多模态理解 Agent + 微调 LLM 程序生成 Agent → 参数化服装版片程序 → 100% 结构正确。

方法详解

关键设计

  1. 多模态理解 Agent(MMUA):

    • 功能:将多模态设计输入转化为结构化的设计选择
    • 核心思路:预训练 LMM(如 GPT-4V)接收文本/图像/草图输入,通过多选题形式(而非数值估计)回答设计问题——如"领口类型?A.圆领 B.V领 C.立领"。所有设计决策转化为离散选择+量化参数
    • 设计动机:实验发现 LMM 回答多选题远比数值估计准确
  2. DSL 生成 Agent(DSL-GA):

    • 功能:从设计选择生成 GarmentCode 参数化程序
    • 核心思路:用 LoRA 微调 LLM,训练数据是 GarmentCode 程序+自然语言注释对。生成固定长度的 token 序列(仅 122 tokens vs DressCode 1500),包含程序类型+量化参数。投影器(decoder-only transformer)将参数 token 转化为 DSL 程序的实际参数值
    • 设计动机:122 tokens 是 DressCode 的 1/10,大幅降低序列预测难度。参数量化为整数/布尔/枚举,消除浮点预测的累积误差
  3. GarmentCode 程序执行:

    • 功能:将程序→版片→3D 衣物
    • 核心思路:GarmentCode 是一个参数化的服装制版 DSL,每个程序定义了版片的形状和缝合关系。执行程序自动生成拓扑正确的版片,确保可仿真
    • 设计动机:程序的结构正确性由 DSL 语法保证,不像坐标预测那样可能产生无效版片

损失函数 / 训练策略

LoRA 微调 LLM 用标准自回归损失。量化函数将布尔/整数/浮点/枚举参数统一为离散 token。浮点参数用 \(\lambda=100\) 缩放后取整实现厘米级精度。

实验关键数据

主实验

指标 Design2GarmentCode DressCode Sewformer
仿真成功率 (SSR) 100% 84% 65%
用户满意度 (图像) 88.67% - 3.33%
用户审美 (图像) 77% - 5.33%
Chamfer 距离 2.091 - 9.7
平均版片数 11.02 5.11 10.11
Token 序列长度 122 1500 -

关键发现

  • 100% 仿真成功率:程序合成方法从根本上消除了拓扑错误
  • 更复杂的衣物:平均 11 片版片 vs DressCode 的 5 片,能表达更多样的设计
  • 10倍序列压缩:122 vs 1500 tokens 使预测更准确更高效
  • 可编辑性:用户可直接修改程序参数(如袖长、领口类型)重新生成,preview-edit-regenerate 工作流

亮点与洞察

  • 程序合成是正确性保障——让 DSL 的语法规则来保证结构正确,比端到端预测坐标更可靠
  • 多选题 > 数值估计——将连续设计空间离散化,让 LMM 在其擅长的多选推理上发力
  • 参数化隐含可编辑性——程序+参数的表示天然支持编辑,这是坐标表示无法实现的

局限与展望

  • 受限于 GarmentCode DSL 的表达能力——无法生成 DSL 未定义的服装结构
  • 固定标准体型,未支持尺码定制
  • 草图输入需要较高绘画质量
  • 训练数据有限,特定服装类型可能需要额外微调
  • DSL 扩展性——新增服装类型需要先扩展 DSL 语法

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将程序合成引入服装生成,神经符号方法的典范
  • 实验充分度: ⭐⭐⭐⭐ 文本/图像/草图三种模态输入,用户研究充分
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,系统设计优雅
  • 价值: ⭐⭐⭐⭐⭐ 为服装设计自动化提供了可编辑、100% 正确的实用方案

相关论文