Design2GarmentCode: Turning Design Concepts to Tangible Garments Through Program Synthesis¶
会议: CVPR 2025
arXiv: 2412.08603
代码: https://style3d.github.io/design2garmentcode (有)
领域: 人体理解 / 服装生成
关键词: 程序合成, 服装设计, 神经符号方法, GarmentCode DSL, 参数化版片
一句话总结¶
提出 Design2GarmentCode,首个神经符号方法将多模态设计输入(文本/图像/草图)转化为参数化服装制版程序(GarmentCode DSL),实现 100% 仿真成功率和 88.67% 的用户满意度,且生成的程序可编辑、可参数化。
研究背景与动机¶
领域现状¶
领域现状:数字服装生成从设计概念到可穿戴3D衣物需要经过版片设计→缝合→仿真多个环节。现有方法(如 DressCode、Sewformer)直接预测版片形状的离散表示(点序列),但生成的版片经常结构不正确导致仿真失败。
现有痛点:(1)离散版片预测的仿真成功率低(DressCode 仅 84%)——缝合拓扑错误导致仿真器崩溃;(2)生成的衣物不可编辑——用户无法修改设计参数(如加长袖子、改领口);(3)复杂服装(多片缝合)表示为长 token 序列(1500+),预测难度大。
核心矛盾:直接预测版片的几何坐标灵活但容易出错;参数化程序生成保证结构正确但需要让 LLM 理解服装领域专用语言(DSL)。
切入角度:将服装生成问题转化为程序合成问题——不预测版片坐标,而是预测生成版片的参数化程序+参数配置。程序执行后自动产生结构正确的版片。
核心 idea:多模态理解 Agent + 微调 LLM 程序生成 Agent → 参数化服装版片程序 → 100% 结构正确。
方法详解¶
关键设计¶
-
多模态理解 Agent(MMUA):
- 功能:将多模态设计输入转化为结构化的设计选择
- 核心思路:预训练 LMM(如 GPT-4V)接收文本/图像/草图输入,通过多选题形式(而非数值估计)回答设计问题——如"领口类型?A.圆领 B.V领 C.立领"。所有设计决策转化为离散选择+量化参数
- 设计动机:实验发现 LMM 回答多选题远比数值估计准确
-
DSL 生成 Agent(DSL-GA):
- 功能:从设计选择生成 GarmentCode 参数化程序
- 核心思路:用 LoRA 微调 LLM,训练数据是 GarmentCode 程序+自然语言注释对。生成固定长度的 token 序列(仅 122 tokens vs DressCode 1500),包含程序类型+量化参数。投影器(decoder-only transformer)将参数 token 转化为 DSL 程序的实际参数值
- 设计动机:122 tokens 是 DressCode 的 1/10,大幅降低序列预测难度。参数量化为整数/布尔/枚举,消除浮点预测的累积误差
-
GarmentCode 程序执行:
- 功能:将程序→版片→3D 衣物
- 核心思路:GarmentCode 是一个参数化的服装制版 DSL,每个程序定义了版片的形状和缝合关系。执行程序自动生成拓扑正确的版片,确保可仿真
- 设计动机:程序的结构正确性由 DSL 语法保证,不像坐标预测那样可能产生无效版片
损失函数 / 训练策略¶
LoRA 微调 LLM 用标准自回归损失。量化函数将布尔/整数/浮点/枚举参数统一为离散 token。浮点参数用 \(\lambda=100\) 缩放后取整实现厘米级精度。
实验关键数据¶
主实验¶
| 指标 | Design2GarmentCode | DressCode | Sewformer |
|---|---|---|---|
| 仿真成功率 (SSR) | 100% | 84% | 65% |
| 用户满意度 (图像) | 88.67% | - | 3.33% |
| 用户审美 (图像) | 77% | - | 5.33% |
| Chamfer 距离 | 2.091 | - | 9.7 |
| 平均版片数 | 11.02 | 5.11 | 10.11 |
| Token 序列长度 | 122 | 1500 | - |
关键发现¶
- 100% 仿真成功率:程序合成方法从根本上消除了拓扑错误
- 更复杂的衣物:平均 11 片版片 vs DressCode 的 5 片,能表达更多样的设计
- 10倍序列压缩:122 vs 1500 tokens 使预测更准确更高效
- 可编辑性:用户可直接修改程序参数(如袖长、领口类型)重新生成,preview-edit-regenerate 工作流
亮点与洞察¶
- 程序合成是正确性保障——让 DSL 的语法规则来保证结构正确,比端到端预测坐标更可靠
- 多选题 > 数值估计——将连续设计空间离散化,让 LMM 在其擅长的多选推理上发力
- 参数化隐含可编辑性——程序+参数的表示天然支持编辑,这是坐标表示无法实现的
局限与展望¶
- 受限于 GarmentCode DSL 的表达能力——无法生成 DSL 未定义的服装结构
- 固定标准体型,未支持尺码定制
- 草图输入需要较高绘画质量
- 训练数据有限,特定服装类型可能需要额外微调
- DSL 扩展性——新增服装类型需要先扩展 DSL 语法
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将程序合成引入服装生成,神经符号方法的典范
- 实验充分度: ⭐⭐⭐⭐ 文本/图像/草图三种模态输入,用户研究充分
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,系统设计优雅
- 价值: ⭐⭐⭐⭐⭐ 为服装设计自动化提供了可编辑、100% 正确的实用方案
相关论文¶
- [NeurIPS 2025] Searching Latent Program Spaces
- [CVPR 2025] Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis
- [CVPR 2025] Improve Representation for Imbalanced Regression through Geometric Constraints
- [CVPR 2025] Shape My Moves: Text-Driven Shape-Aware Synthesis of Human Motions
- [NeurIPS 2025] Learning From Design Procedure To Generate CAD Programs for Data Augmentation