Design2GarmentCode: Turning Design Concepts to Tangible Garments Through Program Synthesis¶

会议: CVPR 2025
arXiv: 2412.08603
代码: https://style3d.github.io/design2garmentcode (有)
领域: 人体理解 / 服装生成
关键词: 程序合成, 服装设计, 神经符号方法, GarmentCode DSL, 参数化版片

一句话总结¶

提出 Design2GarmentCode，首个神经符号方法将多模态设计输入（文本/图像/草图）转化为参数化服装制版程序（GarmentCode DSL），实现 100% 仿真成功率和 88.67% 的用户满意度，且生成的程序可编辑、可参数化。

研究背景与动机¶

领域现状¶

领域现状：数字服装生成从设计概念到可穿戴3D衣物需要经过版片设计→缝合→仿真多个环节。现有方法（如 DressCode、Sewformer）直接预测版片形状的离散表示（点序列），但生成的版片经常结构不正确导致仿真失败。

现有痛点：（1）离散版片预测的仿真成功率低（DressCode 仅 84%）——缝合拓扑错误导致仿真器崩溃；（2）生成的衣物不可编辑——用户无法修改设计参数（如加长袖子、改领口）；（3）复杂服装（多片缝合）表示为长 token 序列（1500+），预测难度大。

核心矛盾：直接预测版片的几何坐标灵活但容易出错；参数化程序生成保证结构正确但需要让 LLM 理解服装领域专用语言（DSL）。

切入角度：将服装生成问题转化为程序合成问题——不预测版片坐标，而是预测生成版片的参数化程序+参数配置。程序执行后自动产生结构正确的版片。

核心 idea：多模态理解 Agent + 微调 LLM 程序生成 Agent → 参数化服装版片程序 → 100% 结构正确。

方法详解¶

关键设计¶

多模态理解 Agent（MMUA）:
- 功能：将多模态设计输入转化为结构化的设计选择
- 核心思路：预训练 LMM（如 GPT-4V）接收文本/图像/草图输入，通过多选题形式（而非数值估计）回答设计问题——如"领口类型？A.圆领 B.V领 C.立领"。所有设计决策转化为离散选择+量化参数
- 设计动机：实验发现 LMM 回答多选题远比数值估计准确
DSL 生成 Agent（DSL-GA）:
- 功能：从设计选择生成 GarmentCode 参数化程序
- 核心思路：用 LoRA 微调 LLM，训练数据是 GarmentCode 程序+自然语言注释对。生成固定长度的 token 序列（仅 122 tokens vs DressCode 1500），包含程序类型+量化参数。投影器（decoder-only transformer）将参数 token 转化为 DSL 程序的实际参数值
- 设计动机：122 tokens 是 DressCode 的 1/10，大幅降低序列预测难度。参数量化为整数/布尔/枚举，消除浮点预测的累积误差
GarmentCode 程序执行:
- 功能：将程序→版片→3D 衣物
- 核心思路：GarmentCode 是一个参数化的服装制版 DSL，每个程序定义了版片的形状和缝合关系。执行程序自动生成拓扑正确的版片，确保可仿真
- 设计动机：程序的结构正确性由 DSL 语法保证，不像坐标预测那样可能产生无效版片

损失函数 / 训练策略¶

LoRA 微调 LLM 用标准自回归损失。量化函数将布尔/整数/浮点/枚举参数统一为离散 token。浮点参数用 \(\lambda=100\) 缩放后取整实现厘米级精度。

实验关键数据¶

主实验¶

指标	Design2GarmentCode	DressCode	Sewformer
仿真成功率 (SSR)	100%	84%	65%
用户满意度 (图像)	88.67%	-	3.33%
用户审美 (图像)	77%	-	5.33%
Chamfer 距离	2.091	-	9.7
平均版片数	11.02	5.11	10.11
Token 序列长度	122	1500	-

关键发现¶

100% 仿真成功率：程序合成方法从根本上消除了拓扑错误
更复杂的衣物：平均 11 片版片 vs DressCode 的 5 片，能表达更多样的设计
10倍序列压缩：122 vs 1500 tokens 使预测更准确更高效
可编辑性：用户可直接修改程序参数（如袖长、领口类型）重新生成，preview-edit-regenerate 工作流

亮点与洞察¶

程序合成是正确性保障——让 DSL 的语法规则来保证结构正确，比端到端预测坐标更可靠
多选题 > 数值估计——将连续设计空间离散化，让 LMM 在其擅长的多选推理上发力
参数化隐含可编辑性——程序+参数的表示天然支持编辑，这是坐标表示无法实现的

局限与展望¶

受限于 GarmentCode DSL 的表达能力——无法生成 DSL 未定义的服装结构
固定标准体型，未支持尺码定制
草图输入需要较高绘画质量
训练数据有限，特定服装类型可能需要额外微调
DSL 扩展性——新增服装类型需要先扩展 DSL 语法

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将程序合成引入服装生成，神经符号方法的典范
实验充分度: ⭐⭐⭐⭐ 文本/图像/草图三种模态输入，用户研究充分
写作质量: ⭐⭐⭐⭐ 方法描述清晰，系统设计优雅
价值: ⭐⭐⭐⭐⭐ 为服装设计自动化提供了可编辑、100% 正确的实用方案