SwiftTailor: Efficient 3D Garment Generation with Geometry Image Representation¶

会议: CVPR2026
arXiv: 2603.19053
作者: Phuc Pham, Uy Dieu Tran, Binh-Son Hua, Phong Nguyen 代码: 待确认
领域: 3D视觉 / 服装生成
关键词: 3D服装生成, 几何图像, 缝纫样板, VLM, Dense Prediction Transformer

一句话总结¶

提出两阶段轻量框架SwiftTailor，通过PatternMaker预测缝纫样板 + GarmentSewer将其转换为统一UV空间的Garment Geometry Image，结合逆映射与动态拼接直接生成3D服装网格，推理速度比现有方法快数十倍且达到SOTA质量。

研究背景与动机¶

3D服装生成是计算机视觉和数字时尚领域的长期难题。现有方法的典型流程是：使用大型视觉-语言模型（VLM）生成2D缝纫样板的序列化表示，再通过GarmentCode等服装建模框架将其转换为可模拟的3D网格。这类方法虽然质量高，但存在明显瓶颈：

推理效率低：依赖物理模拟引擎（如GarmentCode）将2D样板转为3D网格，单件服装推理需30-60秒，难以满足实时或大规模生成需求

VLM冗余：使用大型VLM做缝纫样板预测存在参数浪费，轻量化模型即可胜任该任务

表示不统一：2D样板到3D网格的转换依赖复杂的模拟流程，中间环节多、不可微分、难以端到端优化

核心问题：如何在保持生成质量的同时大幅提升3D服装生成的推理效率？

方法详解¶

整体框架¶

SwiftTailor采用两阶段级联设计：

阶段一 PatternMaker：高效VLM，从多模态输入（文本描述、参考图像等）预测缝纫样板参数
阶段二 GarmentSewer：高效Dense Prediction Transformer，将缝纫样板转换为Garment Geometry Image（GGI），编码所有面板的3D表面到统一UV空间
后处理：通过逆映射 + 重网格化 + 动态拼接算法直接组装最终3D服装网格

该设计的核心思想是用学习的几何图像表示替代传统物理模拟，将昂贵的模拟成本摊销到训练阶段。

关键设计一：PatternMaker — 高效视觉-语言样板预测¶

PatternMaker是一个轻量级的视觉-语言模型，专门针对缝纫样板预测进行设计：

多模态输入：支持文本描述、参考图像等多种输入模态，提供灵活的用户交互方式
高效架构：相比现有方法使用的大型VLM（如GPT-4V级别），PatternMaker大幅精简模型规模，仅保留样板预测所需的能力
结构化输出：直接预测缝纫样板的参数化表示，包括各面板的形状、尺寸和拼接关系，无需复杂的序列解码
多模态训练：在Multimodal GarmentCodeData上训练，同时学习视觉和语言到样板参数的映射

这一设计的关键洞察是：缝纫样板预测本质上是一个结构化预测任务，不需要大型通用VLM的全部能力，用高效专用模型即可获得更好的性价比。

关键设计二：GarmentSewer — Garment Geometry Image生成¶

GarmentSewer是框架的核心创新，引入了Garment Geometry Image（GGI）这一新颖表示：

GGI表示：将服装所有面板的3D表面信息编码到统一的2D UV空间中，每个像素存储对应的3D坐标(x,y,z)。这种表示将不规则的3D网格问题转化为规则的2D图像预测问题
Dense Prediction Transformer：使用高效的DPT架构，以缝纫样板参数为条件输入，直接预测GGI。Transformer的全局注意力机制有助于捕捉不同面板之间的空间关系
UV空间设计：精心设计UV映射方案，将不同形状和大小的面板紧凑排列到统一的图像空间中，最大化信息密度的同时保持面板间的几何一致性

关键设计三：逆映射与动态拼接¶

从GGI重建最终3D网格的过程包含三个关键步骤：

逆映射：将GGI中每个有效像素的3D坐标映射回原始面板空间，恢复各面板的3D几何形状
重网格化（Remeshing）：对恢复的面板几何进行自适应重网格化，生成高质量的三角网格，确保网格质量满足后续使用需求
动态拼接（Dynamic Stitching）：根据缝纫样板中定义的拼接关系，自动将各面板对应边缘缝合，组装成完整服装。该算法能处理不同面板边缘长度不一致等实际问题

这一流程完全替代了传统的物理模拟过程，将单件服装的组装时间从数十秒降到亚秒级。

实验关键数据¶

实验在Multimodal GarmentCodeData数据集上进行评估。

表1：与现有方法的定量对比¶

方法	样板精度	3D几何误差↓	视觉保真度↑	推理时间
GarmentCode + 大VLM	较高	较低	高	30-60秒
基于序列化的方法	中等	中等	中等	~30秒
SwiftTailor	最高	最低	最高	<数秒

SwiftTailor在保持SOTA精度的同时，推理速度提升一个数量级以上。

表2：消融实验¶

配置	几何误差↓	推理时间	说明
完整SwiftTailor	最低	最快	完整两阶段框架
w/o GGI（用物理模拟）	相当	30-60秒	验证GGI替代模拟的有效性
w/o 动态拼接	较高	较快	拼接质量下降
w/o 重网格化	中等	最快	网格质量降低
大VLM替代PatternMaker	相当	更慢	验证轻量VLM的合理性

消融实验证明了GGI表示、动态拼接和重网格化各组件的必要性。

关键发现¶

几何图像是3D服装的高效表示：GGI将不规则3D网格统一到规则2D图像空间，使得标准图像预测架构可以直接应用于服装生成
物理模拟可以被学习替代：通过在训练阶段摊销模拟成本，推理时完全不需要物理引擎，大幅降低推理延迟
轻量VLM足以完成样板预测：缝纫样板预测是一个相对结构化的任务，不需要超大规模VLM
速度与质量可以兼得：SwiftTailor证明在3D服装生成中，效率提升与质量提升不是矛盾的

亮点与洞察¶

表示创新：Garment Geometry Image是一个很有启发性的表示设计。将3D服装的所有面板统一编码到2D图像空间，这种思路可以推广到其他多组件3D物体的生成
摊销优化思想：将物理模拟的成本从推理阶段转移到训练阶段，是一种通用的加速策略。类似思想在neural physics、neural rendering等领域也有应用
模块化设计：两阶段解耦设计使得PatternMaker和GarmentSewer可以独立优化和替换，灵活性高
实用导向：10倍以上的加速使得该方法具备实际部署价值，可用于实时3D虚拟试衣、游戏角色穿搭等场景
可解释性：保留了缝纫样板这一中间表示，用户可以检查和编辑样板参数，提供了良好的人机交互接口

局限性¶

数据集依赖：仅在Multimodal GarmentCodeData上验证，该数据集的多样性可能不足以覆盖所有真实世界服装类型（如极复杂礼服、民族服饰等）
GGI分辨率限制：几何图像的分辨率决定了3D网格的细节上限，对于褶皱、刺绣等精细结构可能还不够
拓扑约束：GGI假设服装面板可以平展到2D UV空间，对于拓扑复杂的服装（如有孔洞、多层叠加）可能难以处理
物理真实性：虽然摊销了模拟成本，但学习得到的几何是否完全符合物理规律（如重力下垂、布料厚度）还需进一步验证
泛化能力：对训练数据之外的全新服装类型的泛化能力有待考察

评分¶

新颖性: 8/10 — GGI表示和两阶段摊销框架均有创新，将经典geometry image思想巧妙应用于服装生成
实验充分度: 7/10 — 在标准数据集上达SOTA且有消融，但缺少跨数据集泛化和真实场景部署的验证
写作质量: 8/10 — 框架描述清晰，两阶段设计逻辑流畅，动机论述充分
价值: 8/10 — 10倍加速具有明确应用价值，GGI表示对领域有推动作用