ReWeaver: Towards Simulation-Ready and Topology-Accurate Garment Reconstruction¶
会议: CVPR2026
arXiv: 2601.16672
作者: Ming Li, Hui Shan, Kai Zheng, Chentao Shen, Siyu Liu, Yanwei Fu, Zhen Chen, Xiangru Huang
机构: 浙江大学, 上海创新研究院, 西湖大学, 复旦大学, Adobe, 西安电子科技大学
代码: 待确认
领域: 3d_vision
关键词: 服装重建, 缝纫模式, 拓扑重建, 多视图重建, 物理仿真
一句话总结¶
提出 ReWeaver 框架,从最少4张多视图RGB图像中联合重建3D服装几何与2D缝纫图案(sewing pattern),通过双路径Transformer预测3D曲面片/曲线及其拓扑连接,再经组内注意力将3D结构展平为2D面板边缘,首次实现拓扑准确且可直接用于物理仿真的服装资产恢复。
背景与动机¶
高质量3D服装重建在虚拟试穿、数字人、游戏和机器人操作等应用中至关重要。然而现有方法存在两大痛点:
-
非结构化表示的局限:现有方法(点云、SDF、3D高斯泼溅等)虽能近似服装几何,但缺乏显式的缝纫结构(seam/panel),难以直接用于物理仿真、服装编辑或重定向。这些表示与工业标准的服装设计流程(以2D缝纫图案为核心)天然不兼容。
-
已有缝纫图案方法的不足:
- 依赖预定义拓扑的方法(如 DiffAvatar)仅适用于简单服装,无法处理未见过的版型
- 基于视觉-语言模型的方法(如 ChatGarment、AIpparel)通过token化JSON描述生成2D图案,虽然拓扑泛化性更强,但几何精度不足
- 大多数方法只关注2D图案,忽略了精确的3D几何理解
核心目标:同时重建准确的服装拓扑(哪些面板/缝线相连)和几何(各元素的精确3D形状),使输出既能用于3D感知,又能用于高保真物理仿真。
方法详解¶
整体框架¶
ReWeaver 采用编码器-解码器架构,流程分为四个阶段:
- 多视图视觉编码(Section 3.2):基于 VGGT 的多视图编码器提取统一特征
- 3D曲线与曲面片预测(Section 3.3):双路径 Transformer 预测3D几何与拓扑
- 2D图案预测(Section 3.4):组内注意力将3D结构展平为2D面板边缘
- 拓扑/几何精炼:后处理保证面板闭合与拓扑一致性
术语定义(2D/3D双空间):
| 空间 | 表面区域 | 边界线 |
|---|---|---|
| 3D | Patch(曲面片) | Curve(曲线/缝线) |
| 2D | Panel(面板) | Edge(边缘) |
多视图视觉编码器¶
采用 VGGT 的设计思路,处理流程如下:
- 每张输入图像被划分为不重叠的 \(16\times16\) patch,经 DINOv2 backbone 嵌入为 token
- 交替堆叠帧内自注意力(intra-frame attention,细化单视图特征)和帧间自注意力(inter-frame attention,跨视图聚合信息)
- 将最后的帧内和帧间输出拼接,展平所有帧的 token 得到序列 \(T_i \in \mathbb{R}^{N_i \times D}\),其中 \(D=768\)
这种交替注意力设计能渐进式地整合局部纹理线索和全局几何信息,适应稀疏且未知分布的多视图输入。
3D 曲线与曲面片预测(双路径 Transformer)¶
这是 ReWeaver 的核心模块,负责预测3D几何元素及其拓扑连接关系。
输入:视觉 token \(T_i\),可学习的面片查询 \(Q_p \in \mathbb{R}^{N_p \times D}\)(\(N_p=200\))和曲线查询 \(Q_c \in \mathbb{R}^{N_c \times D}\)(\(N_c=70\))。查询数量约为训练数据中最大数量的两倍。
双路径 Transformer 架构(灵感来自 ComplexGen):
每一层中,patch 路径和 curve 路径各自执行:
- 组内自注意力:同类元素之间交换信息(patch-patch 或 curve-curve)
- 跨组交叉注意力:从图像 token 和另一类元素中检索上下文信息
- LayerNorm + FFN + 残差连接
经过多层后得到精炼的 token:\(T_p \in \mathbb{R}^{N_p \times D}\) 和 \(T_c \in \mathbb{R}^{N_c \times D}\)。
三个解码头:
(1) 概率预测头¶
通过3层MLP + Sigmoid预测每个查询是否对应有效元素:
低概率元素通过阈值 \(\epsilon_p\)、\(\epsilon_c\) 过滤,并经拓扑精炼得到二值有效掩码 \(\boldsymbol{\sigma}_p^{\star}\)、\(\boldsymbol{\sigma}_c^{\star}\)。
(2) 几何预测头(HyperNetwork)¶
这是一个关键创新:不直接回归点坐标,而是用超网络(HyperNetwork)生成参数化映射MLP的权重。
对于曲线,超网络 \(f_c^{\text{geo}}\) 根据 token \(T_c^i\) 生成一个3层MLP,将 \([0,1]\) 映射到 \(\mathbb{R}^3\):
对于曲面片,超网络 \(f_p^{\text{geo}}\) 生成的MLP将 \([0,1]^2\) 映射到 \(\mathbb{R}^3\):
超网络的优势:
- 训练时可在任意密度均匀采样,不影响几何的光滑性和连续性
- 推理时支持自适应采样密度——小面片稀采、大面片密采,产生近均匀的3D点分布
- 每个 token 参数化一个独立的连续映射,编码丰富的形状信息
(3) 连通性预测头¶
预测 patch \(i\) 和 curve \(j\) 之间的连接概率:
通过线性投影后做点积再 Sigmoid,得到邻接矩阵 \(\sigma_{pc}\),经阈值 \(\epsilon_{\text{adj}}\) 过滤和拓扑精炼得到最终的二值连接矩阵 \(\sigma_{pc}^{\star} \in \{0,1\}^{N_p \times N_c}\)。
2D 图案预测(组内注意力展平)¶
给定有效的 patch/curve token 和精炼后的拓扑,这个模块将3D结构"展平"为2D缝纫图案。
核心思路:根据 \(\sigma_{pc}^{\star}\),将每个有效 patch token 与其相连的 curve token 分为一组,在组内执行注意力操作。
具体流程:
- 组内的 curve token 先自注意力交换信息
- 再与关联的 patch token 做交叉注意力
- 经 LayerNorm + FFN + 残差连接后,得到 edge token \(T_e\)
对每条连接的曲线 \(j \in \partial_i\),用另一个超网络生成MLP,将1D参数映射到归一化2D坐标:
尺度恢复:由于2D面板在 \([0,1]^2\) 归一化空间中预测,额外引入一个MLP \(f_p^{\text{scale}}\) 从 patch token 预测缩放因子 \(s_i\),乘以归一化坐标恢复真实物理尺寸。
几何精炼:由于超网络不保证相邻边端点完美对齐,后处理步骤强制边缘闭合,使面板形成封闭回路,可直接用于三角化和仿真。
损失函数¶
通过匈牙利匹配建立预测元素与真值的对应关系,总损失包含三项:
几何损失(Chamfer Distance):
对所有参数化映射(patch、curve、edge)输出的点集与真值计算倒角距离。
分类与连通性损失(BCE):
尺度损失(\(\ell_2\)):
实验¶
数据集:GCD-TS¶
在 GarmentCodeData (GCD) 基础上扩展,主要改进:
- 替换了 GCD 中包含强缝线线索的默认纹理,改用约50种 BEDLAM 人体纹理和大量可平铺(tileable)服装纹理
- 每个服装-人体配对从4个视角(前/后/左/右)渲染,带小尺度相机姿态扰动
- 总计约 100,000 个带纹理的多视图样本,覆盖广泛的复杂几何与拓扑
主实验结果¶
| 指标 | AIpparel-MV | ReWeaver | 说明 |
|---|---|---|---|
| \(\text{Acc}_p\) ↑ 面板数准确率 | 0.4561 | 0.8923 | ReWeaver 高出 +43.6% |
| \(\text{Acc}_e\) ↑ 边数准确率 | 0.6774 | 0.6570 | 两者相当 |
| \(\text{Acc}_o\) ↑ 整体拓扑准确率 | 0.3090 | 0.5863 | ReWeaver 高出 +27.7% |
| \(\text{CD}_e\) ↓ 2D边倒角距离 | 0.0648 | 0.0395 | 几何更精确 |
| IoU ↑ 面板交并比 | 0.7084 | 0.8080 | 高出 +10.0% |
ReWeaver 在6项指标中5项显著优于多视图增强的 AIpparel(AIpparel-MV),尤其在面板数准确率上从45.6%跃升到89.2%,表明模型能更可靠地识别服装的拓扑结构。
消融实验:拓扑与几何精炼的效果¶
| 配置 | \(\text{CD}_p^{\text{base}}\) ↓ | \(\text{CD}_p^{\text{adapt}}\) ↓ | \(\text{CD}_c\) ↓ | \(\text{Acc}_p\) ↑ | \(\text{Acc}_e\) ↑ | \(\text{Acc}_o\) ↑ | \(\text{CD}_e\) ↓ | IoU ↑ |
|---|---|---|---|---|---|---|---|---|
| 有精炼 | 0.0225 | 0.0187 | 0.0264 | 0.8923 | 0.6570 | 0.5863 | 0.0395 | 0.8080 |
| 无精炼 | 0.0225 | 0.0188 | 0.0255 | 0.9101 | 0.5361 | 0.4880 | 0.0416 | 0.7775 |
关键发现:
- 拓扑精炼移除冗余/重复边,使边数准确率(\(\text{Acc}_e\))从53.6%提升到65.7%(+12.1%),整体准确率从48.8%提升到58.6%(+9.8%)
- 几何精炼闭合2D空间中边缘间的细小间隙,产生完全封闭的面板边界,使 IoU 从77.8%提升到80.8%
- 精炼对3D几何指标影响很小(\(\text{CD}_p\)、\(\text{CD}_c\) 几乎不变),说明它主要改善了拓扑一致性和2D面板质量
- 注意无精炼时 \(\text{Acc}_p\) 反而略高(0.91 vs 0.89),因为精炼会移除一些被误认为冗余的有效元素,但整体拓扑质量仍有大幅提升
自适应采样¶
- 训练时使用固定 \(20\times20\) 的面片采样密度
- 推理时先预采样 \(20\times20\) 网格,再根据空间方差自适应保留点。小面片剔除过密的点,大面片保持密集采样
- 自适应采样后的 \(\text{CD}_p^{\text{adapt}}\) 从0.0225降至0.0187,证明自适应策略有效
亮点¶
- ⭐ 首次联合重建:同时输出3D服装几何与2D缝纫图案,并维护显式的2D-3D对应关系,使输出直接可用于物理仿真
- ⭐ 超网络参数化:用 HyperNetwork 生成连续参数化映射,推理时支持任意密度采样和自适应采样,兼具灵活性与几何光滑性
- ⭐ 双路径 Transformer:patch/curve 双路径的自注意力+交叉注意力设计,有效融合多视图图像证据与结构几何约束
- ⭐ GCD-TS 数据集:10万级规模,修复了原GCD中纹理泄漏缝线信息的问题,提升泛化能力
- ⭐ 面板数准确率 89.2%,远超基线的 45.6%,拓扑泛化能力强
局限性¶
- 高质量复杂拓扑+真实感纹理的3D服装数据仍然稀缺,实验输入存在明显的仿真-真实域差距(sim-to-real gap)
- 边数准确率(\(\text{Acc}_e = 0.657\))相对面板数准确率偏低,说明细粒度拓扑预测仍有较大改进空间
- 缺少真实世界图像的定量评估,仅在合成数据集上验证
- 几何精炼依赖后处理启发式规则,不保证百分百闭合成功
- 视图数固定为4个标准视角(前后左右),对更自由的拍摄条件未做充分验证
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次将3D几何+2D缝纫图案+拓扑连接联合建模,超网络参数化设计优雅
- 实验充分度: ⭐⭐⭐ — 合成数据上验证全面但缺少真实图像评估,基线仅对比了一个方法
- 写作质量: ⭐⭐⭐⭐ — 术语定义清晰,2D/3D双空间描述到位,框架图易懂
- 价值: ⭐⭐⭐⭐ — 直接输出可仿真资产,对数字人/虚拟试穿/机器人操作领域有实际价值
相关论文¶
- [CVPR 2026] MotionAnymesh: Physics-Grounded Articulation for Simulation-Ready Digital Twins
- [CVPR 2026] PhysHead: Simulation-Ready Gaussian Head Avatars
- [CVPR 2026] SwiftTailor: Efficient 3D Garment Generation with Geometry Image Representation
- [AAAI 2026] Pb4U-GNet: Resolution-Adaptive Garment Simulation via Propagation-before-Update Graph Network
- [CVPR 2025] SimAvatar: Simulation-Ready Avatars with Layered Hair and Clothing