WIR3D: Visually-Informed and Geometry-Aware 3D Shape Abstraction¶

会议: ICCV 2025
arXiv: 2505.04813
代码: 即将发布
领域: 人体理解
关键词: 3D形状抽象, Bézier曲线, CLIP引导, 纹理抽象, 形状变形

一句话总结¶

WIR3D 通过优化一组 3D Bézier 曲线参数，在 CLIP 中间层激活的空间引导下，从任意视角忠实表示 3D 形状的几何结构和视觉显著特征（包括纹理），实现稀疏但语义丰富的 3D 形状抽象。

研究背景与动机¶

将 3D 形状抽象为一组稀疏的语义有意义的曲线是一个重要但困难的问题。关键挑战在于找到能最佳表示形状视觉特征（包括几何和纹理）的稀疏曲线集合。

现有方法的不足：

遮挡轮廓（Occluding Contours）：经典的非真实感渲染方法，完全依赖表面几何分析，只能提取低级几何轮廓，无法捕捉高级语义概念和纹理。且是 2D 表示，视角不一致，密集视角渲染时产生闪烁伪影

反投影方案的局限：将多视角 2D 轮廓反投影到 3D 会产生密集且不美观的线条簇（如简单圆柱体），且完全无法处理纹理

3Doodle 等基于 3D 笔画的方法：主要基于全局 CLIP 监督，对细节（面部特征、纹理模式）不敏感，缺乏空间引导和几何约束

作者指出，真正的 3D 形状抽象需要同时捕捉：视觉显著的几何结构、高级纹理概念（如龙鳞、西瓜籽）以及关键特征（如面部特征），且需要多视角一致性。

方法详解¶

整体框架¶

WIR3D 采用两阶段优化：

Stage I（几何抽象）：优化一组曲线表示形状的整体几何结构
Stage II（纹理抽象）：冻结几何曲线，新增曲线表示纹理和视觉细节

不同阶段使用不同的 CLIP 架构：RN101 对几何结构敏感，RN50x64 对高级视觉概念敏感。

曲线表示¶

3D 笔画建模为三阶 Bézier 曲线集合 \(\{B_i\}_{i=1}^n\)，每条曲线由 4 个控制点定义：

\[B(t) = (1-t)^3 p^0 + (1-t)^2 t p^1 + (1-t)t^2 p^2 + t^3 p^3\]

通过透视投影 3D 控制点到 2D，使用 DiffVG 进行可微分光栅化。

语义损失¶

基于 CLIPasso 的思路，比较渲染笔画与目标形状的 CLIP 编码：

\[\mathcal{L}_{\text{semantic}} = \lambda_{\text{fc}} \text{dist}(\text{CLIP}(I_{\text{curve}}), \text{CLIP}(I_{\text{target}})) + \sum_{l=3,4} \|\text{CLIP}_l(I_{\text{curve}}) - \text{CLIP}_l(I_{\text{target}})\|_2^2\]

其中 \(\text{CLIP}_l\) 是第 \(l\) 层中间激活，\(\text{dist}\) 为余弦距离。

局部关键点损失（核心创新）¶

为了捕捉细粒度特征，引入基于 3D 关键点的空间加权框架。关键点可由用户指定或通过 Backto3D 特征反投影 + KMeans 自动检测。

为每个视角构建权重图，使用从关键点中心的高斯衰减：

\[I_{\text{weight}}(x,y) = 1 + \sum_p e^{\frac{-\|(x,y) - p\|^2}{2\sigma^2}}\]

加 1 确保远离关键点的区域仍有贡献。维护 z-buffer 处理关键点遮挡。

最终局部关键点损失：

\[\mathcal{L}_{\text{local}} = \lambda_{\text{fc}} \bar{I}_{\text{weight}} \text{dist}(\text{CLIP}(I_{\text{curve}}), \text{CLIP}(I_{\text{target}})) + \sum_{l=3,4} \|I_{\text{weight}} \cdot (\text{CLIP}_l(I_{\text{curve}}) - \text{CLIP}_l(I_{\text{target}}))\|_2^2 + \lambda_{\text{lpips}} \text{LPIPS}(I_{\text{curve}}, I_{\text{target}})\]

SDF 正则化¶

使用神经 SDF（MLP 拟合形状的有符号距离场）约束曲线贴近目标表面：

\[\mathcal{L}_{\text{SDF}} = \frac{1}{n \cdot k}\sum_{i=1}^{n}\sum_{k=1}^{s} |\phi(B_i(t_k))|\]

视图正则化¶

确保所有曲线在所有采样视角都可见：

\[\mathcal{L}_{\text{ndc}} = \sum_{i=1}^{n}\sum_t \text{ReLU}(\mathcal{P}(B_i(t)) - 1) + \text{ReLU}(-\mathcal{P}(B_i(t)))\]

两阶段优化¶

Stage I（几何）：使用 Freestyle 渲染的无纹理目标，损失为 \(\mathcal{L}_I = \mathcal{L}_{\text{semantic}} + 0.1 \cdot \mathcal{L}_{\text{SDF}} + \mathcal{L}_{\text{ndc}}\)

Stage II（纹理）：冻结 Stage I 曲线，新增曲线使用带纹理渲染的目标，损失为 \(\mathcal{L}_{II} = \mathcal{L}_{\text{local}} + \mathcal{L}_{\text{SDF}} + \mathcal{L}_{\text{ndc}}\)

实验¶

与基线方法的定量比较¶

方法	LPIPS ↓	CLIP\(^{\text{img}}\) ↑	User Rank ↑	Coverage ↓
NEF	0.313	0.86	-	0.056
3Doodle	0.246	0.900	0.12	0.020
WIR3D	0.227	0.909	0.88	0.008

用户研究（\(N=96\)）中 WIR3D 被选为更好抽象的比例为 88%。Coverage（曲线到表面的单向 Chamfer 距离）比 3Doodle 降低 2x 以上。

消融实验¶

配置	LPIPS ↓	CLIP\(^{\text{img}}\) ↑	Coverage ↓
WIR3D (Full)	0.227	0.909	0.008
w/o SDF	0.229	0.904	0.012
w/o Local Keypoint	0.233	0.905	0.009
w/o Stage 1	0.248	0.900	0.016
w/o CLIP Layers	0.294	0.891	0.012

关键发现¶

CLIP 中间层最关键：移除中间层激活导致质量下降最大（LPIPS 从 0.227 到 0.294），说明空间化的语义特征比全局 CLIP 编码更具信息量
两阶段设计必要：去掉 Stage I 导致优化偏向特定视角，产生"扁平化"效果
关键点鲁棒性：随机关键点的结果类似于不使用关键点损失（退化为 Eq. 2），有意义的关键点则严格提升结果
抽象级别控制：曲线数量自然控制抽象程度——更多曲线捕捉更多细节
野外重建鲁棒：对有大量几何缺陷的照片重建模型也能成功抽象

应用¶

交互式特征控制：用户通过选择关键点逐步添加细节（如飞机车轮、Nefertiti 头带）
形状变形：曲线作为直觉的变形手柄，基于欧氏距离蒙皮权重将变形传递到表面。用户研究（\(N=42\)）中 WIR3D 变形被认为更理想的比例为 80%

亮点与洞察¶

利用不同 CLIP 架构对几何 vs. 语义概念的差异敏感性是巧妙的设计选择
关键点 → 空间权重图 → 加权 CLIP 中间层损失的流程，是将 2D 视觉基础模型知识精确引导到 3D 的优雅方案
SDF 正则化不仅保证几何保真，还意外赋予了曲线作为变形手柄的能力
方法对输入网格质量和拓扑无要求，实用性强

局限性¶

质量依赖关键点质量，Random Keypoints 时效果退化到无关键点水平
预处理耗时长：神经 SDF 拟合 + 自动关键点检测 + Freestyle 渲染对复杂模型可达 2 小时
默认每阶段 20 条曲线的设定可能对几何极复杂的形状不足
优化过程纯基于 CLIP 渲染对比，无法保证对所有纹理类型的可靠抽象

评分¶

维度	分数
创新性	⭐⭐⭐⭐
有效性	⭐⭐⭐⭐
清晰度	⭐⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐
总评	8.0/10