DAViD: Data-efficient and Accurate Vision Models from Synthetic Data¶

会议: ICCV 2025
arXiv: 2507.15365
代码: 项目主页
领域: 3d_vision
关键词: 合成数据, 深度估计, 表面法线估计, 前景分割, DPT, 高保真标注
作者: Fatemeh Saleh, Sadegh Aliakbarian, Charlie Hewitt 等 (Microsoft, Cambridge)

一句话总结¶

证明通过高保真程序化合成数据即可训练出精度媲美基础模型（如 Sapiens-2B）的以人为中心的稠密预测模型，仅需 30 万合成图像、0.3B 参数、训练成本不到同级方案的 1/16，在深度估计、表面法线估计、软前景分割三项任务上实现 SOTA 或近 SOTA 性能。

研究背景与动机¶

以人为中心的计算机视觉在深度估计、法线估计、前景分割等稠密预测任务上的标注获取极为困难：

人工标注不可行：逐像素的深度/法线标注对人类来说几乎不可能

实验室采集受限：复杂相机阵列或专用传感器获取的标注基于光度测量或噪声传感器，保真度有限

实验室多样性不足：受限于拍摄环境，难以覆盖真正的 in-the-wild 场景

现有方法计算成本高：Sapiens 预训练最大变体需要 1024 块 A100 训练 18 天，DepthPro 使用多阶段混合训练

关键观察：现有扫描式合成数据（如 THuman）的网格质量有限，尤其在头发、眼睛、手指等细节区域存在严重瑕疵。而程序化合成数据可以同时提供高保真度和完美标注。

本文的核心主张：数据质量 >> 数据数量 + 模型大小——用高质量合成数据训练简单模型即可匹敌大规模基础模型。

方法详解¶

SynthHuman 数据集¶

基于 Hewitt et al. 的程序化数据生成管线，包含： - 30 万张图像，分辨率 384×512 - 面部、上半身、全身场景各占 1/3 - 每张图像附带深度、表面法线、软前景掩码真值 - 数据多样性覆盖姿态、环境、光照、外观 - 渲染时间：300 台 M60 GPU 机器 72 小时（等价 4 块 A100 约 2 周）

与扫描式合成数据（THuman, RenderPeople）对比：SynthHuman 在头发丝、眼镜、衣物褶皱等细节上具有显著更高的标注保真度，且无扫描伪影。

模型架构¶

采用统一架构处理三项任务，基于 DPT (Dense Prediction Transformer) 改进：

编码器 (Encoder)：ViT 骨干，使用 $\text{Read}_{proj}$ 读出操作： $$e^l = \text{mlp}(\text{cat}(\texttt{CLS}^l, t_i^l))$$

缩放器 (Resizer)：轻量级全卷积图像编码器，在原始分辨率上提取特征，避免高分辨率输入时 ViT 的二次复杂度开销。ViT 编码器固定接收 384×384 输入。

解码器 (Decoder)：融合三路输入——上一解码块输出 $d$、编码器特征 $e$、缩放器特征 $r$： $$d_{\text{int}}^l = \text{RConv}(d^{l-1} + \text{Interp}(\text{RConv}(e^l)))$$ $$d^l = \text{Conv}([r^l, \text{Interp}(d_{\text{int}}^l)])$$

卷积头：不同任务输出通道数不同（深度 1、分割 1、法线 3）。

Resizer 的设计使得推理时编码器计算量恒定，高分辨率信息由轻量卷积处理，远优于增加 ViT token 数的方案。

损失函数¶

软前景分割：$\mathcal{L}_\alpha = \mathcal{L}_{\text{BCE}} + \mathcal{L}_{L1} + \mathcal{L}_{\text{dice}} + \omega_{\text{lap}} \mathcal{L}_{\text{lap}}$

表面法线估计：$\mathcal{L}_\eta = 1 - \eta \cdot \hat{\eta}$（余弦相似度，仅在前景区域计算）

深度估计：$\mathcal{L}_d = \mathcal{L}_{\text{MSE}}(s\hat{d}+t, d) + \omega_{\text{grad}} \mathcal{L}_{\text{grad}}(s\hat{d}+t, d)$ （shift-and-scale-invariant + 梯度监督，仅前景区域）

实验关键数据¶

主实验：深度估计¶

方法	GFLOPs	参数量	Goliath-Face RMSE↓	Goliath-Full RMSE↓	Hi4D RMSE↓	平均 AbsRel↓
MiDaS-DPT_L	-	0.34B	0.224	0.973	0.148	0.027
DepthAnythingV2-L	1827	0.34B	0.229	1.039	0.130	0.025
Sapiens-0.3B	1242	0.34B	0.179	0.690	0.116	0.021
Sapiens-2B	8709	2.16B	0.158	0.266	0.095	0.015
DepthPro	4370	0.50B	0.295	0.723	0.084	0.016
Ours-Base	344	0.12B	0.142	0.376	0.085	0.014
Ours-Large	663	0.34B	0.140	0.334	0.072	0.012

Ours-Large 以 663 GFLOPs 达到与 Sapiens-2B（8709 GFLOPs）相当的精度，计算量仅为 1/13
0.12B 的 Base 模型已超过 0.34B 的 DepthAnythingV2-L 和 Sapiens-0.3B
约 48 FPS on A100

表面法线估计¶

方法	Goliath-Face Mean↓	Goliath-Full Mean↓	Hi4D Mean↓
Sapiens-0.3B	18.86°	15.72°	15.04°
Sapiens-2B	16.04°	11.49°	12.14°
Ours-Large	17.15°	14.60°	15.37°

0.34B 模型性能超过同尺寸 Sapiens-0.3B
作者指出 Goliath/Hi4D 的真值标注本身较粗糙（口腔内部、衣物褶皱等细节缺失），模型预测反而捕获了更多细节

软前景分割¶

方法	PhotoMatte85 SAD↓	PhotoMatte85 MSE↓	PPM-100 SAD↓
MODNet	13.94	0.003	104.35
P3M-Net	20.05	0.007	142.74
Ours	5.85	0.0009	78.17

消融实验¶

消融维度	变量	Goliath RMSE↓	Hi4D RMSE↓
数据源	THuman2.0	0.495	0.137
	RenderPeople	0.278	0.076
	SynthHuman	0.253	0.072
数据量	60K	0.324	0.101
	150K	0.305	0.085
	300K	0.278	0.085
模型尺寸	ViT-Small	0.310	0.089
	ViT-Base	0.278	0.085
	ViT-Large	0.253	0.072

关键发现： - 数据质量差异巨大：SynthHuman 相比 THuman2.0，Goliath RMSE 从 0.495 降至 0.253（48% 下降） - 数据量从 60K→300K 有持续增益 - 多任务训练在某些指标（如 PPM-100 分割 SAD 66.08 vs 78.17）甚至优于单任务

亮点与洞察¶

数据为王的实证：在同等模型架构下，高保真合成数据可以弥补数据量和模型尺寸的不足——0.12B 模型超越 0.34B 的通用基础模型
统一架构三任务：仅改变输出通道数和损失函数，无需任务特定设计
Resizer 模块的效率设计：固定 ViT 输入尺寸 + 轻量卷积处理原始分辨率，避免 ViT token 增长的二次开销
合成数据的隐含优势：数据溯源、使用权、用户同意有强保障，且可通过程序控制数据多样性来应对公平性问题
真值标注质量的反思：论文发现 Goliath/Hi4D 等真实数据集的标注反而比模型预测更粗糙，暗示当前评估可能存在天花板效应

局限性¶

仅限以人为中心场景：模型和数据集专门设计用于人体相关任务，不适用于通用视觉
依赖高质量合成管线：程序化数据生成管线本身需要大量艺术创建的资产（配饰、衣物、环境）
评估上的天花板效应：当预测质量超过真值时，指标可能低估实际性能
缺乏与最新方法的对比：如 Depth Anything V2 的蒸馏策略未被充分讨论

评分¶

新颖性: ⭐⭐⭐ — 核心贡献在数据和工程层面，模型架构为 DPT 改进，方法论创新度一般
实验: ⭐⭐⭐⭐⭐ — 三任务全面评估，消融详尽（数据源/数据量/模型尺寸/多任务），FLOPs 对比清晰
写作: ⭐⭐⭐⭐ — 论述清晰，Figure 2/4 的真值对比直观有力
价值: ⭐⭐⭐⭐ — 对"数据中心AI"范式有直接实证支持，开源数据集和模型增强了可复现性