ARM: Appearance Reconstruction Model for Relightable 3D Generation¶

会议: CVPR 2025
arXiv: 2411.10825
代码: https://arm-aigc.github.io (有)
领域: 3D视觉 / 3D生成
关键词: 3D重建, 外观分解, PBR材质, UV纹理空间, 重光照

一句话总结¶

提出ARM框架，将几何和外观生成解耦，在UV纹理空间中通过反投影和全局感受野网络重建高质量纹理，并引入材质先验解决稀疏视角下材质与光照的歧义性，仅用8张H100训练即在GSO和OmniObject3D上超越现有方法。

研究背景与动机¶

从2D图像生成高质量3D模型（带真实外观）是计算机视觉和图形学的核心任务。现有方法在几何重建方面已取得显著进展，但外观质量仍然不足——基于LRM的方法使用triplane表示，受限于分辨率和MLP解码的模糊性，重建纹理缺少细节；而大多数方法仅输出不含物理属性的顶点颜色（baked-in），无法支持动态光照下的重光照需求。核心矛盾在于：triplane的空间变化与物体表面纹理变化不直接对应，且稀疏视角下材质与光照的分离本质上是病态问题。本文的切入角度是：将外观处理搬到UV纹理空间——直接在物体表面上学习纹理，绕开triplane分辨率瓶颈；同时引入材质先验帮助分解光照和材质。

方法详解¶

ARM将3D重建任务分为几何阶段和外观阶段，几何由GeoRM生成mesh，外观由InstantAlbedo（漫反射）和GlossyRM（光泽度/金属度）分别处理。

整体框架¶

输入为扩散模型生成的稀疏多视角图像（6个视角）。GeoRM基于transformer的triplane合成器预测密度场，用可微Marching Cubes提取mesh。Mesh解包到UV空间后，InstantAlbedo将多视角图像反投影到UV纹理空间，通过U-Net提取逐视角特征，max-pooling融合后用FFCNet填补未见区域，最终输出baked颜色和分解的漫反射albedo。GlossyRM则在mesh顶点上查询triplane预测粗糙度和金属度。

关键设计¶

几何-外观解耦 (GeoRM + GlossyRM):
- 功能：分离几何和外观的生成，各自用专用网络处理
- 核心思路：GeoRM专注于密度预测（用mask/depth/normal监督），训练完后冻结权重；GlossyRM以GeoRM的mesh为条件，查询自己的triplane预测逐顶点粗糙度 \(\rho\) 和金属度 \(m\)。两者共享LRM架构但独立训练
- 设计动机：单一LRM同时预测所有目标（密度+颜色+材质）会导致显著质量下降，特别是材质参数更难推断。解耦后每个模型容量更充裕，还允许将triplane分辨率提升到 \(256 \times 256\)
UV纹理空间外观分解 (InstantAlbedo):
- 功能：在UV空间重建高质量漫反射albedo纹理
- 核心思路：将6个视角的图像、辅助数据（mask、位置、纹理坐标、视线方向、法线）和材质编码反投影到UV纹理空间，得到6组UV-space input maps。U-Net提取逐视角特征后max-pooling融合，再用FFCNet（具有全局感受野）填补未见区域并精炼，输出baked颜色和分解albedo
- 设计动机：triplane空间的颜色变化不直接对应表面纹理变化，导致MLP解码模糊。UV空间直接表示表面颜色变化，绕开了分辨率和插值失配问题。FFCNet的全局感受野对仅6视角的补全至关重要
材质先验 (Material Prior):
- 功能：解决稀疏视角下材质与光照的固有歧义
- 核心思路：基于DINO ViT-8×8的图像编码器，在语义材质数据集上预训练后集成到InstantAlbedo的反投影流程中。将输入图像转换为材质感知特征图，与其他辅助信息一起反投影到UV空间，帮助网络区分光照效果和材质属性
- 设计动机：仅靠渲染损失做逆渲染在稀疏视角下必然失败——光照效果会bake进albedo。材质先验提供语义层面的"什么看起来像某种材质"的信息，即使有强光照也能正确分解

损失函数 / 训练策略¶

GeoRM：\(\mathcal{L}_{geo} = \lambda_z |z^{gt} - \hat{z}| + \lambda_M \mathcal{L}_{mse}(M^{gt}, \hat{M}) + \lambda_n \mathcal{L}_{lpips}(\mathbf{n}^{gt}, \hat{\mathbf{n}})\)
GlossyRM：\(\mathcal{L}_{glossy} = \mathcal{L}_0(\rho^{gt}, \hat{\rho}) + \mathcal{L}_0(m^{gt}, \hat{m})\)，其中 \(\mathcal{L}_0 = \lambda_1 \mathcal{L}_{mse} + \lambda_2 \mathcal{L}_{lpips} + \lambda_3 \mathcal{L}_{ssim}\)
InstantAlbedo：\(\mathcal{L}_{albedo} = \mathcal{L}_0(\mathbf{c}^{gt}, \hat{\mathbf{c}}) + \mathcal{L}_0(\mathbf{c_d}^{gt}, \hat{\mathbf{c_d}})\)，直接拟合GT材质而非渲染损失
训练在8张H100上约5天：GeoRM 2天，GlossyRM 2天，InstantAlbedo 1天（与GlossyRM可并行）

实验关键数据¶

主实验¶

数据集	指标	ARM (本文)	MeshFormer	InstantMesh	SF3D	提升
GSO (1030 shapes)	F-Score↑	0.968	0.966	0.938	0.888	SOTA
GSO	PSNR↑	21.692	20.500	19.744	18.540	+1.19dB
GSO	LPIPS↓	0.137	0.141	0.146	0.175	最优
OmniObject3D (1038)	F-Score↑	0.936	0.927	0.877	0.857	SOTA
OmniObject3D	PSNR↑	20.874	19.402	19.193	18.529	+1.47dB
重光照数据集	PSNR-A↑	21.750	-	-	18.592	+3.16dB

消融实验¶

配置	PSNR-A↑	LPIPS-A↓	PSNR-D↑	LPIPS-D↓	说明
完整方法	25.074	0.096	24.116	0.098	基准
无反投影测量	24.780	0.104	23.398	0.114	直接图像信息重要
无材质先验	24.471	0.108	22.687	0.121	albedo分解质量显著下降
无FFCNet	24.612	0.110	23.360	0.123	未见区域填补能力下降

关键发现¶

ARM在几何和纹理质量上全面超越现有方法，纹理PSNR提升1-3dB
材质先验移除导致albedo质量下降最大（PSNR-D -1.43），证明仅靠渲染损失无法正确分解
FFCNet对未见区域补全至关重要，用局部感受野U-Net替代会引入伪影
SF3D生成恒定粗糙度/金属度，而ARM能重建空间变化的材质属性

亮点与洞察¶

UV空间是外观建模的正确选择——直接在表面上操作避免了triplane的间接性问题
材质先验的设计很巧妙：不是直接预测材质，而是提供"什么看起来像金属/木头"的语义信息辅助分解
解耦几何和外观的策略简单但有效，让每个子模型专注于更小的任务
仅需8张GPU即可训练，在资源需求上比很多3D生成方法更友好

局限与展望¶

上游多视角扩散模型生成的不一致视角会导致纹理伪影
UV解包过程耗时，无法在线训练（需预处理数据集）
未考虑开放式光照条件（所有训练数据使用特定环境光）
可以探索根据用户偏好加权输入视角来解决视角冲突

补充分析¶

训练数据与泛化性¶

GeoRM和GlossyRM训练在Objaverse的150K子集上，InstantAlbedo用其中55K生成shapes
在GSO、OmniObject3D和自定义重光照数据集上评估，所有物体均为训练时未见过的
为每个评估物体生成144张图像（24视角×6种环境光），重光照评估设置严谨

UV空间操作的局限与优势对比¶

优势：像素直接对应表面颜色，避免了triplane的间接映射和分辨率瓶颈
优势：U-Net和FFCNet可直接在2D texture map上操作，利用成熟的2D网络架构
局限：UV解包本身是一个非平凡操作，不同拓扑结构的mesh解包质量不同

评分¶

新颖性: ⭐⭐⭐⭐ UV空间外观分解+材质先验的组合有创新性，但各组件思路相对直觉
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、多种指标、消融实验和定性对比非常充分
写作质量: ⭐⭐⭐⭐ 流程清晰，图表精美，motivation阐述到位
价值: ⭐⭐⭐⭐⭐ 可重光照3D生成是实际应用（游戏/元宇宙）的刚需，方法质量显著领先