REPARO: Compositional 3D Assets Generation with Differentiable 3D Layout Alignment¶

会议: ICCV 2025
arXiv: 2405.18525
代码: 项目页
领域: 3D视觉
关键词: 组合式3D生成, 可微渲染, 最优传输, 布局对齐, 多物体场景

一句话总结¶

提出REPARO，通过先分别重建单个物体3D网格再利用基于最优传输的可微渲染进行布局对齐，实现从单张图像生成多物体组合式3D资产。

研究背景与动机¶

现有image-to-3D生成模型在多物体场景中面临根本性困难：

数据集偏差：3D训练数据大多为居中对齐的单物体，预处理会重新居中输入，引入固有的位置偏差

遮挡处理困难：被遮挡物体被错误表示为融合实体，导致生成的资产错误合并

整体式网格表示：输出为单一网格，用户必须通过容易出错的后处理来分割各物体

REPARO的核心思路：分而治之——先利用现有模型的单物体生成优势分别重建，再通过可微渲染优化布局。

方法详解¶

整体框架¶

两阶段流水线： 1. 单物体重建：从输入图像提取各物体 → 补全被遮挡部分 → 使用off-the-shelf模型生成3D资产 2. 布局对齐：将所有物体放入统一坐标系 → 通过可微渲染优化空间排列

单物体提取与重建¶

使用SAM分割各物体获取二值mask
被遮挡物体通过Stable-Diffusion-based inpainting补全
调整图像使物体居中（适配模型的中心偏差）
使用DreamGaussian或TripoSR生成3D资产

基于最优传输的远程外观损失¶

传统像素级 \(L_2\) 损失在渲染图和参考图无重叠区域时梯度为零，优化陷入局部极小。引入最优传输建立全局对应：

代价函数综合RGB颜色、深度和位置：

\[c_{ij} = \alpha \cdot \|I_i - I_j^{ref}\|_2 + \beta \cdot \|D_i - D_j^{ref}\|_2 + \gamma \cdot \|p_i - p_j\|_2\]

通过Sinkhorn散度求解运输矩阵 \(T\)，建立一对一映射 \(\sigma(\cdot)\)，损失为：

\[L_a(I, I^{ref}) = \frac{1}{N} \sum_i^N c_{i\sigma(i)}\]

梯度传播：

\[\frac{\partial L_a}{\partial \theta} = \frac{\partial L_a}{\partial I} \cdot \frac{\partial I}{\partial \theta} + \frac{\partial L_a}{\partial D} \cdot \frac{\partial F_D}{\partial I} \cdot \frac{\partial I}{\partial \theta} + \frac{\partial L_a}{\partial p} \cdot \frac{\partial p}{\partial \theta}\]

高级语义损失¶

利用冻结的DINO-v2提取特征，对齐渲染图与参考图的语义关系：

\[L_s(I, I^{ref}) = \frac{1}{K} \sum_i^K \|f_i - f_i^{ref}\|_2\]

总损失¶

\[L(I, I^{ref}) = \lambda L_a(I, I^{ref}) + (1-\lambda) L_s(I, I^{ref})\]

优化参数为各物体的平移 \(t\) 和缩放 \(s\)，不包含旋转（image-to-3D模型已保持朝向一致）。

实验¶

主实验 - 组合式3D资产生成¶

方法	CLIP↑	PSNR↑	SSIM↑	LPIPS↓
DreamGaussian	0.807	13.28	0.802	0.240
TripoSR	0.795	17.25	0.863	0.218
Wonder3D	0.801	13.69	0.807	0.238
REPARO♣	0.833	17.28	0.826	0.234
REPARO♠	0.822	17.75	0.865	0.216

REPARO在CLIP得分上显著提升，验证了组合式方法对语义一致性的改善。

资源消耗¶

阶段	显存	时间
SAM分割	6GB	<1s
Inpainting	8GB	20s
单物体生成(TripoSR)	6GB	<1s
布局对齐	6GB	90s
总计(TripoSR)	≤8GB	120s

REPARO在显存≤8GB的约束下完成全流程，具有较好的实用性。

亮点与洞察¶

问题分解策略精巧：充分利用现有单物体模型的优势，避免了多物体联合生成的固有困难
最优传输解决梯度消失：OT损失提供远程对应关系，解决了标准L2损失在非重叠区域梯度为零的问题
多模态代价函数：同时考虑RGB、深度和位置三种信号增强对齐鲁棒性
即插即用：可结合任意image-to-3D模型使用

局限性¶

依赖SAM和inpainting模型的质量，补全效果影响单物体重建
对严重遮挡（大面积被遮挡）的物体补全能力有限
未优化旋转参数，假设image-to-3D模型输出朝向与输入一致
Sinkhorn算法在大图像上的计算开销较大

评分¶

新颖性: ⭐⭐⭐⭐ (OT+可微渲染的布局对齐很新颖)
技术深度: ⭐⭐⭐⭐ (损失函数设计精巧)
实验充分度: ⭐⭐⭐ (定量实验可更丰富)
实用价值: ⭐⭐⭐⭐ (实际多物体场景有需求)