CustomTex: High-fidelity Indoor Scene Texturing via Multi-Reference Customization¶

会议: CVPR 2026 arXiv: 2603.19121 代码: https://chenweilinx.github.io/CustomTex/ 领域: 3D视觉 关键词: 室内场景纹理, 多参考图像定制, 双蒸馏, VSD优化, 实例级控制

一句话总结¶

提出CustomTex框架，通过实例级的多参考图像驱动和双蒸馏训练策略（语义级VSD蒸馏+像素级超分蒸馏），实现3D室内场景的高保真、实例可控纹理生成，在语义一致性、纹理清晰度和减少"烘焙阴影"方面全面超越现有方法。

研究背景与动机¶

创建逼真的3D室内场景纹理是VR/AR、建筑可视化和电影制作的基石。现有方法的痛点：（1）文字驱动方法（SceneTex、TEXture等）语义模糊，无法传达精确视觉特征（如布料纹理、木纹、壁纸图案）；（2）即使用单张参考图做驱动也只能提供全局粗粒度控制；（3）纹理质量不足——模糊、伪影多，且扩散模型会学习训练数据的光照信息产生"烘焙阴影（baked-in shading）"，不适合不同光照渲染。

核心矛盾：扩散过程中语义控制和像素质量耦合——InstanceTex虽支持多文本实例级控制，但仍受文本精度和质量限制。本文切入角度：用多张参考图像（每个实例一张）替代文本，将"语义生成"和"像素增强"分离为两个独立蒸馏过程，在VSD框架下统一优化。

方法详解¶

整体框架¶

输入未纹理化的3D室内场景mesh（含UV展开）和每个物体实例的参考图像。每次迭代：（1）随机视点渲染RGB图、深度图和实例mask；（2）语义级蒸馏用depth-to-image扩散+Instance Cross-Attention+LoRA计算VSD梯度；（3）像素级蒸馏用预训练SR模型计算SR梯度；（4）两个梯度联合更新隐式纹理场。

关键设计¶

Instance Cross-Attention + InsVSD（语义级蒸馏）:
做什么：确保每个实例的纹理与其参考图像语义一致
核心思路：IP-Adapter提取参考图特征$f^{ref}_i$，用实例mask $m_i$在feature级调制cross-attention： $$Z' = \frac{1}{N}\sum_{i=1}^N m_i \cdot \text{Softmax}\left(\frac{\mathbf{Q}\mathbf{K}_i^\top}{\sqrt{d_k}}\right)\mathbf{V}_i$$
基于VSD交替优化：冻结LoRA更新纹理$\theta$（VSD梯度$\nabla_\theta\mathcal{L}_{\text{VSD}} = \mathbb{E}[\omega(t)(\epsilon_{\phi_d} - \epsilon_{\phi_{\text{LoRA}}})\frac{\partial\mathcal{T}}{\partial\theta}]$），再冻结$\theta$更新LoRA $\phi$
设计动机：Feature-level mask比noise-level mask更稳定（消融证实），精确对齐每个参考特征到对应实例区域
像素级蒸馏（Pixel-Level Distillation）:
做什么：增强纹理清晰度和高频细节
核心思路：利用预训练SR模型$\phi_{SR}$计算SR梯度：$\nabla_\theta\mathcal{L}_{\text{SR}} = \mathbb{E}[\omega(t)(\epsilon_{\phi_{SR}} - \epsilon_{\phi_{\text{LoRA}}})\frac{\partial\mathcal{T}}{\partial\theta}]$
最终梯度：$\nabla_\theta\mathcal{L} = \nabla_\theta\mathcal{L}_{\text{VSD}} + \lambda_{SR}\nabla_\theta\mathcal{L}_{\text{SR}}$
训练策略：前5000次$\lambda_{SR}=0$仅做语义蒸馏，之后$\lambda_{SR}=1.2$加入像素增强
设计动机：集成到蒸馏过程比后处理SR好得多——UV纹理缺乏自然图像语义结构，SR模型无法直接对UV纹理做超分
多分辨率哈希网格纹理表示:
做什么：隐式表示纹理并支持任意分辨率输出
核心思路：基于Instant-NGP的多分辨率哈希网格，UV坐标→多尺度grid→hash映射→特征拼接→Cross-Attention解码器→RGB
推理效率：4K纹理约2.4秒，12K约22秒
设计动机：比固定分辨率纹理贴图更灵活，优化更高效

损失函数 / 训练策略¶

VSD梯度（语义）+ SR梯度（像素），交替优化纹理$\theta$和LoRA $\phi$
时间退火：前5000次$t\sim U(0.02,0.98)$，之后$t\sim U(0.02,0.5)$
30000次迭代，5000球面分布视点，LR纹理0.001/LoRA 0.0001
约48小时在单张RTX A800

实验关键数据¶

主实验¶

图像到纹理（10个3D-FRONT场景）：

方法	CLIP-I↑	CLIP-FID↓	Q-Align IQA↑	Q-Align IAA↑
CustomTex	0.797	106.229	4.469	3.629
SceneTex-IPA	0.741	121.118	4.009	3.594
Paint3D	0.694	130.138	2.896	2.401
HY3D-2.1	0.682	134.680	2.187	1.838

文本到纹理：

方法	CLIP-T↑	IS↑	Q-Align IQA↑
CustomTex	0.766	3.311	4.252
SceneTex	0.639	3.009	3.824
HY3D-2.1	0.734	2.381	2.774

消融实验¶

配置	CLIP-I↑	CLIP-FID↓	Q-Align IQA↑	说明
post-SR	0.746	114.612	2.959	后处理SR质量差
w/o $\mathcal{L}_{SR}$	0.736	118.247	3.330	缺乏高频细节
w/o multi-ref	0.757	109.243	4.053	实例一致性下降+烘焙阴影
w/o f-mask	0.743	111.205	3.689	物体边界处光照不稳定
Full model	0.797	106.229	4.469	最优

关键发现¶

集成SR蒸馏 >> 后处理SR：post-SR的IQA仅2.959 vs 完整模型4.469
Feature-level mask比noise-level mask光照更稳定
Multi-reference输入至关重要：拼接参考图导致无法区分实例
实例mask分解全局→局部生成是减少烘焙阴影的关键
用户研究（60人）中视觉质量和一致性评分均最高

亮点与洞察¶

"双蒸馏"解耦范式：语义蒸馏负责"生成什么"，像素蒸馏负责"生成得多好"
Instance Cross-Attention精确对齐：mask调制注意力实现参考图→实例区域的精准映射
减少烘焙阴影的洞察深刻：实例mask分解全局为局部生成，阻止扩散模型跨图像形成统一光影
支持写实和艺术风格（Van Gogh、Cyberpunk）
推理高效：4K纹理仅2.4秒

局限性 / 可改进方向¶

训练耗时48小时（单GPU）
仅生成diffuse albedo纹理，不生成PBR材质（normal/roughness/metallic map）
依赖高质量UV展开
未来方向：加速训练、扩展到完整PBR材质生成

评分¶

新颖性: ⭐⭐⭐⭐ 双蒸馏+Instance Cross-Attention组合方案有创新
实验充分度: ⭐⭐⭐⭐⭐ 定量+定性+用户研究+5组消融+闭源方法对比
写作质量: ⭐⭐⭐⭐ 结构清晰，消融分析深入，图表丰富
价值: ⭐⭐⭐⭐ 建立了实例级场景纹理定制新标杆，实用性强