MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion¶

会议: ICLR 2026
arXiv: 2510.13702
代码: 项目页
领域: 扩散模型 / 个性化生成
关键词: 多视角定制生成, 相机位姿控制, 特征场渲染, 视频扩散, 几何一致性

一句话总结¶

提出多视角定制（multi-view customization）新任务并设计 MVCustom 框架，通过视频扩散骨干网络结合密集时空注意力实现整体帧一致性，在推理阶段引入深度感知特征渲染和一致性感知潜码补全两项技术，首次同时实现相机位姿控制、主体身份保持和跨视角几何一致性。

研究背景与动机¶

领域现状：可控图像生成有两大关键维度——相机控制（多视角生成）和定制化（根据参考图像保持主体身份）。两者各自都有大量工作，但联合实现的方法几乎空白。
现有痛点：
传统定制方法（DreamBooth, Custom Diffusion）不支持相机位姿控制
多视角生成方法（CameraCtrl, SEVA）不支持个性化定制
结合视角控制的定制方法（CustomDiffusion360, CustomNet）只关注主体，忽略背景跨视角的一致性
直接将定制方法（如 DreamBooth-LoRA）应用到多视角生成骨干上，会丢失主体身份和减弱相机控制能力
核心矛盾：多视角生成依赖大规模数据学习 3D 几何，而定制场景只有少量参考图像——数据稀缺与几何一致性需求之间存在根本性矛盾。
本文要解决什么？ 定义并解决"多视角定制"任务：(i) 生成图像匹配指定相机位姿；(ii) 保持参考图像的主体身份；(iii) 主体和背景在跨视角下都保持一致性。
切入角度：将训练和推理阶段分离——训练阶段用有限数据学习主体身份和几何，推理阶段用显式几何约束（深度渲染）确保一致性。
核心 idea 一句话：用视频扩散骨干学时序一致性 + 特征场建模几何 + 推理时深度引导渲染确保跨视角几何一致。

方法详解¶

整体框架¶

MVCustom 包含训练和推理两个阶段： - 训练阶段：基于 AnimateDiff 的视频扩散骨干 + 密集时空注意力（替代原始1D时间注意力）+ 位姿条件 Transformer block（包含 FeatureNeRF）+ 文本反转学习主体 embedding - 推理阶段：深度感知特征渲染显式强制几何一致性 + 一致性感知潜码补全填充新可见区域

关键设计¶

位姿条件 Transformer Block (FeatureNeRF):
做什么：将相机位姿信息注入扩散模型，学习主体的几何结构
核心思路：设计双分支结构——主分支生成目标视角特征图，多视角分支通过 FeatureNeRF 聚合参考视图特征。FeatureNeRF 利用对极几何和体渲染从参考图像特征 \(\{(\bm{X}_i, \pi_i)\}\) 合成位姿对齐的特征图 \(\bm{X}_y\)
设计动机：使扩散模型能从少量参考图像中学习 3D 几何信息
密集时空注意力 (Dense Spatio-Temporal Attention):
做什么：替代 AnimateDiff 的 1D 时间注意力，实现跨帧跨空间位置的信息交互
核心思路：原始 1D 时间注意力只在相同空间位置的帧之间交互，无法建模视角变化导致的空间位移。密集 3D 时空注意力允许任意空间位置的跨帧交互。为保持训练稳定性和预训练知识，采用渐进式扩展空间注意力域的策略
设计动机：消融实验证实，当进行特征替换（feature replacement）时，1D 时间注意力无法正确传播空间流，密集时空注意力是关键
深度感知特征渲染 (Depth-Aware Feature Rendering):
做什么：推理阶段显式强制跨视角的几何一致性
核心思路：选择锚帧，用深度估计器（ZoeDepth）估计深度，构建锚帧特征网格 \(\mathcal{M}_a = (\bm{P}_a, \bm{F}_a, \mathcal{T}_a)\)，用可微网格渲染器将锚帧特征渲染到其他相机位姿下。在 DDIM 采样前 35 步中，将可见区域替换为渲染特征：\(\hat{\bm{F}}_n = \bm{M}_n^a \odot \bm{F}_n^a + (1-\bm{M}_n^a) \odot \bm{F}_n\)
设计动机：训练数据稀缺，无法像大规模多视角方法那样隐式学习几何一致性，需要显式几何约束
一致性感知潜码补全 (Consistent-Aware Latent Completion):
做什么：为视角变化导致的新可见区域（disoccluded regions）生成合理内容
核心思路：在去噪过程中，对中间潜码 \(x_t\) 预测 \(x_0\)，然后重新加噪回 \(t\) 得到扰动潜码 \(x_t'\)，将原始潜码中新可见区域替换为扰动版本。从时间步 \(T\) 迭代到接近 \(T\) 的早期时间步 \(\tau\)
设计动机：特征渲染只能处理锚帧可见的区域，新可见区域需要通过生成模型的先验知识来合理补全

损失函数 / 训练策略¶

标准去噪损失 + FeatureNeRF 损失。训练数据使用 WebVid10M 子集（430K 样本）训练视频骨干，CO3Dv2 数据集用于定制实验（车、椅子、摩托车各 3 个概念）。

实验关键数据¶

主实验¶

方法	相机位姿精度↑	多视角一致性↓	身份保持↓	文本对齐↑
Custom Img + Img-MV gen	0.675	0.214	0.504	0.676
Txt-MV gen with DB	0.283	0.116	0.557	0.723
CustomDiffusion360	0.000	0.190	0.417	0.806
MVCustom (ours)	0.735	0.121	0.448	0.744

MVCustom 是唯一在相机位姿精度和多视角一致性上同时取得高分的方法。

消融实验¶

配置	效果
仅定制微调（无 DFR/LCC）	背景在不同视角下静态不变
+ 深度感知特征渲染 (DFR)	背景按相机运动正确平移，但新可见区域重复内容
+ 一致性感知潜码补全 (LCC)	新可见区域自然补全，完整几何一致
1D 时间注意力 + 特征替换	空间流传播失败
密集时空注意力 + 特征替换	正确传播空间一致性

关键发现¶

CustomDiffusion360 的 COLMAP 重建完全失败（位姿精度=0），说明仅关注主体而忽略背景一致性是不可行的
深度感知特征渲染和潜码补全是互补的：前者保证可见区域的几何一致，后者处理不可见区域的生成
密集时空注意力是特征替换策略生效的必要条件
MVCustom 计算开销较大（130.92s, 19.29GB），主要来自深度估计器和特征替换

亮点与洞察¶

任务定义清晰且系统化：通过 Table 1 系统性地分析了现有方法在多视角定制各维度的能力缺失，定义了一个重要且未被满足的任务
训练-推理分离的巧妙设计：训练阶段用有限数据学习主体表示，推理阶段用显式几何约束弥补数据不足——这种分离策略可推广到其他数据稀缺的生成任务
视频扩散 → 多视角的转化：利用视频模型的时序一致性来获得多视角一致性，是一个有效的跨任务迁移

局限性 / 可改进方向¶

无法通过文本改变物体的内在姿态（如从"坐着"变为"站着"），因为 FeatureNeRF 学到的是固定的 canonical pose
计算开销显著高于竞争方法（130.92s vs 27-97s，19.29GB vs 5-7GB）
评估仅在 CO3Dv2 的 3 个类别上进行，泛化性未充分验证
深度估计质量直接影响渲染结果，对复杂场景可能不鲁棒

评分¶

新颖性: ⭐⭐⭐⭐ 任务定义新颖，推理阶段的几何约束策略巧妙
实验充分度: ⭐⭐⭐ 类别较少（3类），缺少大规模验证
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法描述详尽
价值: ⭐⭐⭐⭐ 开辟了多视角定制生成的新方向，有 3D 内容创作的应用前景