Auto-Regressively Generating Multi-View Consistent Images (MV-AR)¶
会议: ICCV 2025
arXiv: 2506.18527
代码: https://github.com/MILab-PKU/MVAR (有)
领域: 3D视觉 / 多视角图像生成
关键词: 自回归生成, 多视角一致性, 条件注入, 数据增强, 统一多模态
一句话总结¶
首次将自回归(AR)模型引入多视角图像生成任务,通过逐视角生成利用所有前序视角信息来增强远距离视角间的一致性,同时设计了统一的多模态条件注入架构和Shuffle Views数据增强策略,使单一模型可同时处理文本/图像/几何形状条件。
背景与动机¶
现有多视角图像生成方法主要基于扩散模型(如MVDream、Zero123++、SyncDreamer、Wonder3D等),它们通常通过cross-view attention等机制同时生成多个视角的图像。但这种"同时生成"方式存在根本缺陷:当参考视角与目标视角距离较远时(例如从正面生成背面),两者之间的视觉重叠极少,参考信息几乎失效,导致远距离视角的一致性严重下降。
人类观察3D物体是逐步的——先看一面,再转到下一面,逐步积累对物体的理解。自回归模型天然契合这种渐进式生成范式:生成第n个视角时,可以利用前n-1个视角的所有信息,从而为远距离视角提供充分的参考。
核心问题¶
将AR模型应用于多视角生成时面临三个关键问题:
- 条件注入不足(Issue 1):AR模型缺乏针对相机位姿、参考图像、几何形状等条件的有效注入方法
- 高质量数据有限(Issue 2):AR模型需要海量数据避免过拟合,但高质量3D物体数据稀缺(相比NLP领域的数十亿文本)
- 累积误差(Issue 3):AR生成中若某个视角质量低,会作为后续视角的参考导致误差传播
方法详解¶
整体框架¶
MV-AR基于预训练的文本-图像AR模型(LLamaGen),使用2D VQVAE将N个视角的图像编码为token序列,按视角顺序拼接后进行自回归建模。Transformer架构基于Llama,采用RMSNorm、SwiGLU和AdaLN。文本和形状条件作为前置context tokens,相机位姿作为位移位置编码(SPE),图像条件通过IWC模块逐token注入。
关键设计¶
-
Split Self-Attention (SSA) — 文本条件:使用FLAN-T5 XL编码文本,将文本特征作为prefilling token。为防止后续图像token干扰文本token(模态错位),设计SSA:在标准Self-Attention后,将文本位置的输出置零再加回原始文本token,确保文本条件不被图像token污染,同时图像token仍能关注文本信息。实验表明SSA能显著提升CLIP Score。
-
Shift Position Encoding (SPE) — 相机条件:采用Plücker Ray Embedding编码每个空间位置的光线起点和方向(6维),将其作为位移位置编码直接加到token embedding上。SPE能告诉模型当前token属于哪个视角/位置,提供精确的物理角度信息指导生成。
-
Image Warp Controller (IWC) — 图像条件:不使用CLIP/DINO等高层语义特征,而是用VQVAE编码器提取参考图像的低层特征,再通过Self-Attention + Cross-Attention(与相机位姿交叉注意力)+ FFN预测当前视角与参考视角的重叠内容和纹理,以残差方式逐token注入模型。低层特征更好地保留颜色和纹理细节。
-
形状条件注入:采用点云(8192个表面采样点+法线)作为形状条件,使用预训练形状编码器(Michelangelo)映射为固定长度的latent token序列,插入到文本token和start token之间作为前置context。
损失函数 / 训练策略¶
损失函数:标准AR的负对数似然损失,对所有词表位置的条件概率取平均:
Shuffle Views (ShufV) 数据增强:随机打乱N个视角的顺序来构建训练序列。对于N个视角的训练,可以生成\(\frac{N(N-1)}{2}\)种排列组合,将训练数据规模扩大数个数量级。ShufV还能增强IWC捕捉任意两个视角之间重叠区域的能力(双向学习A→B和B→A的变换)。
渐进式学习(Progressive Learning): - 先训练文本到多视角(t2mv)模型作为baseline - 在t2mv基础上训练X到多视角(X2mv)模型:随机丢弃文本条件,随机组合图像/形状条件 - 条件丢弃和组合的概率在前10k迭代中从0线性增长到0.5,之后保持0.5 - 文本被丢弃时替换为不含目标描述的引导语(如"Generate multi-view images of the following \<img>")
实验关键数据¶
Text-to-Multi-View (GSO数据集, 30个物体)
| 方法 | FID↓ | IS↑ | CLIP-Score↑ |
|---|---|---|---|
| MVDream† | 143.72 | 7.93 | 28.95 |
| LLamaGen | 146.11 | 5.78 | 28.36 |
| MV-AR (Ours) | 144.29 | 8.00 | 29.49 |
Image-to-Multi-View 消融 (GSO数据集)
| 图像条件方式 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|
| In-context | 11.92 | 0.538 | 0.477 |
| Cross Attention | 15.13 | 0.709 | 0.310 |
| IWC (Ours) | 22.99 | 0.907 | 0.084 |
Image-to-Multi-View 对比 (GSO数据集)
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|
| RealFusion | 15.26 | 0.722 | 0.283 |
| Zero123 | 18.93 | 0.779 | 0.166 |
| SyncDreamer | 19.89 | 0.801 | 0.129 |
| Wonder3D | 22.82 | 0.892 | 0.062 |
| Era3D | 22.73 | 0.911 | 0.071 |
| MV-AR (Ours) | 22.99 | 0.907 | 0.084 |
消融实验要点¶
| 变体 | FID/IS (t2mv) | PSNR/SSIM/LPIPS (i2mv) |
|---|---|---|
| w/o SPE | 147.29 / 7.26 | 21.30 / 0.843 / 0.118 |
| w/o ShufV | 173.51 / 4.77 | 18.27 / 0.778 / 0.194 |
| MV-AR (完整) | 144.29 / 8.00 | 22.99 / 0.907 / 0.084 |
- SPE的作用:移除SPE后FID上升3分,PSNR下降1.69,说明相机位姿作为位移编码对多视角一致性至关重要
- ShufV的作用:移除ShufV后FID暴涨至173,IS降至4.77,PSNR骤降至18.27,是最关键的设计。说明数据增强对缓解AR模型在有限数据上的过拟合极为有效
- IWC vs 其他图像条件方式:IWC(PSNR 22.99)远超Cross Attention(15.13)和In-context(11.92),因为AR模型的基模型缺乏image-to-image能力,而IWC通过逐token的低层特征注入实现精确控制
亮点¶
- 范式创新:首次将AR模型引入多视角图像生成,用渐进式生成替代同时生成,自然解决远距离视角一致性问题
- ShufV数据增强:简单而高效——通过打乱视角顺序将训练数据扩大\(\frac{N(N-1)}{2}\)倍,同时增强模型对任意视角对的变换能力
- 统一多模态框架:单一模型同时支持文本/图像/形状三种条件的任意组合,是首个实现X-to-multi-view统一的多视角生成模型
- IWC的设计哲学:用低层VQVAE特征而非高层CLIP/DINO特征做图像条件,更好地保留了颜色和纹理一致性
局限性 / 可改进方向¶
- 2D VQVAE的局限:作者有意不使用3D VAE(因编码时视角间信息交换违背AR动机),但2D VQVAE可能限制了3D几何理解能力;作者提出未来可探索因果3D VAE
- LPIPS指标不佳:在i2mv任务中LPIPS排名第三(0.084 vs Wonder3D 0.062),说明模型过于严格地约束了低层特征一致性,可能牺牲了感知质量
- 累积误差未完全解决:虽然ShufV一定程度上缓解了该问题,但论文未提出直接针对累积误差的技术方案
- 评估规模有限:仅在30个GSO物体上评估,缺乏大规模定量评估
- 分辨率限制:训练分辨率为256×256,在当前高分辨率生成的趋势下偏低
- 生成速度:AR逐token生成的推理速度与扩散模型多步去噪的对比缺失
与相关工作的对比¶
- vs MVDream:MVDream通过cross-view attention同时生成4个视角,远距离视角一致性差;MV-AR的AR范式自然利用所有前序视角信息,在CLIP Score上更优(29.49 vs 28.95)
- vs Wonder3D/Era3D:这些扩散方法在i2mv上与MV-AR性能接近(PSNR差距<0.3),但它们依赖于扩散模型的image-to-image预训练先验,而MV-AR从AR模型出发达到可比性能
- vs LLamaGen:MV-AR基于LLamaGen进行扩展,SSA带来的IS提升(5.78→8.00)和CLIP Score提升(28.36→29.49)验证了文本条件处理的改进
- vs VAR/PixelCNN等AR方法:这些方法仅用于单张图像生成;MV-AR首次将AR范式扩展到多视角场景
启发与关联¶
- AR用于3D生成的可行性:本文证明AR模型在多视角生成上可与扩散模型媲美,这启示AR模型在更多3D任务(如3D重建、4D生成)中的潜力
- 与4D生成的关联:本workspace中的全属性时序校正4DGS idea关注4D高斯的时序一致性,而MV-AR的多视角一致性技术(SPE、ShufV)或可迁移到4D场景的多帧一致性维护
- Shuffle Views思路的普适性:这种通过打乱序列顺序来扩增数据的方法可推广到其他序列生成任务(如视频生成中的帧顺序打乱)
- 统一条件框架的价值:渐进式训练+条件随机丢弃的策略是构建多模态统一模型的通用范式,可参考应用于其他多条件生成任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将AR引入多视角生成,范式创新明确;但各条件注入模块的设计相对常规
- 实验充分度: ⭐⭐⭐ 消融实验设计合理,但评估集仅30个物体,缺少大规模评估和与更多最新方法的对比
- 写作质量: ⭐⭐⭐⭐ 问题分析清晰(三个Issue的提出与逐一解决),结构合理;部分公式表述略显冗余
- 价值: ⭐⭐⭐⭐ 为多视角生成提供了AR范式的新baseline,统一多模态条件框架有实际意义,对后续AR-based 3D生成有较好的启示作用