Auto-Regressively Generating Multi-View Consistent Images¶

会议: ICCV 2025
arXiv: 2506.18527
代码: 有（论文中提及 released）
领域: 3D视觉
关键词: 多视图生成, 自回归模型, 3D内容创建, 多模态条件, 视图一致性

一句话总结¶

提出 MV-AR，首次将自回归模型引入多视图图像生成，利用所有先前视图作为条件逐步生成后续视图，配合统一的多模态条件注入模块和 Shuffle View 数据增强，在文本/图像/形状条件下均达到与扩散模型可比的一致性。

研究背景与动机¶

从文本、参考图像或几何形状生成多视图一致图像是3D内容创建的基础。当前主流方法基于扩散模型（如 MVDream、Zero123++、SyncDreamer），通过交叉注意力或拼接多视图来实现跨视图信息交换。

现有痛点：

远视图一致性差：扩散方法使用单一参考视图（如正面图）来生成所有视图。当生成背面图时，参考视图的重叠内容几乎为零，引导信息失效，导致纹理不一致

条件切换不灵活：扩散方法在改变条件类型（文本→图像→形状）时通常需要大幅修改架构

本质矛盾：扩散方法建模联合概率分布 \(p(v_1, v_2, ..., v_n)\)，这种同时生成所有视图的方式不符合人类观察3D物体的渐进过程

核心 idea：自回归模型天然适合渐进式生成——生成第 \(n\) 个视图时可以利用前 \(n-1\) 个视图的全部信息。相邻视图之间总有较大重叠，即使背面视图也能从侧面视图获得有效参考。

方法详解¶

整体框架¶

MV-AR 基于预训练的文本到图像 AR 模型（LLamaGen），将2D VQVAE 编码的多视图 token 序列拼接后逐 token 自回归生成。条件模块包括文本（prefill token + SSA）、相机位姿（Shift Position Embedding）、参考图像（Image Warp Controller）和几何形状（预训练形状编码器 token）。通过渐进学习策略统一训练。

关键设计¶

Split Self-Attention (SSA)：在 Transformer 中将文本 token 和图像 token 拼接后做自注意力，但将自注意力输出中文本位置的残差置零，公式为 \(SSA(X_{in}) = X_{in} + Concat(0 \cdot O_{text}, O_{image})\)。
- 设计动机：常规自注意力中，后续图像 token 会反向干扰文本 token 的表示，降低文本引导效果。SSA 让文本 token 只影响图像生成但不被图像反向影响，提升了文本-图像对齐（CLIP Score 提升）。
Shift Position Embedding (SPE)：将 Plücker 射线编码 \(r_{i,j} = (o \times d, d)\) 作为位移位置编码，直接加到 token 嵌入上。
- 设计动机：不同视图的 token 需要知道自己对应的3D位置和视角方向。SPE 提供的物理角度信息让模型能区分不同视图中的同一位置，提升空间理解。
Image Warp Controller (IWC)：利用当前视图的相机位姿和参考图像特征预测重叠区域的纹理特征，公式为 \(X_{IWC} = FFN(CA(SA(X_{ref}), r))\)，以残差方式注入模型。
- 设计动机：高层图像特征（如 CLIP）丢失低层细节，IWC 使用编码器级特征保留颜色和纹理细节，逐 token 注入保证精准控制。实验证明 IWC 远优于 In-context 和 Cross-Attention 方式。
Shuffle View 数据增强：训练时随机打乱 \(N\) 个视图的顺序，将 1 个3D物体扩展为 \(\frac{N(N-1)}{2}\) 种训练序列。
- 设计动机：AR 模型需要海量数据防止过拟合，但高质量多视图数据稀缺。ShufV 利用多视图的顺序灵活性大幅扩充数据量，同时让模型学习正反两个方向的视图转换。

损失函数 / 训练策略¶

标准 AR 损失：\(\mathcal{L}_{ar} = -\frac{1}{T}\sum_{t=1}^T \log p(q_t | q_{<t})\)
渐进学习：先训练 t2mv（文本→多视图）模型，再在 t2mv 基础上训练 X2mv（任意条件→多视图）
文本条件随机 drop 并替换为指令模板（如"Generate multi-view images of the following <<>>"）
Drop 概率从 0 线性增加到 0.5（前10K迭代），之后保持 0.5
优化器 AdamW，16×A800 GPU，batch 1024，lr \(4 \times 10^{-4}\)，训练 30K 迭代

实验关键数据¶

主实验¶

文本→多视图 (GSO 30 objects)

方法	FID↓	IS↑	CLIP-Score↑
MVDream (扩散)	141.05	7.49	28.71
LLamaGen (基线AR)	146.11	5.78	28.36
MV-AR	144.29	8.00	29.49

图像→多视图 (GSO 30 objects)

方法	PSNR↑	SSIM↑	LPIPS↓
Zero123	18.93	0.779	0.166
SyncDreamer	19.89	0.801	0.129
Wonder3D	22.82	0.892	0.062
MV-AR	22.99	0.907	0.084

MV-AR 在 PSNR 上取得最优（22.99），CLIP-Score 上也最高（29.49），证明 AR 方法在多视图一致性和文本对齐上与扩散方法可比甚至更好。

消融实验¶

组件	FID↓ / IS↑ (t2mv)	PSNR↑ / SSIM↑ / LPIPS↓ (i2mv)
w/o SPE	147.29 / 7.26	21.30 / 0.843 / 0.118
w/o ShufV	173.51 / 4.77	18.27 / 0.778 / 0.194
Full MV-AR	144.29 / 8.00	22.99 / 0.907 / 0.084

图像条件方式	PSNR↑	SSIM↑	LPIPS↓
In-context	11.92	0.538	0.477
Cross Attention	15.13	0.709	0.310
IWC	22.99	0.907	0.084

Shuffle View 是贡献最大的组件（去掉后 FID 恶化 +29，PSNR 下降 4.72），IWC 远优于其他图像条件注入方式。

关键发现¶

AR 生成在前后视图一致性上天然优于扩散模型，因为它可以利用中间过渡视图
SSA 相比常规自注意力显著提升了 CLIP Score（文本-图像对齐）
IWC 利用低层特征指导纹理生成，效果远超使用 CLIP/DINO 等高层语义特征
MV-AR 是首个能同时处理文本、图像和形状条件的统一多视图生成模型

亮点与洞察¶

首次将 AR 范式引入多视图生成，为该领域提供了扩散模型之外的新路线
统一多模态条件（X2mv）：文本+图像+形状可同时使用，灵活性强
Shuffle View 数据增强简单有效，适用于所有基于序列的多视图方法
SSA 的设计解决了 in-context 条件中文本被图像干扰的通用问题，可迁移到其他多模态 AR 模型

局限与展望¶

AR 模型的单向性和离散编码是固有限制，生成质量受 VQVAE 重建质量约束
累积误差：前序视图质量差会影响后续视图，虽然提到了但未完全解决
当前使用2D VQVAE 编码，未来使用因果3D VAE可能进一步提升跨视图一致性
生成分辨率受限（256×256），需要更高分辨率的 tokenizer
渲染速度比扩散模型慢（需要逐 token 生成所有视图的全部 token）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次成功将 AR 引入多视图生成，开辟新路线
实验充分度: ⭐⭐⭐⭐ 三种条件任务全面评估，消融充分；但仅在 GSO 30 objects 上评估，规模偏小
写作质量: ⭐⭐⭐⭐ 问题-方案对应清晰，但符号较多
价值: ⭐⭐⭐⭐ 证明了 AR 路线的可行性，启发后续工作