Scaling Sequence-to-Sequence Generative Neural Rendering¶

会议: ICLR 2026
arXiv: 2510.04236
代码: Project Page
领域: 3D Vision
关键词: Neural Rendering, Novel View Synthesis, Rectified Flow Transformer, Masked Autoregression, Unified Positional Encoding, Video-3D Unification

一句话总结¶

提出 Kaleido，一系列将 3D 视为视频特殊子域的 decoder-only rectified flow transformer 生成模型，通过统一位置编码（Unified Positional Encoding）、掩码自回归框架和视频预训练策略，实现无需任何显式 3D 表示的 "any-to-any" 6-DoF 新视角合成，首次在多视角设置下匹配逐场景优化方法（InstantNGP）的渲染质量，并将分辨率从 512/576px 提升至 1024px。

研究背景与动机¶

新视角合成（Novel View Synthesis, NVS）是 3D 视觉的核心任务，给定若干参考视图生成任意目标视角图像。现有方法存在明确的技术瓶颈：

方法范式	代表工作	核心局限
逐场景优化	3DGS, NeRF, InstantNGP	需要大量视图 + 逐场景数分钟级优化，无法零样本泛化
前馈重建	PixelNeRF, LRM	依赖显式 3D 表示（点云/三平面），泛化受限
扩散生成	Zero123++, SV3D, SEVA	基于 U-Net 架构，分辨率限于 512/576px，难以扩展；多数需要 SDS 二阶段精修
视频控制生成	MotionCtrl, CameraCtrl, GEN3C	本质是 4D 时序预测，受限于单参考帧/固定轨迹，无法处理 "any-to-any" 空间查询

核心洞察：3D 可以被看作视频的一个特殊子域——两者本质上都是图像序列，区别只在于帧间的相机变换是否已知。但直接微调视频模型行不通：视频模型依赖时序 VAE，假设帧间高时序相关性，该假设在稀疏视图 3D 任务中不成立。

关键动机： - 带相机标签的 3D 数据极为稀缺，而视频数据规模大数个量级 - 前代最强通用 NVS 模型 SEVA 基于 U-Net 架构，扩展性差，限于 576px - 需要一个可扩展的纯 Transformer 架构，能从视频中学习空间先验（"visual commonsense"），然后迁移到 3D

方法详解¶

整体框架¶

Kaleido 将新视角合成完全表述为 序列到序列的图像合成任务：给定 \(N\) 张参考视图及其 6-DoF 相机位姿 \(\{(I_i, P_i)\}_{i=1}^{N}\)，和 \(M\) 个目标位姿 \(\{P_j\}_{j=1}^{M}\)，直接生成 \(M\) 张目标视图 \(\{I_j\}_{j=1}^{M}\)。整个过程使用单一的 decoder-only rectified flow transformer，不使用任何显式 3D 表示（无点云、无 NeRF、无 3DGS、无深度估计）。

模型架构核心要素： - Tokenization：每张图像通过 VAE 编码为 latent tokens - 位姿条件：通过统一位置编码（Unified Positional Encoding）将相机位姿信息注入到 token 序列中 - 掩码策略：参考视图 tokens 为 unmasked（条件），目标视图 tokens 为 masked（待生成） - 生成过程：用 rectified flow 对 masked tokens 进行去噪生成

关键设计¶

1. 统一位置编码（Unified Positional Encoding）

这是使单一 Transformer 同时处理视频和 3D 数据的关键架构创新，无需任何额外可训练参数：

对于 视频数据：使用 RoPE 编码帧的时序位置 \(t\) 和空间位置 \((h, w)\)
对于 3D 数据：使用 RoPE 编码 Plücker 射线坐标 \((\mathbf{o}, \mathbf{d})\)（由相机内外参计算），其中 \(\mathbf{o}\) 为射线原点，\(\mathbf{d}\) 为射线方向
统一设计允许视频的时序一致性先验自然迁移为 3D 的空间一致性，且架构在视频和 3D 训练间 零修改切换

2. 掩码自回归框架（Masked Autoregressive）

支持灵活的 "any-to-any" 推理模式： - 任意 \(N\) 张参考视图 → 任意 \(M\) 张目标视图（\(N, M\) 训练和推理时均可变） - 使用 causal masking 区分条件视图（clean tokens）和目标视图（noisy tokens） - 自回归迭代：已生成的高质量视图可作为新的条件加入，逐步扩展覆盖范围 - 支持极端推理：从 12 视图训练长度外推到 480 帧（40× 训练长度）的自回归生成

3. 缩放瓶颈的系统性解决

论文通过大量消融实验发现并解决了阻碍纯 seq2seq 模型扩展的非显而易见的瓶颈： - 激活值溢出问题（Sec 2.2.2）：大模型训练中出现的 massive activation overflow，通过特定激活函数选择解决 - 次优 SNR 采样器（Sec 2.2.3）：标准扩散模型的信噪比采样策略对 3D 渲染任务不最优，提出 noise-biased sampling 改善训练 - 这些 "scaling recipe" 发现本身是核心贡献，使得简单纯 Transformer 设计首次在生成式 NVS 中可行

损失函数与训练策略¶

两阶段训练范式：

视频预训练阶段：在大规模视频数据上训练 rectified flow 匹配损失 \(\mathcal{L} = \mathbb{E}_{t}\left[\|v_\theta(x_t, t) - (x_1 - x_0)\|^2\right]\)，学习时空一致性先验
3D 微调阶段：在带相机标签的 3D 数据集上微调，统一位置编码自动切换到 Plücker 射线模式，学习精确的几何对应关系

关键训练策略： - Rectified Flow 比标准 DDPM 具有更好的训练稳定性和采样效率 - 支持 Classifier-Free Guidance（CFG）增强生成质量 - Noise-biased sampling 策略优化 3D 生成的 SNR 分布 - 从视频到 3D 的迁移不需要任何架构修改

实验关键数据¶

主实验：NVS 基准对比¶

设置	对比方法	Kaleido 表现	关键指标
少视图 (1-3 views)	Zero123++, SV3D, SEVA, EscherNet	零样本大幅超越所有生成方法	PSNR 显著领先
多视图 (>10 views)	InstantNGP (逐场景优化)	首次匹配优化方法质量	PSNR 可比
单视图 3D 重建	前代所有方法	SOTA	CD=1.83, VIoU=70%
分辨率	SEVA (576px), CAT3D (512px)	首个 1024px 生成式渲染模型	分辨率翻倍

对比视频控制生成模型（附录 H，rebuttal 新增）¶

方法	类型	相机精度 (\(R_{err}\)↓ / \(T_{err}\)↓)	视觉质量 (LPIPS↓)
Wonderland (CVPR 2025)	视频→3DGS 管线	较差	可比
ViewCrafter	视频生成	较差	较差
VD3D	视频扩散	较差	较差
MotionCtrl (SIGGRAPH 2024)	视频控制	较差	较差
Kaleido	Seq2Seq NVS	最优	最优或可比

在 DL3DV 和 Tanks & Temples 上，Kaleido 在相机精度上显著优于所有视频基线模型。

消融实验¶

消融配置	影响	说明
去除视频预训练	空间一致性显著恶化	验证 "3D ≈ 视频子域" 假设
标准位置编码 vs 统一位置编码	性能下降	Unified PE 是视频→3D 迁移的关键
Encoder-decoder vs Decoder-only	性能下降	Decoder-only 更适合变长序列任务
标准 SNR 采样 vs Noise-biased 采样	性能下降	SNR 分布优化对 3D 渲染至关重要
未修复激活值溢出	训练不稳定	大模型缩放的关键瓶颈
减小模型规模	持续下降	3D 几何理解需要足够模型容量

关键发现¶

3D ≈ 视频的特殊子域：视频预训练显著提升 3D 渲染质量，时序一致性有效迁移为空间一致性
缩放规律明确：模型规模增大持续改善渲染质量，纯 Transformer 在 NVS 上存在明确 scaling law
隐式几何理解：无显式 3D 表示的模型仍学到了有意义的几何（CD=1.83 的 3D 重建质量证明）
视频模型不可简单替代：对比实验表明，视频模型的时序 VAE 假设在稀疏 3D 任务中失效，GEN3C 等方法在大视角变化时因 "空缓存" 问题崩溃

亮点与洞察¶

范式突破：首次证明纯 2D 序列模型可以在渲染质量上匹配 per-scene optimization（如 InstantNGP），且无需任何 SDS 二阶段精修
架构创新：统一位置编码使得单一架构零修改处理视频和 3D，是一个优雅且实用的设计
数据规模杠杆：通过视频预训练巧妙弥补 3D 数据稀缺性，且迁移效果显著——这为其他数据稀缺的 3D 任务提供了范式参考
Scaling Recipe：系统性发现并解决了 seq2seq 3D 渲染的缩放瓶颈（激活溢出、SNR 采样），这些经验具有广泛参考价值
从 512px 到 1024px：首个超越 U-Net 限制、达到 1024px 分辨率的生成式渲染模型

局限性与改进方向¶

推理效率：大模型 + 长序列的推理成本显著，零样本推理虽快于 per-scene 优化，但仍远非实时
几何精度上限：隐式 3D 理解在需要亚像素级精确几何的应用（如 AR/VR）中可能不足
相机参数依赖：仍需已知的目标视角 6-DoF 相机参数作为条件
长序列退化：480 帧极端自回归生成仍有 artifact，超长轨迹的一致性有待提升
训练成本高昂：视频预训练 + 3D 微调的整体训练开销巨大
无 4D 能力：当前设计针对静态场景，不处理动态场景重建

评分¶

新颖性: ⭐⭐⭐⭐⭐ （"3D-as-Video" 统一范式 + 统一位置编码 + scaling recipe 三重创新）
实验充分度: ⭐⭐⭐⭐ （多基准全面评估，消融充分；但初版缺少与视频模型对比，rebuttal 后补充）
写作质量: ⭐⭐⭐⭐ （概念清晰，系统性强；rebuttal 中的区分论述比正文更到位）
价值: ⭐⭐⭐⭐⭐ （开辟生成式神经渲染新方向，首次匹配优化方法质量，scaling 经验具有广泛指导意义）

title: >- [论文解读] Scaling Sequence-to-Sequence Generative Neural Rendering description: >- [ICLR 2026][3D视觉][Neural Rendering] 提出 Kaleido，一系列将 3D 视为视频特殊子域的生成模型，通过序列到序列的图像合成范式和 Masked Autoregressive 框架实现无需显式 3D 表示的新视角合成，首次在多视角设置下匹配逐场景优化方法的质量。 tags: - ICLR 2026 - 3D视觉 - Neural Rendering - View Synthesis - Transformer - Masked Autoregression - Video-3D Unification

Scaling Sequence-to-Sequence Generative Neural Rendering¶

会议: ICLR 2026
arXiv: 2510.04236
代码: 有（Project Page）
领域: 3D Vision
关键词: Neural Rendering, View Synthesis, Rectified Flow Transformer, Masked Autoregression, Video-3D Unification

一句话总结¶

提出 Kaleido，一系列将 3D 视为视频特殊子域的生成模型，通过序列到序列的图像合成范式和 Masked Autoregressive 框架实现无需显式 3D 表示的新视角合成，首次在多视角设置下匹配逐场景优化方法的质量。

研究背景与动机¶

新视角合成（Novel View Synthesis）是 3D 视觉的核心任务，目标是给定若干参考视图，生成任意目标视角的图像。

现有方法的局限：

逐场景优化方法（如 3DGS、NeRF）：需要大量输入视图和逐场景优化，计算成本高

前馈推理方法（如 PixelNeRF、LRM）：依赖显式 3D 表示（点云、三平面等），泛化能力受限

生成方法（如 Zero123++、SV3D）：采用扩散模型进行视角合成，但在少视图设置下质量不稳定

3D 数据稀缺：带相机标签的 3D 数据集规模远小于视频数据集

核心洞察：3D 可以被看作视频的一个特殊子域——两者本质上都是图像序列，区别只在于帧间的相机变换是否已知。这意味着可以用统一的序列到序列框架同时处理 3D 和视频。

方法详解¶

整体框架¶

Kaleido 将新视角合成完全表述为序列到序列的图像合成任务，使用单一的 decoder-only rectified flow transformer，无需任何显式 3D 表示（无点云、无NeRF、无3DGS）。

关键设计¶

无显式 3D 表示的生成式视角合成
- 完全抛弃传统的 3D 中间表示（如体素、三平面、高斯等）
- 直接从参考视图图像序列生成目标视图图像序列
- 核心信念：足够大的模型可以隐式学习 3D 几何理解
- 设计动机：绕过 3D 表示的瓶颈，充分利用 2D 数据的规模优势
Masked Autoregressive 框架
- 支持任意数量参考视图到任意数量目标视图的生成
- 使用掩码机制区分条件视图（已知）和目标视图（待生成）
- 自回归生成允许灵活的推理策略：
  - 少视图→多视图：从 1-2 张参考图生成 N 张新视图
  - 逐步细化：已生成的视图可作为新的条件输入
- 支持 6-DoF 目标视角条件
Decoder-Only Rectified Flow Transformer
- 统一框架同时建模 3D 和视频
- Rectified Flow 比标准扩散模型有更好的训练稳定性和采样效率
- Decoder-only 架构使得模型可以自然处理变长序列
- 无需架构修改即可在不同任务间切换
视频预训练策略
- 利用大规模视频数据进行预训练，然后在 3D 数据上微调
- 视频数据提供：
  - 时序一致性先验 → 有助于多视角空间一致性
  - 运动理解 → 类似相机运动的几何理解
- 关键优势：显著减少对稀缺 3D 数据的依赖
- 无需任何架构改动即可完成从视频到 3D 的迁移

损失函数 / 训练策略¶

采用 Rectified Flow 的匹配损失进行训练
两阶段训练：先视频预训练获取时空一致性先验，再 3D 数据微调学习精确的几何对应
支持 Classifier-Free Guidance 增强生成质量

实验关键数据¶

主实验¶

在多个视角合成基准上评估（如 CO3D、RealEstate10K、ACID 等）：

设置	方法类别	Kaleido 表现
少视图 (1-3 views)	vs 其他生成方法	显著超越
多视图 (>10 views)	vs 逐场景优化方法	首次匹配
零样本	vs 前馈方法	大幅领先

核心结果： - 少视图设置：零样本性能大幅超越其他生成方法（如 Zero123++、SV3D） - 多视图设置：首次在生成方法中达到逐场景优化方法（如 3DGS）的质量 - 同时支持物体级和场景级渲染

消融实验¶

配置	关键指标	说明
无视频预训练	质量下降	空间一致性显著恶化
固定参考视图数	灵活性下降	Masked AR 的优势消失
换用encoder-decoder	性能下降	decoder-only更适合此任务
减小模型规模	性能下降	3D理解需要足够的模型容量

关键发现¶

3D ≈ 视频的特殊子域：这一假设被实验充分验证，视频预训练显著提升 3D 质量
规模效应明显：模型规模的增大持续改善渲染质量
Masked AR 的灵活性：统一处理任意数量输入/输出视图的能力是关键优势
隐式几何理解：模型确实学到了有意义的 3D 几何，尽管没有显式 3D 表示

亮点与洞察¶

视频-3D统一范式的突破：将看似不同的任务（视频生成和3D渲染）统一到同一框架
数据规模杠杆：巧妙利用丰富的视频数据弥补 3D 数据的稀缺性
无显式 3D 表示的生成：证明了纯 2D 序列模型可以隐式掌握 3D 几何
首次匹配优化方法：在多视图设置下的生成质量首次达到逐场景优化方法水平
Scaling Law：系统研究了序列到序列生成神经渲染的缩放规律

局限与展望¶

计算成本较高：大模型 + 长序列的推理成本显著
几何精度限制：隐式 3D 理解可能在需要精确几何的应用中不足
相机参数依赖：仍需要目标视角的相机参数作为条件
对参考视图的依赖：极端视角变化时生成质量可能下降
训练成本：视频预训练 + 3D 微调的整体训练成本较高
实时应用困难：当前的自回归生成速度难以满足实时渲染需求

评分¶

新颖性: ⭐⭐⭐⭐⭐ （3D-as-Video 统一范式，纯序列模型做3D渲染的新颖度很高）
实验充分度: ⭐⭐⭐⭐⭐ （多基准、多设置的全面评估，首次匹配优化方法）
写作质量: ⭐⭐⭐⭐ （概念表述清晰，实验设置严谨）
价值: ⭐⭐⭐⭐⭐ （开辟了生成式神经渲染的新方向，缩放规律具有指导意义）

Scaling Sequence-to-Sequence Generative Neural Rendering¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数与训练策略¶

实验关键数据¶

主实验：NVS 基准对比¶

对比视频控制生成模型（附录 H，rebuttal 新增）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限性与改进方向¶

相关工作与启发¶

评分¶

Scaling Sequence-to-Sequence Generative Neural Rendering¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶