Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting¶

会议: ICLR 2026
arXiv: 2509.26455
代码: https://github.com/HanzhouLiu/Stylos
领域: 3D视觉
关键词: 3D风格迁移, 高斯溅射, 跨视角一致性, 体素风格损失, 前馈模型

一句话总结¶

Stylos 提出了一个单次前馈的3D风格迁移框架，通过共享Transformer骨干的双路径设计（几何自注意力+风格交叉注意力）和体素级3D风格损失，实现从未标定输入的零样本3D风格化，支持单视角到数百视角的扩展。

研究背景与动机¶

3D风格迁移旨在保持场景几何和跨视角一致性的同时迁移参考风格。现有方法存在三层限制：

NeRF/3DGS方法需逐场景优化：StyleRF、StyleGaussian等虽比NeRF更高效，但仍需逐场景拟合，无法实现真正的实时3D风格化

泛化能力弱：现有方法局限于场景特定训练，无法推广到未见过的类别、场景和风格

2D风格损失缺乏3D一致性：经典的Gram矩阵或AdaIN（通道统计量匹配）在图像级别操作，不能显式保证多视角结构一致性

最接近的相关工作Styl3R (Wang et al., 2025b) 虽提出前馈框架，但设计仅针对2-8个输入视角，不特别关注强多视角一致性。

方法详解¶

整体框架¶

Stylos 以VGGT为几何骨干，引入Style Aggregator分支通过CrossBlock融合内容和风格特征。几何属性（深度、位姿）仅由骨干推导，风格仅影响颜色球谐系数，实现几何与风格的解耦。

关键设计¶

CrossBlock 风格-内容融合模块

在标准Transformer Block的自注意力和MLP之间插入交叉注意力操作：内容token为Query，风格token为Key/Value。提出三种拓扑策略： - Frame CrossBlock：每个视角独立与风格交互，保持视角特有结构 - Global CrossBlock：拼接所有视角为全局序列，自注意力确保多视角几何一致性，交叉注意力广播风格信息 - Hybrid CrossBlock：先Frame再Global

实验表明 Global CrossBlock 效果最好（Pizza场景PSNR提升0.79dB），因为全局自注意力保证跨视角一致性同时交叉注意力全局广播风格。

体素级3D风格损失 (Voxel-level 3D Style Loss)

将多视角渲染特征通过可微反投影融合到体素网格 $\mathcal{G}_b^l$，然后在体素空间计算风格统计量与参考风格的匹配：

$$\mathcal{L}_{\text{sty}}^{3D} = \frac{1}{B} \sum_{b=1}^B \sum_{l=1}^5 \alpha_l \left(\|\mu(\mathcal{G}_b^l) - \mu(\mathcal{S}_b^l)\|_2^2 + \|\sigma(\mathcal{G}_b^l) - \sigma(\mathcal{S}_b^l)\|_2^2\right)$$

相比图像级风格损失（每帧独立匹配，不保证跨视角一致性）和场景级损失（2D特征拼接，仍在2D空间），体素级损失在3D空间直接编码几何并强制跨视角风格一致性。

预测头设计
- 几何头：DPT回归头输出位置、尺度、旋转、不透明度
- 风格头：颜色头预测球谐系数
- 辅助头：VGGT相机头估计内外参，深度头预测场景几何

损失函数 / 训练策略¶

阶段1 - 几何预训练：用VGGT权重初始化，端到端学习几何。随机选择一个输入视角做颜色抖动作为风格参考（避免恒等映射）。损失：$\mathcal{L}_{\text{stage1}} = \mathcal{L}_{\text{rec}} + \lambda_{\text{distill}} \mathcal{L}_{\text{distill}}$

阶段2 - 风格化微调：冻结几何模块，仅更新Style Aggregator和颜色头。损失： $$\mathcal{L}_{\text{stage2}} = \mathcal{L}_{\text{rec}} + \lambda_{\text{style}} \mathcal{L}_{\text{style}}^{3D} + \lambda_{\text{cnt}} \mathcal{L}_{\text{content}} + \lambda_{\text{clip}} \mathcal{L}_{\text{clip}} + \lambda_{\text{tv}} \mathcal{L}_{\text{TV}}$$

实验关键数据¶

主实验¶

数据集/场景	指标	Stylos	StyleGaussian	Styl3R	说明
T&T Short LPIPS↓	一致性	0.033-0.047	0.031-0.038	-	竞争性
T&T Long LPIPS↓	一致性	0.153	0.157	-	长程一致性更好
CO3D ArtScore↑	艺术质量	9.15	-	-	体素损失最高
CO3D 重建PSNR↑	重建	21.68	-	-	Global CrossBlock

消融实验¶

配置	Short RMSE↓	ArtScore↑	说明
Image-level 风格损失	0.038	4.78	基线
Scene-level 风格损失	0.036	9.12	+4.34 ArtScore
3D Voxel-level 损失	0.034	9.15	三维最优

关键发现¶

Global CrossBlock 在所有测试类别上优于 Frame 和 Hybrid 变体
体素级3D风格损失在一致性和艺术质量上均优于2D风格损失
每批视角数在32以内时质量稳定，超过64时出现边缘伪影（训练设置最多24视角）
Image-level损失有时完全无法迁移风格（如donut场景）

亮点与洞察¶

几何-风格解耦：骨干特征仅驱动几何，CrossBlock仅影响颜色，概念清晰且模块化
2D→3D风格损失演进：系统性地从图像级→场景级→体素级推进，提供了清晰的消融路径
可扩展性强：框架天然支持1到数百视角，仅调整批大小即可
基于VGGT的强几何基础：利用预训练3D基础模型确保高质量几何

局限与展望¶

超过32视角时质量下降，可能需要更大训练批次覆盖
仅评估了静态场景，动态场景风格化是未来方向
风格参考仅支持单张图像，多风格参考可能提供更丰富的控制
体素化步骤的分辨率对风格质量的影响需要更多分析

评分¶

新颖性: ⭐⭐⭐⭐ 体素级3D风格损失和CrossBlock设计有创新，但整体框架是成熟组件的组合
实验充分度: ⭐⭐⭐⭐ 多数据集评估，消融系统性强，但基线对比可以更丰富
写作质量: ⭐⭐⭐⭐ 结构清晰，公式推导完整，但部分描述可以更简洁
价值: ⭐⭐⭐⭐ 首个真正可扩展的单次3D风格化方法，实用价值明确