CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting¶

会议: NeurIPS 2025
arXiv: 2505.22854
代码: 即将开源（论文承诺）
领域: 3D视觉 / 风格迁移
关键词: Gaussian Splatting, 风格迁移, CLIP, multi-modal, 3D/4D

一句话总结¶

CLIPGaussian 提出首个基于 Gaussian Splatting 的统一风格迁移框架，支持文本和图像引导的 2D 图像、视频、3D 物体和 4D 动态场景的风格化，作为即插即用模块集成到现有 GS 管线中，无需大规模生成模型或从头重训，且不改变模型大小。

研究背景与动机¶

领域现状：Gaussian Splatting (GS) 已成为从 2D 图像渲染 3D 场景的高效表示方法，并已扩展到图像、视频和 4D 动态内容。风格迁移作为视觉内容编辑的重要任务，在 2D 领域已相当成熟，但在 GS 表示上的风格迁移仍面临挑战。

现有痛点： - 现有 GS 风格迁移方法（StyleGaussian、ReGS、InstantStyleGaussian 等）仅修改颜色和不透明度，无法改变几何结构 - G-Style 虽然优化外观和几何，但会显著增加模型大小（Gaussian 数量翻倍以上） - 基于扩散模型的方法（如 Morpheus、Style3D）需要大模型，计算成本高且难以保证多视角一致性 - 没有统一框架能同时处理 2D、视频、3D 和 4D 场景的风格迁移 - 文本引导的 GS 编辑方法（I-GS2GS、DGE）主要针对编辑而非风格迁移

核心矛盾：GS 风格迁移在外观修改与几何变形之间的 trade-off——修改几何通常需要增加 Gaussian 数量，破坏原始模型的紧凑性

本文解决什么： - 如何在不改变 Gaussian 数量的前提下同时优化颜色和几何？ - 如何支持跨 2D/视频/3D/4D 多模态的统一风格迁移？ - 如何同时支持文本和图像两种风格引导方式？

切入角度：将风格迁移视为 GS 参数的微调问题，利用 CLIP 的跨模态对齐能力统一文本和图像作为风格条件，在保持原始 Gaussian 数量不变的前提下优化所有参数。

核心idea：将 CLIPStyler 的 patch-based CLIP loss 思想扩展到 GS 框架中，通过全局方向性 CLIP loss 和局部 patch CLIP loss 的组合，实现不改变模型大小的多模态风格迁移。

方法详解¶

整体框架¶

CLIPGaussian 采用两阶段训练流程：

阶段一：使用标准 GS 方法（3DGS/D-MiSo/MiRaGe/VeGaS）在输入数据上训练基础模型，获得场景的 Gaussian 表示 \(\mathcal{G} = \{(\mathcal{N}(m_i, \Sigma_i), \sigma_i, c_i, \theta_i)\}_{i=1}^n\)，其中 \(m_i\) 为均值位置，\(\Sigma_i\) 为协方差矩阵，\(\sigma_i\) 为不透明度，\(c_i\) 为球谐颜色，\(\theta_i\) 为模态相关的额外参数。

阶段二：在冻结 Gaussian 数量的前提下，使用风格条件 \(\mathcal{S}\)（图像或文本）通过 CLIP 和 VGG 引导微调所有 Gaussian 参数。每步选择一张训练图像 \(I_l\)，渲染重建 \(R_\mathcal{G}(I_l)\)，提取随机 patch 并应用随机透视增强，然后通过多组分损失更新 \(\mathcal{G}\) 的参数。

关键设计¶

统一 Gaussian 表示：不同模态使用不同的 GS 基础模型： - 3D 场景：标准 3DGS - 4D 动态场景：D-MiSo（多 Gaussian + 变形网络） - 2D 图像：MiRaGe（平面 Gaussian + 3D 潜空间） - 视频：VeGaS（3D 折叠 Gaussian）

关键在于，所有模态都可以统一为"一组 Gaussian 参数 + 渲染器"的形式，而风格迁移本质上是对这些参数的优化问题。

即插即用设计：CLIPGaussian 不修改基础模型的架构，不进行 densification 或 pruning，仅微调已有的 Gaussian 参数。这意味着： - 风格化后的模型大小与原始模型完全相同 - 可以通过线性插值 Gaussian 参数实现风格插值 - 对基础模型无侵入性，任何 GS 方法都可以作为基础

联合颜色与几何优化：3D 和 4D 场景中，CLIPGaussian 同时优化位置、颜色、缩放、旋转和不透明度参数，实现真正的几何变形而非仅改变颜色。视频模态中仅优化颜色以保持时间一致性。

损失函数 / 训练策略¶

总损失函数为四项加权组合：

\[L_{total} = \lambda_d L_d + \lambda_p L_p + \lambda_c L_c + \lambda_b L_b\]

内容损失 \(L_c\)：使用 VGG-19 的 conv4_2 和 conv5_2 特征计算原始图像 \(I_l\) 与渲染图像 \(R_\mathcal{G}(I_l)\) 之间的 MSE，保持内容结构：

\[L_c(R_\mathcal{G}(I_l), I_l) = MSE(\Phi_{VGG}(R_\mathcal{G}(I_l)), \Phi_{VGG}(I_l))\]

方向性 CLIP 损失 \(L_d\)（全局风格）：衡量渲染图与原图的 CLIP 嵌入变化方向是否与风格条件和"Photo"负提示之间的方向一致：

\[L_d = 1 - \cos(\Phi_{CLIP}(R_\mathcal{G}(I_l)) - \Phi_{CLIP}(I_l), \Phi_{CLIP}(\mathcal{S}) - \Phi_{CLIP}(\text{"Photo"}))\]

Patch CLIP 损失 \(L_p\)（局部风格）：对渲染图的随机 patch 应用透视增强后计算方向性 CLIP 损失的均值，关注局部细节：

\[L_p = \frac{1}{n}\sum_{i=1}^n L_d(p_i(R_\mathcal{G}(I_l)), I_l)\]

背景损失 \(L_b\)：约束背景区域不被风格化污染，计算背景 mask 区域的 L1 距离。

默认超参数：\(\lambda_b=1000\), \(\lambda_p=90\), \(\lambda_d=5\), \(\lambda_c=0.8\), patch_size=128, num_patch=64, 训练 5000 步，无 densification/pruning。

实验关键数据¶

主实验¶

3D 文本引导风格迁移（NeRF-Synthetic + Mip-NeRF 360）：

方法	CLIP-S ↑	CLIP-SIM ↑	CLIP-CONS ↑	CLIP-F ↑	模型大小变化
I-GS2GS	16.80	12.03	99.19	13.53	-36%
DGE	17.59	12.27	99.31	12.46	-5%
CLIPGaussian	26.86	26.31	98.80	2.34	+0%

3D 图像引导风格迁移：

方法	CLIP-S ↑	CLIP-SIM ↑	CLIP-CONS ↑	CLIP-F ↑	模型大小变化
StyleGaussian	63.69	13.07	98.87	1.36	+0%
G-Style	76.94	24.94	98.94	1.31	+126%
CLIPGaussian	72.65	20.72	98.78	1.77	+0%

视频风格迁移（DAVIS 数据集，图像引导）：

方法	CLIP-S ↑	CLIP-SIM ↑	CLIP-CONS ↑	CLIP-F ↑
CCPL	18.89	8.20	97.92	-0.02
UniST	15.93	3.85	99.36	5.16
CLIPGaussian	74.31	17.60	99.18	1.27

视频风格迁移（文本引导）：

方法	CLIP-S ↑	CLIP-SIM ↑	CLIP-CONS ↑	CLIP-F ↑
Rerender	19.40	9.83	98.23	-0.03
Text2Video	26.05	24.99	93.63	0.03
CLIPGaussian	26.25	24.53	99.00	1.92

消融实验¶

Feature learning rate 的影响（3D，CLIP 指标）：

feature_lr	CLIP-S ↑	CLIP-SIM ↑	CLIP-CONS ↑	CLIP-F
32	18.53	19.51	98.08	15.02
128	25.60	29.78	97.87	6.93
256	27.45	32.65	97.96	4.42

\(\lambda_p\) 和 \(\lambda_d\) 参数影响：

\(\lambda_p\)	CLIP-S	CLIP-SIM	CLIP-CONS	CLIP-F
0	16.00	14.12	98.74	11.03
90 (默认)	23.67	25.07	97.95	2.36
180	24.36	25.27	97.78	1.48

训练时间对比：

场景	Gaussian数量	风格化时间
hotdog	0.14M	11m29s
lego	0.31M	11m36s
bonsai	1.35M	11m37s
garden	4.48M	21m03s

关键发现¶

文本引导占优：CLIPGaussian 在文本引导风格迁移中显著优于所有基线（CLIP-S 提升 50%+），主要因为 CLIP 的文本-图像对齐天然适合此任务
零模型膨胀：与 G-Style (+126% Gaussian 数量) 不同，CLIPGaussian 保持原始模型大小不变，具有实际部署优势
时间一致性优势：Gaussian 表示天然跨帧共享，风格修改自动传播到所有相关帧，比帧间传播方法更一致
用户研究验证：正式用户研究中（CLICKworker 平台，30 名参与者/调查），CLIPGaussian 在文本引导场景中排名最高

亮点与洞察¶

统一性设计理念：首次在单一框架中统一 2D/视频/3D/4D 四种模态的风格迁移，证明 GS 作为通用基底的潜力
即插即用的实用性：不修改基础架构、不改变模型大小的设计非常适合工程部署
风格插值能力：由于 Gaussian 数量不变，可以通过线性插值参数实现平滑的风格过渡
Patch-based CLIP loss 的扩展：将 CLIPStyler 的 2D 方法优雅地扩展到 3D/4D 领域

局限与展望¶

2D 图像风格化质量不如大模型或扩散模型方法（如 ChatGPT-4o），这是 GS 方法的固有限制
风格化效果依赖基础模型的重建质量——如果基础模型重建差，风格化可能产生不合理结果
训练时间（~11 分钟/场景）虽然合理但非实时
CLIP 模型的语义理解有限，对于复杂抽象风格描述可能不够精准
4D 场景的对比实验受限（4DStyleGaussian 当时无代码，仅做视觉对比）

评分¶

新颖性: ⭐⭐⭐⭐ — 首个跨 4 种模态的统一 GS 风格迁移框架
技术深度: ⭐⭐⭐ — 核心技术是 CLIP loss 的组合，相对直接
实验充分度: ⭐⭐⭐⭐⭐ — 四种模态全面评估，用户研究，大量消融
写作质量: ⭐⭐⭐⭐ — 结构清晰，可视化丰富
实用性: ⭐⭐⭐⭐ — 即插即用设计有实际应用价值