Quantifying and Alleviating Co-Adaptation in Sparse-View 3D Gaussian Splatting¶

会议: NeurIPS 2025
arXiv: 2508.12720
代码: 无
领域: 3D视觉
关键词: 3D高斯溅射, 稀疏视角, 协同适应, Dropout, 新视角合成

一句话总结¶

本文揭示了稀疏视角 3D Gaussian Splatting 中外观伪影的核心成因——高斯体之间的协同适应（co-adaptation）现象，提出了 Co-Adaptation Score（CA）度量指标来量化这一纠缠程度，并设计了 Gaussian Dropout 和不透明度乘性噪声注入两种即插即用的正则化策略，在五种基线方法和三个数据集上均显著降低了 co-adaptation 并提升了新视角渲染质量。

研究背景与动机¶

领域现状：3D Gaussian Splatting（3DGS）在密集视角设置下已经展现出令人瞩目的新视角合成能力，其核心思想是用一组三维高斯椭球体来表征场景，通过可微分的 alpha 合成进行渲染。每个像素的颜色由多个投影到该位置的高斯体加权混合得到，这种多高斯合成机制是 3DGS 高效拟合场景外观的基础。然而，当训练视角从密集降到稀疏（例如仅 3 个视角）时，3DGS 在新视角渲染中常常出现明显的质量退化——不仅有几何失真，还有大量"外观伪影"（appearance artifacts），表现为渲染图像中出现场景中本不存在的异常颜色斑点。

现有痛点：目前改进稀疏视角 3DGS 的主流工作几乎都聚焦于几何正则化。例如 DNGaussian、FSGS、CoherentGS 等方法引入单目深度先验来约束多视角深度一致性；Binocular3DGS 利用预训练关键点匹配器生成更密集的初始化点云；还有一些方法利用扩散模型生成先验来合成未见视角。但这些工作的关注点主要在几何精度上，鲜有研究真正深入分析稀疏视角下的"外观伪影"从何而来、为何产生。那些偶尔出现在新视角中的色彩异常——比如花朵场景中冒出的紫色斑点、恐龙场景中出现的粉红色噪点——虽然常见，却一直被忽视。

核心矛盾：问题的根源在于 3DGS 的优化目标与场景表征方式之间存在根本性张力。3DGS 的训练目标是最小化渲染图像与训练视角真值之间的重建损失 \(\mathcal{L}(R(\mathcal{G},v), I_v)\)，这个损失函数只监督最终的渲染输出，对高斯体的内部参数（位置、形状、颜色、不透明度）没有任何显式约束。在密集视角下，大量不同方向的监督信号迫使每个高斯体学到真实的场景外观；但在稀疏视角下，监督信号极其有限，多个颜色各异的高斯体可以自由"协同合作"来拟合同一个像素——只要它们加权混合后的颜色匹配训练视角真值即可，它们各自的颜色可以完全偏离场景真实外观。这就像神经网络中的"co-adaptation"问题：多个神经元过度依赖彼此来完成任务，单独使用时每个神经元的输出都是无意义的。

本文目标 论文将问题分解为三个层次：（1）如何刻画和理解稀疏视角 3DGS 中高斯体之间的协同适应现象？（2）如何定量度量这种协同适应的严重程度？（3）如何设计轻量级策略来有效缓解这种协同适应，从而消除外观伪影、提升新视角渲染质量？

切入角度：作者从神经网络中经典的 co-adaptation（协同适应）概念出发进行类比推理。在经典深度学习中，Hinton 等人早在 2012 年就发现神经网络中的神经元会形成过度依赖关系导致过拟合，提出 Dropout 随机失活策略来打破这种依赖。作者敏锐地意识到，3DGS 中的高斯体与神经网络中的神经元存在结构性相似——同一像素的颜色由多个高斯体协同产生，就如同神经网络中一个输出由多个神经元协同计算。如果把这个类比推到底，Dropout 的思想同样可以用来打破高斯体之间的过度纠缠。

核心 idea：将神经网络中关于协同适应的理论洞察迁移到 3DGS 场景表征中，通过随机丢弃高斯体（Dropout）或注入不透明度噪声来强制每个高斯体独立编码正确的场景外观，从而消除稀疏视角下的外观伪影。

方法详解¶

整体框架¶

本文的方法框架分为"诊断"和"治疗"两个层面。诊断层面：提出 Co-Adaptation Score（CA）度量指标，通过对同一视角进行多次随机子集渲染并计算像素级方差来量化高斯体之间的纠缠程度。治疗层面：提出两种即插即用的正则化策略——Random Gaussian Dropout 和 Multiplicative Opacity Noise，直接作用于训练过程中的高斯体集合或不透明度参数，无需修改基线方法的任何网络结构或损失函数。整个方法的输入是标准的 3DGS 训练流程（高斯体集合 + 训练视角），输出是正则化后的高斯体场景表示，用于高质量的新视角渲染。

关键设计¶

Co-Adaptation Score（CA）度量指标:
- 功能：定量衡量一组优化好的高斯体在某个视角下的协同适应严重程度，输出一个标量值，CA 值越高表示高斯体之间的纠缠越严重。
- 核心思路：核心直觉是——如果一组高斯体是过度相互依赖的，那么随机移除其中一部分后渲染结果应该剧烈变化；反之，如果它们是独立的，随机移除一部分后渲染结果应该相对稳定。具体做法是对完整高斯体集合进行 \(K\) 次随机 50% Dropout，得到 \(K\) 个不同的子集，用每个子集渲染同一个目标视角，得到 \(K\) 张渲染图像 \(\{I^{(1)}, \ldots, I^{(K)}\}\)。然后定义可见区域 \(\Omega_v = \bigcap_{k=1}^K \{u \mid \alpha_u^{(k)} > 0.8\}\)（所有渲染中累积 alpha 都超过 0.8 的像素交集），在可见区域上计算像素级方差的均值作为 CA 分数：\(\mathrm{CA}(v) = \frac{1}{|\Omega_v|}\sum_{u \in \Omega_v}\mathrm{Var}(I_u^{(1)}, \ldots, I_u^{(K)})\)。这个指标的物理含义非常清晰——高方差意味着高斯体的颜色分布高度不一致，不同子集给出了差异巨大的渲染结果，说明它们在"联合表演"时严重依赖彼此。论文还在附录中给出了理论推导，证明 CA 分数直接反映了高斯体颜色属性与不透明度属性之间的耦合程度。
- 设计动机：在提出缓解策略之前，首先需要一个客观的量化工具来（1）验证"co-adaptation 导致外观伪影"这一假说的正确性，（2）评估不同缓解策略的有效性，（3）理解 co-adaptation 随训练视角数量和训练迭代的变化规律。传统的渲染质量指标（PSNR、SSIM、LPIPS）只能间接反映问题，无法直接衡量高斯体内部的纠缠状态。CA 指标填补了这个空白，使得"co-adaptation"从一个定性概念变成了一个可定量追踪的现象。
Random Gaussian Dropout 正则化:
- 功能：在 3DGS 训练的每一轮迭代中，以概率 \(p\) 随机丢弃一部分高斯体，仅用剩余的子集进行渲染和梯度回传，测试时使用所有高斯体但对不透明度进行缩放补偿。
- 核心思路：训练时，为每个高斯体独立采样一个伯努利随机变量 \(z_g \sim \text{Bernoulli}(1-p)\)，只保留 \(z_g=1\) 的高斯体构成训练子集 \(\mathcal{G}_\text{train} = \{g \in \mathcal{G} \mid z_g = 1\}\)，用这个子集渲染图像并与真值计算损失。测试时，不做 Dropout，但将所有高斯体的不透明度乘以 \((1-p)\) 来补偿训练时的随机丢弃效应：\(\alpha_g^{\text{test}} = (1-p) \cdot \alpha_g^{\text{train}}\)。这与神经网络中 Dropout 的推理缩放完全类比。最优的 Dropout 概率为 \(p=0.2\)，既能有效打破纠缠又不会过度损失信息。
- 设计动机：Dropout 的核心效果是强迫每一条渲染光线在部分高斯体缺失的情况下仍然产生正确的颜色。这意味着模型不能依赖任何固定的高斯体组合来拟合某个像素——沿同一光线的邻近高斯体必须学到相似的颜色和不透明度特征，使它们之间可以相互替代。此外，由于训练时部分高斯体被随机丢弃，剩余高斯体倾向于增大体积以保持一致的表面覆盖，这有助于减少几何不一致和表面空洞，对稀疏视角设置尤其有利。Dropout 不仅打破了外观纠缠，还间接改善了几何结构。
Multiplicative Opacity Noise 注入:
- 功能：在训练过程中对每个高斯体的不透明度参数注入乘性高斯噪声，轻微扰动每个高斯体对最终像素颜色的贡献权重。
- 核心思路：在每一轮训练迭代中，对不透明度进行扰动：\(\text{opacity} \leftarrow \text{opacity} \cdot (1 + \epsilon)\)，其中 \(\epsilon \sim \mathcal{N}(0, \sigma^2)\)。最优噪声尺度为 \(\sigma = 0.8\)。这种乘性噪声的效果是让每个高斯体对渲染的贡献在每次迭代中都略有不同——有时权重偏高、有时偏低——迫使整体表示对单个高斯体的不透明度变化保持鲁棒。值得注意的是，作者在设计时系统地比较了对不同参数注入噪声的效果：对 3D 位置注入噪声会导致训练不稳定和模糊；对 SH 系数注入噪声效果甚微，因为 SH 只影响颜色不影响可见性或每像素参与的高斯体数量；对尺度注入噪声虽然也能降低 co-adaptation 但会引入明显模糊。只有不透明度噪声实现了"足够软"的扰动——既不会破坏收敛也不会引入模糊，同时有效地动摇了协同适应高斯体之间的依赖结构。
- 设计动机：不透明度在 3DGS 渲染公式中扮演着关键角色——它直接决定了每个高斯体在 alpha 合成中的混合权重。协同适应的高斯体之所以能够"合谋"产生正确的训练像素颜色，正是因为它们的不透明度和颜色形成了精确配合的组合。通过对不透明度注入噪声，这种精确的配合关系在每次迭代中都被打破，迫使模型学到一个对不透明度微小变化具有鲁棒性的表示。相比于 Dropout（完全移除高斯体），不透明度噪声提供了更柔和、更连续的正则化信号，可以看作是 Dropout 的"软"版本。

损失函数 / 训练策略¶

两种正则化策略都不引入任何额外的损失函数项，它们作用于渲染过程本身而非损失函数。具体来说：

Dropout 策略直接在渲染前修改参与渲染的高斯体集合，渲染后仍然使用基线方法原有的重建损失（通常是 L1 + SSIM 的组合）进行反向传播。测试时通过不透明度缩放 \((1-p)\) 来补偿。这种"零额外成本"的特性使得策略的集成极其简便——无需修改任何训练代码的损失计算部分。
不透明度噪声策略在每次前向渲染时对不透明度参数进行扰动，同样不改变损失函数。扰动仅在前向传播阶段施加，梯度可以正常地通过扰动后的不透明度回传到原始参数。
两种策略可以分别使用也可以组合使用，但实验表明组合使用并没有带来超越单独使用的额外收益——这说明它们本质上解决的是同一个问题（即 co-adaptation），而非正交的不同问题。这一"不可叠加"的结论是验证核心假说的重要证据。
关于测试时的渲染策略，论文对比了三种方案：（A）推理时仍做随机 Dropout 单次渲染、（B）执行 5 次随机 Dropout 渲染后对结果取均值、（C）使用全部高斯体但将不透明度乘以 \((1-p)\) 进行单次渲染。结果表明策略 C 在质量和效率上达到了最佳平衡——与方案 B 质量持平但速度快 5 倍，且明显优于方案 A。

实验关键数据¶

主实验¶

论文在 LLFF（3 views）、DTU（3 views）、Blender（8 views）三个数据集上，对 3DGS、DNGaussian、FSGS、CoR-GS、Binocular3DGS 五种基线方法分别验证了两种策略的有效性。

LLFF 数据集（3 个训练视角）

方法	设置	PSNR↑	SSIM↑	LPIPS↓	Train CA↓	Test CA↓
3DGS	baseline	19.36	0.651	0.232	0.00754	0.00821
3DGS	w/ dropout	20.20	0.691	0.211	0.00175	0.00234
3DGS	w/ opacity noise	19.91	0.676	0.223	0.00153	0.00230
DNGaussian	baseline	18.93	0.599	0.295	0.00723	0.00765
DNGaussian	w/ dropout	19.43	0.623	0.302	0.00324	0.00382
FSGS	baseline	20.43	0.682	0.248	0.00458	0.00476
FSGS	w/ dropout	20.82	0.716	0.200	0.00193	0.00221
CoR-GS	baseline	20.17	0.703	0.202	0.00503	0.00516
CoR-GS	w/ dropout	20.64	0.712	0.217	0.00144	0.00162
Binocular3DGS	baseline	21.44	0.751	0.168	0.00185	0.00195
Binocular3DGS	w/ dropout	22.12	0.777	0.154	0.00088	0.00098
Binocular3DGS	w/ opacity noise	22.12	0.780	0.155	0.00066	0.00076

DTU 数据集（3 个训练视角）

方法	设置	PSNR↑	SSIM↑	LPIPS↓	Train CA↓	Test CA↓
3DGS	baseline	17.30	0.824	0.152	0.00210	0.00287
3DGS	w/ dropout	17.75	0.850	0.135	0.00076	0.00226
DNGaussian	baseline	18.91	0.790	0.176	0.00511	0.00574
DNGaussian	w/ dropout	19.86	0.828	0.149	0.00120	0.00192
Binocular3DGS	baseline	20.71	0.862	0.111	0.00140	0.00158
Binocular3DGS	w/ dropout	21.03	0.875	0.108	0.00075	0.00115

消融实验¶

Dropout 概率 \(p\) 的影响（Binocular3DGS, LLFF）

Dropout \(p\)	PSNR↑	SSIM↑	LPIPS↓	Train CA↓	Test CA↓
0.0 (Baseline)	21.440	0.751	0.168	0.001845	0.001951
0.1	21.901	0.768	0.157	0.000995	0.001066
0.2	22.123	0.777	0.154	0.000875	0.000978
0.3	22.037	0.777	0.156	0.000848	0.000951
0.4	22.025	0.775	0.158	0.000849	0.000926
0.5	21.927	0.773	0.163	0.000871	0.000982
0.6	21.793	0.768	0.170	0.000848	0.000978

不透明度噪声尺度 \(\sigma\) 的影响（Binocular3DGS, LLFF）

噪声尺度 \(\sigma\)	PSNR↑	SSIM↑	LPIPS↓	Train CA↓	Test CA↓
0.0 (Baseline)	21.440	0.751	0.168	0.001845	0.001951
0.2	21.864	0.764	0.161	0.001126	0.001239
0.4	22.065	0.774	0.155	0.000859	0.000964
0.6	21.999	0.777	0.155	0.000794	0.000895
0.8	22.119	0.780	0.155	0.000660	0.000762
1.0	22.053	0.779	0.159	0.000560	0.000640

测试时渲染策略对比（Binocular3DGS w/ dropout \(p=0.2\), LLFF）

策略	PSNR↑	SSIM↑	LPIPS↓
A: 推理时单次 Dropout	21.977	0.769	0.162
B: 多次 Dropout 取均值 (5×)	22.124	0.776	0.157
C: 全部高斯体 + 缩放不透明度	22.123	0.777	0.154

关键发现¶

Dropout 总体优于不透明度噪声：在几乎所有基线方法和数据集上，Dropout 在渲染质量指标（PSNR、LPIPS）上的改善幅度大于不透明度噪声。例如，3DGS 在 LLFF 上 baseline PSNR 19.36，Dropout 提升到 20.20（+0.84 dB），噪声只提升到 19.91（+0.55 dB）。但在 Binocular3DGS 这种已经比较强的基线上，两者效果接近甚至噪声在某些指标上略优。
两种策略不可叠加：对 Binocular3DGS 同时施加 Dropout 和不透明度噪声（"w/ both"行），PSNR 为 22.11，与单独使用 Dropout（22.12）或单独使用噪声（22.12）几乎完全相同。这是因为它们本质上解决的是同一个 co-adaptation 问题，叠加使用没有正交收益。
CA 分数与渲染质量存在非单调关系：CA 值越低不一定渲染质量越好。从 Dropout 消融实验看，\(p=0.2\) 给出了最佳 PSNR（22.123），其 Test CA 为 0.000978；而 \(p=0.6\) 的 Test CA 更低（0.000978），但 PSNR 反而降到 21.793。类似地，不透明度噪声 \(\sigma=1.0\) 的 CA 最低（0.000640）但 PSNR（22.053）不如 \(\sigma=0.8\)（22.119）。这说明过度抑制 co-adaptation 可能损害模型的表达能力。
三个经验性发现具有一致性：（1）增加训练视角数量自然降低 CA——这是最核心的观察，说明 co-adaptation 本质上是稀疏约束的产物；（2）训练早期 CA 先快速下降后趋于稳定；（3）训练视角的 CA 始终低于新视角的 CA——因为训练视角有直接监督，co-adaptation 更容易被抑制。
Binocular3DGS 在 20K 迭代后 CA 异常上升：这是因为该方法在 20K 步后引入了 warp-based photometric loss，这种基于视角变换的监督可能引入几何不匹配，反而强化了高斯体之间的不良依赖关系。Dropout 和噪声策略可以有效抑制这一尖峰。

亮点与洞察¶

将神经网络理论迁移到 3D 场景表征：这项工作最巧妙之处在于看到了 3DGS 中高斯体与神经网络中神经元的结构性类比——同一个像素由多个高斯体协同产生颜色，正如同一个输出由多个神经元协同计算。这个类比不仅是定性的比喻，还引出了可量化的 CA 指标和可操作的 Dropout/噪声策略，整条逻辑链非常完整。
度量指标设计精巧且直觉清晰：CA Score 的设计——"随机丢掉一半高斯体看渲染有多不稳定"——极其符合直觉，实施简单但物理意义明确。更重要的是它还有理论支撑（附录中证明了 CA 直接反映颜色-不透明度耦合），使其不仅仅是一个经验性指标。这种度量指标设计思路可以迁移到任何基于多元素合成的表征系统——例如 NeRF 中的采样点、Mesh 中的面片等。
"不可叠加"的发现具有理论价值：两种策略组合使用没有额外收益这一发现，反过来证明了它们确实在解决同一个问题（co-adaptation），而非碰巧在不同维度上都有正面效果。这种"阴性结果"实际上强化了论文的核心论点。
对不同参数注入噪声的系统比较：作者并非直接选定不透明度噪声，而是先系统比较了对位置、SH 系数、尺度、不透明度分别注入噪声的效果，逐一排除后选择了不透明度。这种严谨的消融对理解 3DGS 各参数的功能角色很有启发。

局限与展望¶

缺乏自适应机制：当前的 Dropout 概率 \(p\) 和噪声尺度 \(\sigma\) 是固定超参数，需要手动调优。理想情况下应该有一种自适应机制——根据当前 CA 分数动态调整正则化强度，在训练早期 co-adaptation 严重时加大正则化、在后期收敛时减弱。
CA 指标的计算开销：虽然 CA 不参与训练，但每次计算需要多次随机 Dropout 渲染，在大规模场景下开销不小。如果要将 CA 作为自适应正则化的信号，需要设计更高效的近似计算方法。
对不同场景类型的表现差异未充分分析：Blender 数据集上 3DGS baseline 出现了"训练视角 CA 高于测试视角 CA"的反常现象，作者只简单归因于"环形物体场景结构和 8 视角覆盖"，但没有深入分析。不同场景类型（室内/室外、有无重复纹理、物体/场景级别）中 co-adaptation 的表现模式可能相当不同。
Dropout 对高斯体尺度的影响是附带效应：作者指出 Dropout 会使剩余高斯体趋向增大尺度以维持覆盖，这虽然有助于减少几何空洞，但也可能导致过度平滑。论文没有量化分析这种尺度膨胀的程度及其对渲染细节的潜在负面影响。
没有与最新的 feed-forward 方法对比：论文只在 per-scene optimization 的方法上验证了策略的有效性，没有探讨 co-adaptation 概念是否也适用于 feed-forward 3DGS 方法（如 pixelSplat、MVSplat、DepthSplat 等），这些方法使用预训练网络直接预测高斯体参数，其 co-adaptation 模式可能完全不同。此外也没有探索针对几何伪影（如浮动高斯体）的类似分析，仅聚焦外观伪影。
理论分析深度有限：虽然附录中给出了 CA 与颜色-不透明度耦合的理论推导，但关于 Dropout/噪声为何能有效降低 co-adaptation 的理论保证仍然缺乏。为什么 \(p=0.2\) 或 \(\sigma=0.8\) 是最优值？是否存在与场景复杂度、高斯体数量相关的理论最优选择？这些问题有待进一步探索。

评分¶

新颖性: ⭐⭐⭐⭐ 核心概念（3DGS 中的 co-adaptation）是一个长期被忽视但确实重要的视角，CA 指标设计新颖且有理论支撑，但具体策略（Dropout、噪声注入）本身并非原创技术。
实验充分度: ⭐⭐⭐⭐⭐ 五种基线方法 × 三个数据集的全面验证，Dropout 概率、噪声尺度、推理策略的详细消融，训练动态分析，视觉对比均非常充分。
写作质量: ⭐⭐⭐⭐⭐ 从现象观察到度量定义到策略设计到实验验证的逻辑链条极其清晰，Figure 2 的 co-adaptation 可视化解释直观易懂。
价值: ⭐⭐⭐⭐ 提出的 co-adaptation 视角和 CA 指标对理解和改进稀疏视角 3DGS 有概念性贡献，两种即插即用策略实用性强且集成成本极低，但长远影响取决于社区是否围绕这一概念发展更高级的缓解机制。