A Step to Decouple Optimization in 3DGS¶

会议: ICLR 2026
arXiv: 2601.16736
代码: https://eliottdjay.github.io/adamwgs/
领域: 3D视觉
关键词: 3DGS, 优化器, Adam, 权重衰减, 稀疏优化

一句话总结¶

深入分析 3DGS 优化中被忽视的更新步耦合（不可见视点下的隐式更新和动量重缩放）和梯度耦合（正则化与光度损失在 Adam 动量中的耦合），通过解耦和重组提出 AdamW-GS 优化器，在不引入额外剪枝操作的情况下同时提升重建质量和减少冗余原语。

研究背景与动机¶

领域现状：3DGS 直接继承深度学习中的 Adam 优化器和同步更新策略，对所有原语（包括当前视点不可见的）同时更新。
现有痛点：(a) 更新步耦合：不可见视点下原语的零梯度仍会导致动量重缩放和隐式更新，影响效率和效果；(b) 梯度耦合：正则化损失与光度损失在 Adam 的自适应梯度中耦合，使正则化效果不可控——可能过强或过弱。Sparse Adam 虽提升效率但性能下降。
核心矛盾：3DGS 的原语优化不同于 DNN 的权重优化——每个属性有物理意义，每个原语有不同重要性，但现有优化器未考虑这些差异。
本文要解决什么？ 理解并解耦 3DGS 中的优化耦合，设计更好的优化策略。
切入角度：将 Adam 在 3DGS 中的行为分解为三个组件（Sparse Adam、Re-State 正则化、解耦属性正则化），分别研究其作用后重新组合。
核心 idea 一句话：将 AdamW 的解耦思想引入 3DGS，用 \(\nabla\mathcal{R}/\sqrt{\hat{v}}\) 形式的自适应正则化替代耦合正则化，使正则化强度根据原语的优化状态自动调整。

方法详解¶

整体框架¶

分三步解耦 3DGS 优化：(1) Sparse Adam 限制仅更新可见原语，(2) Re-State Regularization (RSR) 主动衰减动量来替代隐式更新中动量重缩放的功能，(3) Decoupled Attribute Regularization (DAR) 将正则化梯度从 Adam 动量中解耦并用第二动量自适应调节。最终重新组合为 AdamW-GS。

关键设计¶

Sparse Adam + Re-State Regularization (RSR):
做什么：用视点感知的异步更新替代同步更新，用主动动量衰减替代隐式更新的动量重缩放
核心思路：Sparse Adam 通过 \(\beta' = \beta \cdot \mathcal{V} + (1-\mathcal{V})\) 仅更新可见原语。RSR 在固定间隔采样原语并执行 \(m^{new} = \alpha_1 m^{old}\), \(v^{new} = \alpha_2 v^{old}\) 来主动衰减动量
设计动机：观察到 Sparse Adam 更稳定但探索性不足，Adam 的隐式更新虽嘈杂但有利于正则化激活和冗余移除。RSR 保留了动量衰减的好处而不引入隐式更新的副作用
Decoupled Attribute Regularization (DAR):
做什么：将正则化从 Adam 动量中解耦，用光度损失的第二动量自适应调节正则化强度
核心思路：\(\theta_{t+1} = \theta_t - \eta[\frac{\hat{m}'_t}{\sqrt{\hat{v}'_t}+\epsilon} + \min(\lambda_\theta \frac{\nabla\mathcal{R}/N_I}{\sqrt{\hat{v}'_t}+\epsilon}, \mathcal{C}_t)]\)，其中 \(\hat{v}'_t\) 仅由光度损失梯度计算
设计动机：(a) 欠优化区域 \(\nabla\ell\) 大 → \(\hat{v}\) 大 → 正则化小，不干扰重建；(b) 鞍点附近 \(\nabla\ell\) 小 → \(\hat{v}\) 小 → 正则化大，帮助逃离；(c) 耦合方式下直接放大 \(\lambda\) 10 倍就导致优化崩溃，解耦后可安全调节
AdamW-GS（重组）:
做什么：将 Sparse Adam + RSR + DAR 重新组合为完整优化器
核心思路：异步更新 + 周期性动量衰减 + 自适应解耦正则化
设计动机：分别验证了每个组件的作用后，只保留有益的部分重新组合

损失函数 / 训练策略¶

光度损失（L1 + DSSIM）不变，正则化损失（opacity L1 + scale L1）通过 DAR 方式解耦。在 vanilla 3DGS 中还加入噪声正则化促进探索。

实验关键数据¶

主实验¶

MipNeRF360 数据集 (vanilla 3DGS vs AdamW-GS):

方法	PSNR↑	SSIM↑	LPIPS↓	原语数(M)↓	冗余原语↓
3DGS (Adam)	27.507	0.815	0.216	3.33	0.23M dead
3DGS (Sparse Adam)	27.285	0.809	0.228	2.53	0.04M dead
AdamW-GS	27.75+	0.82+	0.20-	~2.5	极少

消融实验¶

组件	PSNR	\(\Delta N_a\)	说明
MCMC 基线	27.948	-3.75%	标准 Adam
+ Sparse Adam	27.998	+4.28%	效率提升但探索减少
+ AIU	28.050	+3.62%	人工隐式更新恢复探索
+ RSR	28.017	+0.51%	动量衰减激活正则化
+ DAR (opacity+scale)	28.27+	-	解耦正则化显著提升

关键发现¶

Sparse Adam 更稳定但探索性不足，Adam 的隐式更新虽有副作用但有利于正则化激活
动量重缩放（\(v\) 减小）放大了正则化的有效强度，解释了 Adam vs Sparse Adam 的行为差异
解耦后的正则化在不引入额外剪枝的情况下自动去除冗余原语——AdamW-GS 使 vanilla 3DGS 的 dead primitives 大幅减少
在 3DGS-MCMC 框架下，DAR 通过更强的正则化促进更多原语的重新分配，改善重建质量

亮点与洞察¶

从 DNN 优化到 3DGS 优化的深度迁移：AdamW 在 DNN 中的思想（解耦权重衰减）被创造性地应用到 3DGS，但不是简单移植——考虑了原语的物理意义，用 \(1/\sqrt{\hat{v}}\) 实现自适应而非常数惩罚
"隐式更新"的发现和分析：之前被忽视的零梯度下的动量重缩放和属性更新首次被系统分析，揭示了 3DGS 中 Adam 行为的独特面
无需剪枝的冗余消除：通过优化器设计而非后处理来解决冗余，是方法论层面的提升

局限性 / 可改进方向¶

RSR 的采样调度 (StSS) 需要手动设定，不同场景的最优调度可能不同
解耦正则化的 clipping 常数 \(\mathcal{C}_t\) 虽然经验上鲁棒但缺乏理论指导
仅在 MipNeRF360、Tanks&Temples 等标准场景验证，更大规模场景有待测试
对 3DGS 的各种下游扩展的适用性未全面验证

评分¶

新颖性: ⭐⭐⭐⭐ 将优化器设计视角引入 3DGS 分析中，发现并解释了之前被忽视的耦合现象
实验充分度: ⭐⭐⭐⭐⭐ 双框架 (3DGS + 3DGS-MCMC) 验证，大量消融，组件逐步添加实验详尽
写作质量: ⭐⭐⭐⭐ 分析深入，但符号和实验变体较多，有一定阅读门槛
价值: ⭐⭐⭐⭐ 为 3DGS 优化提供了新的理解角度和实用的优化器改进