SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation¶

会议: CVPR 2026
arXiv: 2603.07789
代码: https://github.com/zx-pan/SGI
领域: 模型压缩 / 图像表征
关键词: 2D高斯溅射, 图像表征, 结构化高斯, 熵编码, 多尺度拟合

一句话总结¶

提出 SGI，通过种子点（seed）组织非结构化 2D 高斯基元并用轻量 MLP 解码属性，配合上下文模型驱动的熵编码和多尺度拟合策略，实现高分辨率图像表征中最多 7.5× 压缩和 6.5× 加速，同时保持或提升保真度。

研究背景与动机¶

领域现状：2D 高斯溅射已成为新的图像表征技术，支持在低端设备上高效渲染。但扩展到高分辨率需要百万级非结构化高斯基元，导致收敛慢和参数冗余。
现有痛点：GaussianImage 等方法独立优化每个高斯，未利用空间局部性（相邻像素通常共享相似颜色和纹理），导致相邻基元间大量参数冗余。
核心矛盾：3D 场景中 anchor-based 方法（如 Scaffold-GS）能有效压缩，但直接迁移到 2D 因已去除的参数（如不透明度）而压缩效果有限（仅约 3%）。
本文目标：为高分辨率图像设计紧凑且高效的 2D 高斯表征。
切入角度：引入种子点组织高斯基元，并在种子级别进行熵编码以进一步压缩。
核心 idea：种子点 + 共享 MLP → 结构化高斯 → 熵编码去除剩余冗余 → 多尺度拟合加速优化。

方法详解¶

整体框架¶

(1) 种子点均匀覆盖图像，每个种子关联 \(K\) 个高斯基元，两个共享 MLP 解码颜色和协方差；(2) 上下文模型+二值化哈希网格估计种子属性分布进行熵编码；(3) 多尺度拟合从粗到精渐进优化。

关键设计¶

种子基2D神经高斯:
- 功能：将非结构化高斯组织为紧凑的种子级表征
- 核心思路：每个种子位于 \(x_a\) 处，关联属性 \(\mathcal{A} = \{f_a, s_o, s_a, \delta\}\)（特征向量、偏移缩放、尺度缩放、\(K\) 个偏移量）。高斯位置由 \(\mu^{(k)} = x_a + \delta^{(k)} \cdot s_o\) 计算。两个共享 MLP \(\text{MLP}_c\) 和 \(\text{MLP}_\Sigma\) 从 \(f_a\) 解码颜色和协方差。每个高斯仅需 8 个参数。
- 设计动机：通过共享 MLP 和种子级特征向量利用空间局部性，大幅减少参数量。
上下文模型驱动的熵编码:
- 功能：进一步压缩种子属性的剩余空间冗余
- 核心思路：可学习二值化哈希网格 \(\mathcal{H}\) 编码种子的空间一致性。上下文 MLP 从哈希特征预测每个种子属性分量的均值 \(\mu_j^{(i)}\) 和标准差 \(\sigma_j^{(i)}\)，用于算术编码。训练时用均匀噪声注入模拟量化，量化步长通过可学习精炼因子调整。
- 设计动机：种子基表征引入的结构规律性使得属性分布可建模，实现有效压缩。仅种子化不足（约 3% 压缩），必须结合熵编码。
多尺度拟合策略:
- 功能：加速优化并提升稳定性
- 核心思路：构建高斯金字塔 \(\{I_0=I, I_1, ..., I_{M-1}\}\)，从最粗层开始优化，将优化结果作为下一层的初始化（位置和尺度按 2× 缩放）。固定总迭代次数，层间递进。
- 设计动机：直接在全分辨率上优化收敛慢且不稳定，尤其加上量化感知训练和概率建模的开销。粗到精的热启动显著加速。

损失函数 / 训练策略¶

\(L = L_{\text{img}} + \frac{\lambda}{N \cdot d_{\mathcal{A}}} (L_{\text{entropy}} + L_{\text{hash}})\)。\(\lambda=0.001\)，\(M=3\) 层金字塔，15000 步优化。

实验关键数据¶

主实验¶

方法	FGF2 PSNR↑	大小(MB)↓	优化时间(min)↓
SGI (低码率, 3.5M)	31.24	16.33	48.43
GaussianImage	27.30	23.37	322.17
LIG	32.10	106.81	87.56
SGI (高码率, 10M)	36.27	41.74	97.75
3DGS	34.93	787.73	642.85

消融实验¶

配置	FGF2 PSNR	大小	说明
λ=0 (无熵编码)	32.36	104.08	种子化几乎不压缩
λ=0.001	31.24	16.33	6.4× 压缩
K=5	31.29	18.48	少高斯每种子
K=10 (默认)	31.24	16.33	质量-紧凑平衡
M=1 (无多尺度)	30.58	-	71.59 min
M=3 (默认)	31.24	-	48.43 min

关键发现¶

仅用种子化压缩约 3%，熵编码是核心——将 104MB 压缩到 16MB
多尺度拟合不仅加速 32%（71→48 min）还提升 PSNR 0.66 dB
特征空间 KNN 在低码率下优于 JPEG（PSNR +3.3 dB @ 0.245 bpp）
K=10 是最佳平衡点，过多高斯增大 MLP 和特征维度

亮点与洞察¶

种子+MLP 的参数共享：将非结构化高斯转化为结构化表征，使熵编码成为可能
熵编码是关键：不同于 3D 场景中 anchor 化即可大幅压缩，2D 场景必须显式熵建模
多尺度拟合的双重收益：既加速又提升质量，因为粗层提供良好初始化

局限与展望¶

种子数 \(N\) 和每种子高斯数 \(K\) 均为固定超参数，未实现内容自适应
当前用均匀噪声模拟量化，更高级的 QAT 技术可能进一步提升
仅在单图像表征上验证，视频扩展值得探索

评分¶

新颖性: ⭐⭐⭐⭐ 种子级熵编码是2D高斯表征压缩的首次尝试
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集域+全面消融+与压缩基线对比
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富
价值: ⭐⭐⭐⭐ 为高分辨率图像的紧凑表征提供了有效方案