跳转至

Splat Feature Solver

会议: ICLR 2026
arXiv: 2508.12216
代码: 有 (GitHub)
领域: 3D视觉 / 3D场景理解
关键词: Feature Lifting, 3D Gaussian Splatting, 线性逆问题, 开放词汇3D分割, Tikhonov正则化

一句话总结

将3D splat表示的特征提升(feature lifting)问题统一建模为稀疏线性逆问题 \(AX=B\),提出闭式求解器并证明其在凸损失下的 \((1+\beta)\)-近似误差上界,配合 Tikhonov 引导和后聚合过滤两种正则化策略,在开放词汇3D分割任务上达到SOTA。

研究背景与动机

领域现状:基于 splat 的3D表示(3DGS、2DGS 等)已实现实时高保真渲染,但将丰富的2D语义特征(CLIP、DINO 等)提升到3D primitives仍是挑战。现有方法分为三类:训练式优化、分组式关联、启发式前向投影。

现有痛点:(1) 缺乏统一的数学框架来定义 feature lifting 问题;(2) 现有方法没有理论保证解的质量与最优解的距离;(3) 所有方法仅聚焦 SAM+CLIP 特征和 3DGS kernel,泛化能力受限;(4) 未显式处理多视角不一致和噪声 mask 问题。

核心矛盾:feature lifting 本质上是一个稀疏的、行随机的线性逆问题,会因噪声 mask 和不完备性变得病态(ill-conditioned),但现有方法要么需要昂贵训练,要么缺乏理论保障。

本文目标 建立 feature lifting 的形式化数学框架,提供闭式解和误差上界,并处理多视角噪声。

切入角度:利用 alpha blending 渲染的行随机性质,将 feature lifting 转化为标准线性逆问题,通过 Jensen 不等式推导代理损失的最优解。

核心 idea:feature lifting 可表述为 \(AX=B\),其中 \(A\) 是渲染权重矩阵,row-sum preconditioner 给出的闭式解 \(x_j = \frac{\sum_i A_{ij} B_i}{\sum_i A_{ij}}\) 在凸损失下有可证明的 \((1+\beta)\)-近似保证。

方法详解

整体框架

输入预计算的 splat 几何、相机参数和2D密集特征观测 → 构造 Splat Sensor Matrix \(A\) 和观测向量 \(B\) → 用 row-sum preconditioner 闭式求解 \(X\) → 通过 Tikhonov Guidance 增强系统稳定性 → 通过 Post-Lifting Aggregation 过滤噪声 mask → 输出每个 primitive 的特征向量。

关键设计

  1. Feature Lifting 线性逆问题建模与闭式求解器:

    • 做什么:将 feature lifting 形式化为 \(AX=B\)\(A \in \mathbb{R}^{R \times P}\)\(R\) 为射线数,\(P\) 为 primitive 数),推导 row-sum preconditioner 闭式解
    • 核心思路:利用 alpha blending 的行随机性 \(\sum_j A_{ij} \approx 1\),通过 Jensen 不等式构造代理损失 \(\mathcal{J}(x) = \sum_i \sum_j A_{ij} \|x_j - B_i\| \geq \mathcal{L}(x)\),对代理损失求最优得闭式解。证明 \(\mathcal{L}(x') \leq (1+\beta)\mathcal{L}(\hat{x})\),其中 \(\beta\) 衡量最优解沿视线的特征离散度
    • 设计动机:SGD 从头训练太慢,已有启发式方法(如 row-sum 加权)被多个工作独立提出但无理论保证,本文统一了理论框架并证明它们是特例
  2. Tikhonov Guidance 正则化:

    • 做什么:通过调节 opacity 激活函数增强 \(A^T A\) 的对角优势性,降低 \(\beta\)
    • 核心思路:根据 \(\beta\) 与对角优势度的负相关关系(Property 4),在 feature lifting 阶段对 opacity 值做非线性软极化(趋向0或1),使每条射线上主要由一个 primitive 贡献,从而减小误差上界
    • 设计动机:线性系统 \(A\) 可能秩亏或近奇异,传统 Tikhonov 正则 \(\|Ax-b\|^2 + \|\lambda I\|^2\) 是线性调整,本方法用非线性引导且不损害 RGB 渲染质量
  3. Post-Lifting Aggregation 噪声过滤:

    • 做什么:通过特征聚类和 IoU 匹配过滤不一致的 SAM mask
    • 核心思路:对提升后的特征做聚类 → one-hot 编码渲染回2D → argmax 得到 cluster mask → 计算每个 SAM mask 与 cluster mask 的 IoU → 低于阈值的 mask 被丢弃
    • 设计动机:多视角不一致通常源于 mask 噪声(如一个视角只分割面条,另一个同时包含碗和面条),而非真实的语义差异

损失函数 / 训练策略

无需训练过程,完全闭式求解。自动阈值选择通过 attention histogram 的局部极值确定,避免逐物体手动调参。

实验关键数据

主实验

数据集(LeRF-OVS) 指标(mIoU) 本文 LAGA (SOTA) 提升
Figurines mIoU 67.6 64.1 +3.5
Ramen mIoU 62.3 56.6 (N2F2) +5.7
Mean (4场景) mIoU 65.1 64.0 (LAGA) +1.1

消融实验

配置 指标 说明
无 Tikhonov + 无 Post-Agg Cosine Sim ~90% 基础 solver 已有较好提升能力
+ Tikhonov Guidance mIoU 提升 增强对角优势降低 \(\beta\)
+ Post-Lifting Aggregation mIoU 最优 过滤噪声 mask 进一步提升
多特征(DINO/ViT/ResNet) Cosine >80% 验证 feature-agnostic 能力

关键发现

  • Row-sum preconditioner 在数分钟内完成特征提升,远快于训练式方法的数小时
  • Tikhonov Guidance 通过增强对角优势有效降低 \(\beta\),理论与实验吻合
  • 大多数多视角不一致来自 mask 噪声而非真实语义变化,Post-Lifting Aggregation 有效过滤

亮点与洞察

  • 将 feature lifting 建模为线性逆问题是关键洞察,统一了三类方法(CosegGaussians、Occam's LGS、DrSplat 独立发现的 row-sum 规则都是其特例)
  • \((1+\beta)\)-近似误差上界是首个用于 feature lifting 的理论保证
  • 完全 kernel-agnostic 和 feature-agnostic:同一框架可处理 3DGS/2DGS/Beta Splatting 和 CLIP/DINO/ViT/ResNet 等任意特征

局限与展望

  • \(\beta\) 上界依赖最优解的特征离散度,实际值难以先验估计
  • Post-Lifting Aggregation 的 IoU 阈值虽有自动选择,但仍有场景敏感性
  • 闭式解假设 \(\sum \omega_p \approx 1\)(行随机性),极端稀疏场景可能退化

相关工作与启发

  • vs DrSplat: DrSplat 用 top-K 截断简化 row-sum,无理论保证;本文证明完整 row-sum 是 \((1+\beta)\)-最优
  • vs LAGA: LAGA 需要训练 affinity 模型和 view-dependent 聚类,本文完全无训练且在 LeRF-OVS 上超越
  • vs LangSplat: LangSplat 需端到端训练+PCA压缩,本文闭式求解且在 mIoU 上大幅领先

评分

  • 新颖性: ⭐⭐⭐⭐ 线性逆问题建模是优雅的统一框架,理论贡献突出
  • 实验充分度: ⭐⭐⭐ LeRF-OVS 覆盖较全,但评估基准较少
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,但符号偶有混用
  • 价值: ⭐⭐⭐⭐ 为3D feature lifting 建立了理论基础,有望成为后续工作的标准参考

相关论文