iSegMan: Interactive Segment-and-Manipulate 3D Gaussians¶

会议: CVPR 2025
arXiv: 2505.11934
代码: https://zhao-yian.github.io/iSegMan
领域: 3D视觉
关键词: 3D高斯泼溅, 交互式分割, 场景操作, 极线约束, SAM

一句话总结¶

iSegMan提出了一个无需场景特定训练的交互式3DGS分割与操作框架，通过极线引导的交互传播(EIP)和基于可见性的高斯投票(VGV)实现精确的3D区域控制，配合完整的操作工具箱支持语义编辑、上色、缩放、复制粘贴、组合和删除等多种功能。

研究背景与动机¶

领域现状：3D高斯泼溅因其高效渲染和显式表示，正在推动3D场景操作领域的快速发展。现有方法如GaussianEditor通过文本驱动编辑，Instruct-GS2GS通过指令进行全局编辑。
现有痛点：(1) 现有3DGS操作方法难以精确控制操作区域，容易影响无关区域；(2) 基于文本提示的区域控制（如GaussianEditor）受限于文本描述的粗粒度，无法分割细粒度区域；(3) 现有3D交互式分割方法（SA3D、SAGA等）都需要场景特定的参数训练（特征蒸馏），影响效率和灵活性。
核心矛盾：场景操作需要精确的区域控制，但现有方法要么控制粗糙（文本驱动），要么需要耗时的预训练（特征蒸馏）。如何实现"零训练、精准控制、交互反馈"成为关键挑战。
本文目标 构建一个无需场景特定训练的3D区域控制模块，支持用户2D点击的任意视角交互，并在此基础上提供完整的场景操作工具箱。
切入角度：利用极线几何约束替代暴力特征匹配来传播用户交互到其他视角，利用高斯泼溅的alpha混合可见性信息替代特征训练来完成3D区域提取。
核心 idea：极线约束缩小搜索空间+可见性加权投票替代特征蒸馏=零训练的精准3D分割。

方法详解¶

整体框架¶

iSegMan接受用户在任意视角提供的2D点击（正/负），输出分割出的3D高斯子集。整体pipeline为：EIP将用户点击传播到多个视角 → SAM在各视角生成2D分割mask → VGV根据mask和高斯可见性投票提取3D区域 → 操作工具箱对选中区域执行用户指定功能。全过程不需要任何场景特定训练。

关键设计¶

极线引导的交互传播 (EIP):
- 功能：将用户在单一视角的2D点击高效、鲁棒地传播到其他视角
- 核心思路：给定视角 \(v\) 的2D点击 \(p_v\)，利用相机内外参将其投影为3D射线 \(r_{p_v}\)，然后计算该射线在新视角 \(\tilde{v}\) 上的极线 \(e_{p_v}^{\tilde{v}}\)。匹配搜索被限制在极线上，使用DINO特征在极线上进行相似度匹配：\(p_{\tilde{v}} = \text{Upsample}(I_{\tilde{v}}[\text{argmax}(\mathcal{A}_{p_v}^{\tilde{v}})])\)，其中亲和度 \(\mathcal{A}\) 只在极线采样点上计算
- 设计动机：直接在全图做特征匹配搜索空间大、噪声多、不鲁棒。极线约束将2D搜索空间严格缩减为1D线段，大幅提高效率和准确性。使用Bresenham算法高效采集极线上的离散特征
基于可见性的高斯投票 (VGV):
- 功能：根据多视角2D分割mask提取目标3D高斯，无需任何特征训练
- 核心思路：将2D像素视为"投票参与者"，3D高斯视为"候选者"。每个参与者的投票权重由该像素对该高斯的可见性（alpha混合权重）决定：\(\Upsilon_{i,j} = \sigma_i \cdot \alpha_i \prod_{k=1}^{i-1}(1-\alpha_k)\)。所有视角所有像素的投票求和得到每个高斯的得票数 \(\Psi_j\)，超过阈值的高斯被选中。此外引入迭代检查机制(IIM)：检查SAM预测mask与当前选中高斯的渲染mask是否相交，排除因遮挡或离开视野导致的错误分割
- 设计动机：现有方法通过训练3D语义特征场来实现2D-3D映射，耗时且不灵活。高斯泼溅的alpha混合渲染天然提供了像素到高斯的贡献权重，直接利用这一信息做投票，完全省去训练步骤。投票权重的非对称性（可见性高→投票权大）自然处理了遮挡关系
操作工具箱 (Manipulation Toolbox):
- 功能：提供完整的3D场景操作功能集合
- 核心思路：(1) 语义编辑：利用InstructPix2Pix编辑渲染视图，通过L1+感知损失迭代更新选中区域的高斯参数，配合退火策略提高稳定性；(2) 上色：直接修改高斯颜色属性，支持颜色替换和均衡上色两种模式；(3) 缩放：同时缩放方向向量和缩放因子保持刚体变换不变性；(4) 复制粘贴/组合/删除：直接操作高斯集合
- 设计动机：精确的区域控制为各种操作功能提供了基础，工具箱化的设计使框架高度可扩展

损失函数 / 训练策略¶

语义编辑的更新损失：\(\nabla_\theta \Theta_s = \mathbb{E}_v[(\frac{\partial \|I_v^e - I_v\|_1}{\partial I_v} + \frac{\partial \mathcal{D}(I_v, I_v^e)}{\partial I_v}) \cdot \frac{\partial I_v}{\partial \theta}]\)，包括L1图像损失和LPIPS感知距离。使用退火策略逐步减小更新步长。VGV模块本身无需训练。

实验关键数据¶

主实验：交互式3D分割（SPIn-NeRF数据集）¶

方法	需训练	mIoU(%)	mAcc(%)	特征时间	分割时间
SA3D	✓	91.9	98.8	5min	30s
SAGA	✓	88.0	98.5	~1.5h	10ms
LangSplat	✓	69.5	94.5	~2.5h	-
iSegMan	✗	92.4	99.1	52s	6s

语义编辑定量对比¶

指标	Instruct-GS2GS	GaussianEditor	iSegMan
User study↑	2.10±0.20	3.32±0.40	4.52±0.20
CLIP dir↑	0.1647	0.2071	0.2189

关键发现¶

iSegMan在分割性能上最优（mIoU 92.4%），同时完全不需要场景特定训练
特征提取时间仅52秒（vs SAGA的1.5h和SA3D的5min），因为不需要训练特征场
在语义编辑中，iSegMan通过精确区域控制避免了irrelevant区域被影响的问题
GaussianEditor基于文本的区域控制精度不足，容易导致编辑artifact
迭代检查机制(IIM)有效排除了因遮挡/离开视野导致的错误SAM mask

亮点与洞察¶

极线约束的巧妙应用：将多视立体视觉中的经典几何约束用于2D交互传播，将2D匹配问题降维为1D极线上的搜索。这个思路可以迁移到任何需要跨视角传播2D标注的任务
投票机制替代特征训练：利用高斯泼溅的alpha混合权重作为投票权重，完全省去特征蒸馏步骤。这揭示了3DGS的渲染过程本身就蕴含了丰富的2D-3D对应信息
交互式编辑循环：支持渐进式编辑复杂需求（如"把人变成穿绿衬衫黄裤子的铜像"），且可复用中间结果提高效率

局限与展望¶

语义编辑部分依赖InstructPix2Pix，受限于2D编辑器的能力
极线匹配使用DINO特征，在纹理重复或弱纹理区域可能失败
投票阈值需要手动设定，不同场景可能需要不同阈值
目前仅支持2D点击交互，不支持更丰富的交互形式（如涂鸦、文本+点击混合）
可改进：将VGV与SAM 2结合处理视频/动态场景

评分¶

新颖性: ⭐⭐⭐⭐ EIP和VGV的设计新颖实用，零训练分割是重要的实用创新
实验充分度: ⭐⭐⭐⭐ 分割+编辑两个任务的定量和定性评估全面
写作质量: ⭐⭐⭐⭐ 结构清晰，投票机制的表述形式化且直观
价值: ⭐⭐⭐⭐⭐ 高实用价值，为3DGS场景操作提供了真正可交互的工具