Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning¶

会议: CVPR 2026
arXiv: 2603.22758
代码: GitHub
领域: 视频理解 / 物体中心学习
关键词: 物体中心表征, 过度碎片化, 课程学习, Slot Attention, 视频分割

一句话总结¶

提出 SlotCurri，一种重建引导的 slot 数量课程学习策略，从极少 slot 开始训练并仅在重建误差高的区域逐步扩展 slot 容量，配合结构感知损失和循环推理，有效解决视频物体中心学习中单一物体被多个 slot 错误拆分的过度碎片化问题，在 YouTube-VIS 上实现 +6.8 FG-ARI 提升。

研究背景与动机¶

视频物体中心学习（VOCL）旨在将原始视频分解为紧凑的物体 slot 表征，为下游场景理解、视频分割等任务提供基础。然而现有方法面临严重的过度碎片化问题：

根本原因：模型被隐式鼓励利用所有可用 slot 来最小化重建目标——slot 预算越大重建质量通常越高，因此多个 slot 会协同表示同一个物体
实际危害：单一物体被拆分到多个 slot 中，破坏了 slot 与物体的一一对应关系，影响可解释性和计算效率
现有解决方案不足：SOLV 采用先过度生产 slot 再合并的策略，但合并阶段可能失败（对比学习已将 slot 推向编码不同表示）

核心思路：与其事后修补碎片化，不如从源头预防——将 slot 数量作为课程变量，从少到多渐进增加，确保新 slot 只分配到确实需要更多表达能力的区域。

方法详解¶

整体框架¶

基于 SlotContrast 基线构建，包含四个核心组件： 1. 重建引导的 slot 课程学习（SlotCurri） 2. 结构感知重建损失（SSIM3D） 3. 循环推理（Cyclic Inference） 4. 时序一致性对比学习（继承自 SlotContrast）

关键设计¶

重建引导的 slot 课程学习：训练从 \(K_{\text{init}}=2\) 个 slot 开始，经 \(M=3\) 个阶段逐步扩展。在阶段转换时：
- 计算每个 slot 的加权重建误差 \(\delta^{(k)} = \sum_{t,h,w} \alpha^{(k,t,h,w)} \cdot \mathcal{L}_{\text{MSE}}^{(t,h,w)}\)
- 按误差比例分配子代 slot 数量（误差越大分配越多），通过确定性取整保证总数准确
- 子代 slot 通过距离感知噪声扰动初始化：\(\hat{\mathbf{s}}^{(k^*)} = \hat{\mathbf{s}}^{(k)} + \beta \cdot d_{\text{nearest}}^{(k)} \cdot \frac{\|\hat{\mathbf{s}}^{(k)}\|}{\mu_{\text{norm}}} \cdot \mathbf{v}\)，其中噪声幅度与父 slot 到最近邻的距离和相对特征范数成正比，确保子代探索欠表达区域而非重复父代
结构感知重建损失（SSIM3D）：MSE 独立处理每个像素，会模糊空间细节和物体边界——在早期少量 slot 阶段尤为严重。SSIM 在 3×3×3 时空窗口上计算，显式保留局部对比度和边缘信息。最终损失：\(\mathcal{L} = \mathcal{L}_{\text{MSE}} + \lambda_{\text{SSC}} \mathcal{L}_{\text{SSC}} + \lambda_{\text{SSIM3D}} \mathcal{L}_{\text{SSIM3D}}\)
循环推理：仅在推理阶段应用——先前向传播 slot 到最后一帧，再反向传播回第一帧。最终使用反向传播的 slot 表征进行掩码解码，使早期帧也能利用未来上下文信息。推理时间仅增加 0.3%（286s→287s）。

损失函数 / 训练策略¶

总损失：MSE 重建 + SlotContrast 对比 + SSIM3D 结构
课程调度：在总迭代的 10% 和 25% 处扩展 slot
加速 slot 增长规则：\(K^{(m)} = K_{\text{init}} + m \cdot \sigma + 3m(m-1)/2\)
\(\sigma\) 按数据集调整（YouTube-VIS: 1, MOVi-C: 3, MOVi-E: 5），保证最终 slot 数与基线一致
超参数：β=0.2, λ_SSIM3D=0.05，跨数据集一致
硬件：2 × NVIDIA RTX A6000

实验关键数据¶

主实验¶

方法	YouTube-VIS FG-ARI↑	YouTube-VIS mBO↑	MOVi-C FG-ARI↑	MOVi-E FG-ARI↑
STEVE	15.0	19.1	36.1	50.6
VideoSAUR	28.9	26.3	64.8	73.9
SlotContrast	38.0	33.7	69.3	82.9
SlotCurri	44.8±1.2	35.5±2.2	77.6±0.9	83.7±0.2

与反碎片化方法对比（Image FG-ARI）：

方法	MOVi-C	MOVi-E
AdaSlot	75.6	76.7
SOLV	—	80.8
SlotCurri	81.6	84.9

消融实验¶

YouTube-VIS 上各组件贡献：

简单课程	重建引导	SSIM	循环推理	FG-ARI	mBO
—	—	—	—	36.1	32.7
✓	—	—	—	38.8	32.3
—	✓	—	—	42.6	33.7
—	✓	✓	—	43.6	35.2
—	✓	✓	✓	44.8	35.5

超参数敏感性： - 课程阶段数 M：M=3 最优（44.8），M=2 不足（41.5），M=4 反下降（44.7） - 扰动系数 β：β=0.2 最佳（44.8），过小（0.1: 42.8）子代太近似父代，过大（0.3: 40.2）噪声破坏有用信息 - SSIM 系数 λ：0.05 最优，过高（0.07）反而伤害

关键发现¶

仅简单课程（随机初始化新 slot）就带来 +2.7 FG-ARI 提升，证明渐进扩展本身有效
重建引导进一步贡献 +3.8（vs 简单课程），说明有目的地分配新 slot 比随机分配显著更好
过度碎片化度量（DOF@0.5）从 1.38 降至 1.26，直接验证碎片化减少
物体识别召回率（OIR@0.5）从 24.9% 提升至 30.3%，同时减少碎片化
在 MOVi-E 上增益较小，因该数据集主要挑战是欠碎片化（过多小物体），而非过度碎片化

亮点与洞察¶

设计哲学优雅："预防胜于修补"——不是先碎片化再合并，而是从根源上控制 slot 分配
距离感知噪声初始化精心设计——噪声幅度与最近邻距离成正比，既保证子代继承父代信息，又确保其探索新区域
SSIM3D 与课程学习的协同：SSIM 在早期少 slot 阶段帮助锐化语义边界，使后续 slot 扩展建立在已清晰分离的语义基础上
循环推理极其轻量（+0.3% 推理时间），却有效弥补早期帧的上下文不足

局限与展望¶

在 MOVi-E 等需要精细分割大量小物体的场景中增益有限（针对欠碎片化无效）
课程阶段数和扩展时机目前是手动设定的固定值，场景自适应的调度策略有待探索
slot 初始数量固定为 2，对物体数量极多的场景可能初始容量不足
仅在 DINOv2 骨干上验证，与其他视觉基础模型的兼容性未知
mBO 指标在合成数据集上未超过 VideoSAUR，可能因后者直接建模运动模式在合成场景下更有优势

评分¶

新颖性: ⭐⭐⭐⭐ — slot 数量课程学习 + 重建引导扩展是解决过度碎片化的新颖有效方案，但组件设计相对直觉
实验充分度: ⭐⭐⭐⭐⭐ — 真实/合成三个数据集，全面消融，引入 OIR 和 DOF 新指标，定量验证碎片化减少
写作质量: ⭐⭐⭐⭐⭐ — 动机阐述极为清晰，方法推导循序渐进，可视化丰富直观
价值: ⭐⭐⭐⭐ — 为 VOCL 社区提供了实用的训练范式，但应用场景相对垂直