DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime¶
会议: CVPR 2026 arXiv: 2603.10538 代码: 接收后公开 领域: 分割 关键词: 场景图生成, 全景分割, 实时推理, 双向关系预测, 动态剪枝
一句话总结¶
提出 DSFlash,一个低延迟全景场景图生成模型,通过统一 backbone、双向关系预测和 mask 动态剪枝等设计,在 RTX 3090 上实现 56 FPS 的实时推理,同时保持 SOTA 性能(mR@50=30.9)。
研究背景与动机¶
场景图生成(SGG)旨在从图像中提取结构化的节点-边图表示,节点代表实例、边代表关系(如"person sitting on chair"),在 VQA、图像描述、具身推理等下游任务中很有价值。全景场景图生成(PSGG)进一步使用分割 mask 代替 bbox 进行实例定位。
核心矛盾:现有 PSGG 方法追求性能而忽视效率。DSFormer 达到 SOTA 的 mR@50=30.7,但推理延迟高达 458ms;即便 REACT 实现了 19ms,其 PSGG 性能也很有限。更关键的是,现有方法通常只预测关系的子集,而非完整场景图。
切入角度:DSFlash 从 DSFormer 出发,系统性地替换其低效组件——统一两个 backbone 为一个、设计双向预测头减半推理次数、利用 mask 信息做动态 token 剪枝——实现了"又快又全又好"的完整场景图生成。
方法详解¶
整体框架¶
DSFlash 采用两阶段架构:第一阶段用冻结的 EoMT backbone 做全景分割并提取特征;第二阶段对每对 mask 组合添加 mask embedding,经 transformer neck 和关系预测头输出双向关系。训练时使用 GT mask,推理时使用预测 mask。
关键设计¶
-
统一 Backbone(Merged Backbones): DSFormer 用两个独立 backbone(一个分割、一个关系预测),DSFlash 直接从分割模型 EoMT 中抽取中间层特征张量(blocks 2/5/8/11),拼接得到 \(768 \times 40 \times 40\) 的特征图,省去第二个 backbone 的开销。EoMT 始终冻结,训练仅需更新关系预测部分,大幅降低训练成本(单卡 GTX 1080 不到 24 小时)。选择 EoMT 而非 MaskDINO 是因为其纯 encoder 设计更快且易集成。
-
双向关系预测(Bidirectional Predictions): DSFormer 对每对 mask \((S_0, S_1)\) 需做两次前向传播(正向/反向),DSFlash 设计门控机制一次推理同时输出两个方向的关系:
- 先计算 \(g = \sigma(\text{gate}_{mlp}(x))\)
- 正向特征 \(t^{\rightarrow} = g \odot x\),反向特征 \(t^{\leftarrow} = (1-g) \odot x\)
- 共享 MLP 分别预测 \(z^{\rightarrow}\) 和 \(z^{\leftarrow}\)
为防止模型利用标注中正/反向标签分布不均的 shortcut,训练时交换 mask 顺序做第二次前向,加入特征一致性损失:\(\text{Consistency} = \frac{1}{D}\sum_{i}(t_i^{\rightarrow} - t_i^{\prime\leftarrow})^2 + (t_i^{\leftarrow} - t_i^{\prime\rightarrow})^2\)。推理时只需单次前向。
-
Mask 动态 Patch 剪枝: 利用 mask embedding 计算时已有的 overlap ratio 信息,识别与 subject/object 均无重叠的 patch token 并丢弃。这些远离主客体的 patch 对关系分类贡献极小,剪枝几乎无额外计算开销。由于最终预测仅依赖 CLS token,模型天然支持可变 token 数。
-
Token Merging: 在 backbone 的每个 attention 层前用 ToMe-SD 合并相似 token,attention 后再 unmerge,减少注意力计算量同时保持分割能力。
损失函数 / 训练策略¶
- 关系预测:BCE 损失
- 特征一致性:MSE 损失
- 数据增强:DeiT III 风格(随机翻转、色彩抖动、灰度/曝光/高斯模糊三选一)
- 训练时使用 GT mask,backbone 冻结
实验关键数据¶
主实验¶
| 方法 | mR@50 ↑ | 延迟 (ms) ↓ | 参数量 |
|---|---|---|---|
| DSFormer | 30.70 | 458 | 330M |
| HiLo-L | 19.08 | 427 | 230M |
| REACT | 19.00 | 19 | 43M |
| DSFlash-L | 30.90 | 50 | 340M |
| DSFlash-B* | 28.50 | 23 | 116M |
| DSFlash-S* | 25.05 | 18 | 40M |
消融实验(增量优化)¶
| 优化项 | mR@50 | 延迟 (ms) | RPS ↑ | 说明 |
|---|---|---|---|---|
| Baseline (DSFormer) | 30.7 | 445 | 435 | 起点 |
| + 统一 Backbone | 25.0 | 41 (-91%) | 5,745 | 最大加速来源 |
| + 高效 Mask 编码 | 25.0 | 37 (-10%) | 7,132 | 减少数据拷贝 |
| + 门控双向预测 | 28.8 | 29 (-22%) | 11,491 | 推理次数减半+额外监督提升性能 |
| + 跳过分割上采样 | 28.5 | 23 (-21%) | 12,928 | 无需上采样到原图分辨率 |
关键发现¶
- 分割模型质量直接决定最终场景图性能(mR@50 与 mR@inf 强相关),未来更好的分割模型可直接提升 DSFlash
- 双向预测不仅减半推理次数,还因额外监督信号提升了 mR@50(25.0→28.8)
- DSFlash-S 仅 40M 参数,18ms 延迟,仍优于除 DSFormer 外的所有方法
亮点与洞察¶
- 工程与设计并重:每个优化都有清晰的动机和量化分析,不是简单堆技巧
- 完整场景图:不像 REACT 只预测部分关系,DSFlash 对所有 mask 对预测关系,反而更快
- 一致性损失的洞察:发现训练集中正/反向标签分布不均会导致 shortcut learning,用一致性约束优雅解决
- 可部署性强:单卡 GTX 1080 训练 24h,RTX 3090 上 56 FPS 推理
局限性 / 可改进方向¶
- mR@50 高度依赖分割质量,若分割模型对某些类别表现差则场景图也差
- PSG 数据集仅 56 类谓词,真实场景关系更丰富
- 未探索场景图的下游任务验证(如 VQA、具身推理)
- 冻结 backbone 可能限制了对特定数据集的适配
相关工作与启发¶
- EoMT 的纯 encoder 设计是实现低延迟的关键基础设施选择
- 双向预测的门控机制借鉴 GRU 的门控思想,简洁有效
- DSFormer 的 mask embedding 模块设计合理,被直接复用
- Token Merging (ToMe) 在保持信息的同时减少计算量
评分¶
- 新颖性: ⭐⭐⭐⭐ 双向门控预测和 mask 动态剪枝有新意,整体是系统性工程优化
- 实验充分度: ⭐⭐⭐⭐⭐ 详尽的消融和延迟分析,每个组件的贡献清晰可见
- 写作质量: ⭐⭐⭐⭐ 结构清晰,动机阐述充分
- 价值: ⭐⭐⭐⭐⭐ 对实时场景图生成有重要实际意义,降低了 SGG 研究的硬件门槛
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评